Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
EGE ÜN�VERS
�TES
� FEN B
�L
�MLER
� ENST
�TÜSÜ
(DOKTORA TEZ�)
TÜRKÇE �Ç
�N
�STAT
�ST
�KSEL
B�R B
�LG
� GER
�-GET
�R
�M S
�STEM
�
Bekir Taner D � NÇER
Uluslararası Bilgisayar Anabilim Dalı
Bilim Dalı Kodu: 619.02.04
Sunu� Tarihi: 17/Eylül/2004
Tez Danı � manı: Prof. Dr. Bahar KARAO� LAN
Bornova – �ZM
�R
II
III
Sayın Bekir Taner D � NÇER tarafından DOKTORA TEZ � olarak
sunulan “Türkçe için � statistiksel bir Bilgi Geri-Getirim Sistemi” adlı
bu çalı � ma, “Lisansüstü E� itim ve Ö� retim Yönetmeli � i” nin madde (c)
ve (d) bentleri ve Enstitü yönergesinin ilgili hükümleri dikkate alınarak
tarafımızdan de� erlendirilmi � olup yapılan sözlü savunma sınavında
aday oy ………….. ile ba� arılı bulunmu � tur. Bu nedenle Bekir Taner
Dinçer’ in sundu� u metnin doktora tezi olarak kabulüne oy ………….
ile karar verilmi � tir.
…/………../2004
Jüri Ba� kanı :............................................... imza ..........................
Raportör :............................................... imza ..........................
Üye : .............................................. imza..........................
Üye : .............................................. imza ..........................
Üye : .............................................. imza ..........................
IV
V
Sevgili e� im Zeynep’e......
VI
VII
ÖZET
TÜRKÇE �Ç
�N
�STAT
�ST
�KSEL
B�R B
�LG
� GER
�-GET
�R
�M S
�STEM
�
D � NÇER, Bekir Taner
Doktora Tezi, Uluslararası Bilgisayar Enstitüsü
Tez Yöneticisi: Prof. Dr. Bahar KARAO� LAN
Eylül 2004, 379 sayfa
Bu tezde, Türkçe dilbilgisi özelliklerinin kullanımı ile BGG
(Bilgi Geri-Getirim) sistemlerinde ba� arımın artırılması sa� lanmı � tır. Sınanan dilbilgisi özellikleri, sözcük türleri (isim, sıfat, zamir v.b.),
cümle unsurları (fiil, fail/özne, nesne) ve kelime guruplarıdır. Sözcük
türlerinin ve cümle unsurlarının ba� arımı anlamlı düzeyde arttırdı � ı
bulunmu� , kelime guruplarının ba� arımı arttırdı � ı konusunda bir delil
sa� lanamamı � tır. Hesaplamalı dilbilim sahası içine giren dört yöntem
geli � tirilmi � tir: 1-) Türkçe yazılı belgelerin tespiti 2-) Cümle sonlarının
tespiti 3-) Kelime gövdeleme 4-) Kelimelerin sözcük türü tespiti. � lk üç
yöntemde, ba� arı sa� lanmı � , ancak kelimelerin sözcük türü tespitinde,
kabul edilebilir bir ba� arıma ula� ılamamı � tır. Sadece, kelimelerin
sözcük türü tespiti için, önerilen yöntemin rasgelelikten anlamlı
düzeyde farklı oldu� unu söyleyebilecek delile ula� ılmı � tır. Türkçe
yazılı belgelerle olu� turulan derlemlerde, Zipf ve Mandelbrot ifadeleri
için en iyi uyumun parametreleri belirlenmi � tir.
Anahtar kelimeler : Bilgi geri-getirim, hesaplamalı dilbilim.
VIII
IX
ABSTRACT
A STATISTICAL INFORMATION RETRIEVAL SYSTEM
FOR TURKISH
D � NÇER, Bekir Taner
PhD Thesis, International Computer Institute
Supervisor: Prof. Dr. Bahar KARAO� LAN
September 2004, 379 pages
In this thesis, we have shown that an Information Retrival
system performance for Turkish can be enhanced by the use of
linguistic knowledge. The examined linguistic properties are part-of-
speeches (noun, adjective, etc.), syntactic functions ( verb, subject,
object etc.) and two-word phrases. An evidence of significant
contribution on the performance is found in the training corpus for the
part-of-speeches and syntactic functions. However, no such evidence is
found for the phrases. Additionaly, four methods which are considered
to be in the field of computational linguistics are developed. These are:
1-) Turkish texts recognizer, 2-) Sentence boundary detector, 3-) A
stemming algorithm and 4-) A statistical part-of-speech tagger.
Satisfactory (above 95%) results for first three methods are obtained,
however the last method, the part-of-speech tagger, did not show the
anticipated performance (85%). At this point, we can only say that the
proposed method of part-of-speech tagging shows an evidence of
significant difference from randomness. The best fit parameters of Zipf
and Mandelbrot functions are, also, experimantally evaluated for
selected Turkish corpora.
X
XI
TE � EKKÜR
Bu tezin var olmasını sa� layan, bilimde uzmanlı � ını,
deneyimlerini ve be� eri ili � kiler konusundaki de� erli fikirlerini özveri
ile bana aktaran tez yöneticim ve danı � manım Bahar Karao� lan’a
saygı, sevgi ve ba� lılı � ımı; aynı zamanda � ahsıma dü� en zorlukların
tamamında yanımda olan ve samimiyetle her türlü deste� i benden
esirgemeyen sevgili e� im Zeynep Koro� lu Dinçer’e sonsuz
te� ekkürlerimi ve a� kımı sunarım. Özellikle beni var eden aileme ve
aralarına kabul eden kayın-aileme gösterdikleri sabır ve sevgiden
dolayı bu çalı � ma vesilesi ile bir kere daha en içten te� ekkürlerimi
sunarım.
Çalı � malarda desteklerini esirgemeyen, Uluslararası Bilgisayar
Enstitüsünden sevgili hocalarım: Aydın Öztürk, Mehmet Emin Dalkılıç
ve Turhan Tunalı’ ya; çalı � ma arkada� larım Ebru Çelikel, Cengiz
Güngör, � lker Kocaba� , Burak Aydın, Hasan Sait Erinç, Geylani Karda� ve Muhammed Cinsdikici’ ye; di � er tüm arkada� larıma ve çalı � anlara
� ükranlarımı sunarım. Ayrıca, Mu� la Üniversitesinden sayın hocalarım
Mübariz Eminov’a ve Mustafa Dilek’e yardımlarından dolayı, Ba� kent
Üniversitesinden Hayri Sever’e katkılarından dolayı, Sabancı
Üniversitesinden Kemal Oflazer’e ve ayrıca Gökhan Tür’e derlemlerin
sa� lanması ve yardımlarından dolayı te� ekkürü bir borç bilirim
Bu tezi, Türkçe’ye ve Türkçe’nin geli � mesine emek vermi � olan
ba� ta Gazi Mustafa Kemal Atatürk olmak üzere, bu yolda çalı � mı � , tüm
hayatını adamı � ve dilimizi yüceltmi � olan herkesin anısına; halen
çalı � anların ve gelecekte çalı � acak olanların onuruna ithaf ediyorum.
XII
XIII
�Ç
�NDEK
�LER
Sayfa
ÖZET............................................................................................................................. VII ABSTRACT....................................................................................................................IX TE � EKKÜR...................................................................................................................XI 1. G � R � � .............................................................................................................................1 2. TÜRKÇE .................................................................................................................... 19
2.1. TÜRKÇE HARFLER VE ALFABE..................................................................... 21 2.2. HECELER VE KEL � MELER.............................................................................. 22
2.2.1. Türkçe Heceleme.................................................................................... 22 2.3. � EK � L YAPISI BAKIMINDAN KEL � MELER ...................................................... 23
2.3.1. Kökler ve Gövdeler................................................................................. 23 2.4. ANLAM VEYA GÖREV BAKIMINDAN KEL � MELER....................................... 24 2.5. KEL � ME GURUPLARI..................................................................................... 26
2.5.1. Aynen Tekrarlar ...................................................................................... 28 2.5.2. Ba� lama Gurubu .................................................................................... 28 2.5.3. Sıfat Tamlaması ...................................................................................... 29 2.5.4. � yelik Gurubu ve � sim Tamlaması.......................................................... 30 2.5.5. Aitlik Gurubu .......................................................................................... 31 2.5.6. Birle� ik � sim ve Birle� ik Kelime............................................................. 31 2.5.7. Birle� ik Fiil ............................................................................................. 32 2.5.8. Unvan Gurubu ........................................................................................ 32 2.5.9. Ünlem Gurubu ........................................................................................ 33 2.5.10. Sayı Gurubu....................................................................................... 33 2.5.11. Edat Gurubu ...................................................................................... 34 2.5.12. � snat (yükleme) Gurubu..................................................................... 34 2.5.13. Genetif Gurubu.................................................................................. 35 2.5.14. Datif Gurubu...................................................................................... 35 2.5.15. Lokatif Gurubu................................................................................... 36 2.5.16. Ablatif Gurubu................................................................................... 36 2.5.17. Kısaltma Gurupları ........................................................................... 36 2.5.18. Akuzatif Gurubu................................................................................. 37
2.6. CÜMLE VE CÜMLE UNSURLARI ................................................................... 37 2.6.1. Fiil Unsuru.............................................................................................. 38 2.6.2. Fail Unsuru............................................................................................. 39 2.6.3. Nesne....................................................................................................... 39 2.6.4. Yer Tamlayıcısı ....................................................................................... 40 2.6.5. Zarf .......................................................................................................... 40 2.6.6. Cümle Dı � ı Unsurlar .............................................................................. 40
3. ENFORMASYON ..................................................................................................... 41
XIV
3.1. ENFORMASYON B � L � M VE B � LG� GER� -GET � R� M ......................................... 41 3.2. ENFORMASYON TANIMI VE FARKLI YAKLA � IMLAR................................... 42
3.2.1. Enformasyon-i � lem (Anlamsal-Enformasyon)...................................... 43 3.2.2. Çevre-bilimsel Yakla� ım......................................................................... 47 3.2.3. Matematiksel Yakla� ım........................................................................... 47 3.2.4. Enformasyon Yakla� ımlarının Kar � ıla� tırması..................................... 49
3.3. ENFORMASYONUN � LET � M � – � LET � � � M ........................................................ 51 3.4. VER� , ENFORMASYON VE B � LG� TANIMLARI............................................... 54 3.5. ENFORMASYON VE HABER .......................................................................... 55
4. ENFORMASYON KURAMI .................................................................................. 61 4.1. DÜZENS� ZL � K (ENTROPY) ............................................................................ 62 4.2. B � RLE� � K DÜZENS� ZL � K VE KO� ULLU DÜZENS� ZL � K .................................. 64 4.3. KAR � ILIKLI ENFORMASYON (MUTUAL INFORMAT � ON) ............................. 66 4.4. KO � ULLU DÜZENS� ZL � K (COND � T � ONAL ENTROPY) ................................... 68 4.5. ÇAPRAZ DÜZENS� ZL � K (CROSS ENTROPY)................................................... 70 4.6. � ST � KRARSIZLIK (PERPLEX � TY) .................................................................... 75
5. B � LG � GER � -GET � R � M S � STEMLER � ............................................................... 77 5.1. GENEL S� STEM YAPILANMASI ..................................................................... 82 5.2. GENEL � � LEY � � KURGUSU ( � Ç YAPILANMA) ............................................... 84 5.3. SAYISAL BELGE TEMS� L � ............................................................................. 86
6. GER � -GET � R � M MODELLER � ............................................................................ 97 6.1. VEKTÖR UZAYI MODEL � ............................................................................ 103 6.2. G� ZL � ANLAM � NDEKSLEME MODEL � ........................................................ 107
7. � NDEKSLEME VE � NDEKS TER � MLER ........................................................ 115 7.1. ELLE � NDEKSLEME ..................................................................................... 117 7.2. DO� AL B � R D � LDE, KEL � MELER� N DA � ILIMI............................................ 120
7.2.1. Zipf Güç Kanunları .............................................................................. 124 7.3. OTOMAT � K � NDEKSLEME............................................................................ 129
7.3.1. ndekslemenin Kapsamı ve Terim Öznelli i. ...................................... 134 7.3.2. Kelime Gurupları ile ndeksleme......................................................... 135
7.4. HESAPLAMALI D � LB � L � M YÖNTEMLER� ..................................................... 138 8. BA � ARIM ÖLÇÜTLER ...................................................................................... 141
8.1. ANMA VE DUYARLILIK ESASINDA ÖLÇÜT TÜRLER� . ............................... 141 8.2. ANMA VE DUYARLILIK ESASINDA BA � ARIMIN ÖLÇÜMÜ. ....................... 148 8.3. ANMA VE DUYARLILI � I ESAS ALMAYAN BA � ARIM ÖLÇÜTÜ.................. 157
9. TEZ KAPSAMINDA GEL � T R L M � YÖNTEMLER ................................ 163 9.1. TÜRKÇE YAZILI BELGELER� N TESP� T � ....................................................... 168
9.1.1. Önceki Çalı � malar ................................................................................ 169 9.1.2. Önerilen Yöntem................................................................................... 175 9.1.3. Deneysel Sonuçlar ................................................................................ 175
9.2. TÜRKÇE MET � NLER� N NORMALLE � T � R� LMES� .......................................... 176 9.2.1. Önceki Çalı � malar ................................................................................ 176 9.2.2. Önerilen Yöntem................................................................................... 178 9.2.3. Deneysel Sonuçlar ................................................................................ 180
9.3. GÖVDELEME ............................................................................................... 185
XV
9.3.1. Önceki Çalı � malar ................................................................................ 187 9.3.2. Önerilen Yöntem................................................................................... 191 9.3.3. Deneysel Sonuçlar ................................................................................ 195
9.4. SÖZCÜK TÜRÜ TESP� T � ............................................................................... 207 9.4.1. Önceki Çalı � malar ................................................................................ 208 9.4.2. Önerilen Yöntem................................................................................... 210 9.4.3. Deneysel Sonuçlar ................................................................................ 224
10. GENEL �STAT
�ST
�KLER.................................................................................. 229
10.1. TANIMLAYICI � STAT � ST � KLER .................................................................... 233 10.2. TÜRKÇE � Ç� N Z � PF GÜÇ KANUNLARI � NCELEMES� .................................... 239
10.2.1. � statistiksel � ncelemeler için Alt Yapı............................................. 239 10.2.2. BilTD Derleminin Zipf Birinci Kanun � ncelemesi ......................... 242 10.2.3. ODTÜ Derleminin Zipf Birinci Kanun � ncelemesi........................ 249 10.2.4. OSTAD Derleminin Zipf Birinci Kanun � ncelemesi ...................... 251 10.2.5. Birle� ik Derlemlerin Zipf birinci kanun incelemesi ...................... 254
10.3. � NG� L � ZCE � Ç� N Z � PF B � R� NC� KANUN � NCELEMES� .................................... 256 10.4. TÜRKÇE � Ç� N KEL � ME DA � ARCI � I (KD) � NCELEMES� .............................. 260
10.4.1. Kelime Da� arcı� ı Boyutları– Zipf Birinci Kanun......................... 260 10.4.2. Kelime Biçimleri – Zipf � kinci Kanun ............................................ 265 10.4.3. � � lev ve � çerik Kelimeler (� ndeks Terimler) ................................... 277
11. NDEKS TER M SEÇ M ................................................................................... 285 11.1. GENEL DA ILIMLAR .................................................................................. 291
11.1.1. Sözcük Türleri .................................................................................. 291 11.1.2. Cümle Unsurları .............................................................................. 299 11.1.3. Sözcük Türü ve Cümle Unsuru Ortak De� erlendirme.................. 305 11.1.4. Kelime Gurupları............................................................................. 307
11.2. BGG S� STEM BA ARIMI ÜZER� NE � NCELEMELER. .................................... 311 11.2.1. Türkçe için E� ik Ba� arım................................................................ 314 11.2.2. � ndeks Terim Seçimi ve A� ırlıklandırma........................................ 317 11.2.3. Dilbilgisi Özelliklerinin Ba� arıma Etkisi ....................................... 321
12. SONUÇ.................................................................................................................... 333 13. GEL � ��� M NOKTALARI VE TARTI � MA....................................................... 341 TÜRKÇE- � NG � L � ZCE TER � MLER SÖZLÜ � Ü.................................................. 345 KAYNAKLAR............................................................................................................. 349 EKLER.......................................................................................................................... 367 ÖZGEÇM � � ................................................................................................................. 379
� EK � LLER
�ekil Sayfa
1.1 Enformasyon bilim ve hesaplamalı dilbilim sahalarının etkile� imleri.
10
3.1.1 Enformasyon bilimine katkıda bulunan di � er bilimler (Ingwersen, 1992).
41
3.2.1.1 Bireysel bilme eylemi (Soergel, 1985). 44
3.2.1.2 � nsanlar arasında Mesaj/Haber � letimi. Soergel’den (1985) uyarlanmı � tır. Enformasyonun veriye ve verinin tekrar enformasyona dönü� üm evrelerini betimler.
46
3.3.1 � leti � imin klasik modeli. (Shannon, 1949, uyarlama) 52
3.3.2 Anlamsal-enformasyonun yazı ile iletim modeli. 53
3.4.1 Veri, enformasyon ve bilgi arasındaki ili � kilerin denklemleri. 54
4.3.1 Kar � ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili � ki. 67
5.1 Bilgi Ke� fi/Madencili � i ve Belge/Metin Madencili � i u� ra� larına ait yapısal kurguların kar � ıla� tırması. “Veri’den Bilgi Ke� fi” ve “Belge Madencili � i” sahalarındaki alt süreçler, yapısal ve içerik benze� imleri nispetinde kar � ılıklı e� le� tirilmi � tir.
82
5.1.1 Bilgi geri-getirim sistemlerinin genel kurgusu. 83
5.1.2 Kullanıcı bakı� açısından, BGG sistem hizmetleri. 84
5.2.1 Bilgi geri-getirim sistemlerinin iç yapılanma örne� i. 85
5.3.1 Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal belge temsil yordamı.
87
5.3.2 Sayısal belge temsili olu � turulması adımlarına örnekler. 88
6.1 Bilgi geri-getirim modellerinin sınıflandırılması. (Baeza-Yates and Ribeiro-Neto, 1999, uyarlama).
98
ii
� EK � LLER (devam) �ekil Sayfa
6.1.1 Bir bj belge vektörü ile, qi sorgu vektörünün, iki boyutlu indeks terim uzayında çizgesel betimlemesi.
104
6.2.1 Örnek belge uzayı için, terim-belge matrisi. 108
6.2.2 Örnek derlem terim-belge matrisi için hesaplanmı � , ESA bile� en matrisleri.
110
6.2.3 Belgeler arası kar � ılıklı ili � ki katsayı matrisleri. 113
7.2.1 Kelimelerin frekansları ile muhtemel enformasyonu temsile katkı miktarı arasındaki ili � kinin çizgesi (Luhn, 1958, uyarlama).
122
8.1.1 Anma ve duyarlılık ölçümlerini betimleyen çizge. 141
8.1.2 Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki rekabetin temsili çizgesi.
143
9.2.1 Anma-duyarlılık e� risinin iki örne� i. 151
9.4.2.3.1 Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve kar � ılık gelebilecek sözcük dizisi ihtimalleri (b).
219
9.4.2.3.2 Örnek cümlenin Markov süreci altında, sözcük türü tespit kurgusu.
220
9.4.2.3.3 Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda, önerilen kelime sonundan belirli sayıda harf birli � inin hesaplama birim olarak kullanılması.
223
9.4.3.1 Sözcük türü tespit, sınama sonuçları. 1. dereceden Markov süreci kurgusu altında, tüm talim derlemi boyutları sondan alınan harf birliklerinin tüm uzunlukları için.
225
9.4.3.2 Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi � e bir adım Markov süreci kurgusu altında, tüm talim derlemi boyutları ve sondan alınan harf birliklerinin tüm uzunlukları için.
226
� EK � LLER (devam) �ekil Sayfa
10.1 ODTÜ derlemindeki belge türleri. 230
10.2 OSTAD derlemindeki belge türleri. 230
10.1.1 BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik (harf), kelime ve gövde sayılarının toplam üzerinden göreceli oranları.
231
10.1.2 Birle� ik derleminin (BirTD), kelime esasında kelime da� arcı� ını olu� turan kaynak derlemler ve oransal katkıları.
233
10.1.3 BilTD ve OSTAD derlemlerinin, gövdeler esasındaki kelime da� arcı� ına yaptıkları katkılar.
235
10.2.2.1.1 BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu. 243
10.2.2.2.1 BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi.
246
10.2.2.2.2 BilTD derleminin, gövde esasında, Mandelbrot ifadesi ile W=1000 parametre de� er için uyumu çizgesi.
247
10.2.3.1 ODTÜ derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.
248
10.2.4.1.1 OSTAD derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.
250
10.2.4.2.1 OSTAD derlemin, gövde esasında, Zipf ifadesi ile uyum çizgesi.
251
10.2.4.2.2 OSTAD derleminin, gövdeler esasında, Mandelbrot (W=100) ifadesi ile uyum çizgesi.
251
10.2.6.1 � ngilizce birle� ik derlemin, kelime esasında Zipf ifadesi ile uyum çizgesi.
256
10.2.6.2 � ngilizce birle� ik derlemin, kelime esasında Mandelbrot (W=100) ifadesi ile uyum çizgesi.
256
iv
� EK � LLER (devam) �ekil Sayfa
10.3.2.1.1 Kelime esasında Türkçe birle� ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti � i kelime biçimi adedi ile gözlemlenen kelime biçimi adedinin yayılım çizgesi.
267
10.3.2.1.2 Kelimeler (a) ve gövdeler (b) için kelime da� arcıkları. 269
10.3.2.1.3 Gövde esasındaki Türkçe birle� ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti � i kelime biçimi sayıları ile gözlemlenen kelime biçimi sayılarının yayılım çizgesi.
270
10.4.3.1.1 Gövde esasında Türkçe birle� ik derlem için, Zipf birinci kanun e� im tahminlerinin yayılım çizgesi.
282
11.1.1.1 OSTAD derlemi, kelime (a) ve gövde (b) esasında kelime da� arcı� ı içinde sözcük türü oranları.
293
11.1.1.2 OSTAD derlemi, derlem içinde gözlenme sıklı� ına göre sözcük türü oranları.
294
11.1.1.1.1 OSTAD derleminde sözcük türlerinin indeks terim da� ılımları.
295
11.1.1.1.2 � ndeks terimlerin sözcük türü da� ılımları. 296
11.1.2.1 OSTAD derlemi, cümle unsurlarının indeks terim da� ılımları. 301
11.1.2.2 OSTAD derleminde indeks terimlerin cümle unsuru da� ılımları.
302
11.2.1.2 Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.
315
11.2.3.4.1 OSTAD derleminde, kelime guruplarının geri-getirim ba� arımı üzerine etki sınamasına ait üstel-puanlar.
330
Ç � ZELGELER
Çizelge Sayfa
3.2.4.1 Enformasyonun çe� itli hallerini gruplayan Buckland Matrisi (Buckland, 1991)
50
5.1 Veri geri-getirim ile Bilgi geri-getirim sistemlerinin i � levsel özellikleri.
79
5.3.1 Bir milyon ve on milyon kelimelik Türkçe derlemlerin kelime da� arcıkları (Hakkani-Tür et. al., 2002).
90
6.1 Bilgi geri-getirim modellerinin geri-getirim hizmeti ve sayısal belge temsil � ekli eksenlerinde sınıflandırılması.
100
7.2.1 Zipf birinci kanunun, Tom Sawyer romanı üzerinde deneysel de� erlendirmesi (Manning and Schütze, 2003, uyarlama).
123
8.1.1 Seçilmi � (S) ve hedef (H) olasılık de� i � kenlerinin birle� ik da� ılımının 2x2 olasılık tablosu olarak gösterimi.
142
9.1.2 1000 belgelik örnek bir belge uzayı için anma (A), duyarlılık (D), F-ölçütü ve do� ruluk (DO) oranı ölçüm listesi.
146
9.2.1 BGG sistemlerinin sıralama esasına dayalı de� erlendirme örne� i. Sütunlarda belgelerin farklı üç sıralaması bulunmaktadır.
148
9.1.1.1 Fransızca, � spanyolca, � ngilizce ve Portekizce için yazılı metinden dil tespit sonuçları (Lins and Gonçalves, 2004).
170
9.1.3.1 Çok dilli belge derleminde Türkçe belgelerin tespitine ait deneysel sonuçlar.
175
9.2.2.1 Cümle sonu yordamını tanımlamada kullanılan simge sistemi.
178
9.2.3.1 Cümle sonu tespiti için kullanılan Türkçe derlemin belirli özellikleri.
180
vi
Ç � ZELGELER (devam)
Çizelge Sayfa
9.2.3.2 Cümle sonu tespit yordamında kullanılan ve üçlü birlikle temsil edilen durumlar için Türkçe derlemden çıkartılan istatistikler.
181
9.2.3.3 Cümle sonu tespitinde, [W*W] durumu için, heceleme önermesi ile meydana gelen hata oranları.
184
9.3.3.1 Gövdeleme yöntemi sınamalarında kullanılan Talim ve Test derlemi özellikleri.
195
9.3.3.2 Önerilen gövdeleme yöntemi ile üretilmi � gövdelere örnekler.
199
9.4.2.3.1 Örnek cümlenin, her kelimesinin olası sözcük türleri. 218
10.1 BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri. “* ” karakteri olan hücreler derlemlerin söz konusu özelli � inin belli olmadı� ını gösterir.
228
10.1.1 BirTD için kelimelerin geldikleri derlemler üzerinden istatistikleri.
233
10.1.2 Gövde esasında BirTD derlemi için tanımlayıcı istatistikler. 235
10.2.2.1.1 BilTD derlemi için, kelime esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.
241
10.2.2.2.1 BilTD derlemi için, gövde esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.
245
10.2.3.1 ODTÜ derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
248
10.2.4.1.1 OSTAD derleminin, kelime esasında Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
249
10.2.4.2.1 OSTAD derleminin, gövde esasında Zipf ve Mandelbrot ifadesi ile, do� rusal ili � ki uyum sınamaları.
250
10.2.5.1.1 BirTD derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
252
Ç � ZELGELER (devam)
Çizelge Sayfa
10.2.5.2.1 BirTD derleminin, gövde esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
253
10.2.6.1 Time, Cranfield, Medlars ve birle� ik derlemlerinin genel özellikleri.
254
10.2.6.1 � ngilizce birle� ik derlemin, Zipf ve Mandelbrot ifadeleri ile, kelime asasında uyum sınaması.
255
10.3.1.1 Türkçe birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı� ı büyüme katsayıları.
259
10.3.1.2 � ngilizce birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı � ı büyüme katsayıları.
259
10.3.1.3 Türkçe birle� ik derlemin gövde esasında incelenen her modeli için, kelime da� arcı� ı büyüme katsayıları.
260
10.3.1.4 Kelime esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı � ı boyut (KDB) tahminleri.
260
10.3.1.5 Kelime esasında � ngilizce birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı � ı boyut tahminleri.
261
10.3.1.6 Gövde esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı � ı boyut tahminleri.
261
10.3.2.1.1 Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri.
265
10.3.2.1.2 Kelime esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonucu.
266
10.3.2.1.3 Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri.
268
10.3.2.1.4 Gövde esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonuçları.
270
viii
Ç � ZELGELER (devam)
Çizelge Sayfa
10.3.2.2.1 Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.
272
10.3.2.2.2 Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.
273
10.4.3.1.1 Kelime esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri.
278
10.4.3.1.2 Gövde esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri.
281
11.1 OSTAD derleminde elle i � aretlenmi � belge istatistikleri. 284
11.2 BilTD ve OSTAD derlemlerinde yapılmı � olan biçimbirimsel i � aretlemede temel sözcük türü kodları.
287
11.1.1.1 Kelime esasında sözcük türlerinin kelime da� arcı � ı içindeki oransal da� ılımları.
292
11.1.1.2 Gövde esasında sözcük türlerinin kelime da� arcı� ı içindeki oransal da� ılımları.
292
11.1.1.3 Sözcük türlerinin derlem içinde görülme sıklıklarının oransal da� ılımları.
294
11.1.1.1.1 OSTAD derleminde sözcük türlerinin indeks terim da� ılımları.
295
11.1.1.1.2 OSTAD derleminde, sözcük türü ve indeks terimlerin toplu de� erlendirmesi.
297
11.1.2.1 OSTAD derleminde cümle unsuru i � aretlemesinde kullanılan kodlar.
299
11.1.2.2 � ndeks terimlerin cümle üzerindeki da� ılımı. 300
11.1.2.3 OSTAD derlemi, cümle unsuru ve indeks terim için toplu de� erlendirme.
303
Ç � ZELGELER (devam)
Çizelge Sayfa
11.1.3.1 OSTAD derleminde, sözcük türü ve cümle unsuru birlikte indeks terim da� ılımı.
305
11.1.4.1 OSTAD derleminde, kelime guruplarının indeks terim da� ılımları.
307
11.1.4.2 OSTAD derleminde 2 kelimeden olu� an kelime guruplarını, sözcük türü kombinasyonlarının indeks terim da� ılımları.
308
11.2.1.2 Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.
315
11.2.2.1 Örnek paragrafın TFxIDF a� ılıkları. 318
11.2.2.2 Örnek paragrafın, TFxIDF a� ırlıkları üzerinden duyarlılık de� erleri.
319
11.2.3.1.1 Örnek paragrafın, sözcük türü ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.
323
11.2.3.1.2 OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve sözcük türü a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
324
11.2.3.2.1 Örnek paragrafın, cümle unsurları ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.
326
11.2.3.2.2 OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve cümle unsuru a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
326
11.2.3.3.1 Örnek paragrafın, cümle unsuru ve sözcük türü ile birlikte atanan a� ırlıkları üzerinden duyarlılık de� erleri.
327
11.2.3.3.2 OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF ile sözcük türü ve cümle unsuru birlikte, yapılan a� ırlıklandırma ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
328
x
YAYIN L � STES�
Dinçer , B., T. and Karao � lan, B., 2004, “Sentence Boundary Detection in Turkish.” , Proceedings of the 3rd International Symposium on Advances in Information Sciences (ADVIS’04), To be published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, 20-22 October, Izmir, Turkey.
Dinçer , B., T. and Karao � lan, B., 2004, “Effect of part-of-speech tagging on IR performance for Turkish.” , Proceedings of the 19th International Symposium on Computer and Information Sciences (ISCIS’04), To be published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, 27-29 October, Kemer–Antalya, Turkey .
Celikel, E. and Dinçer B., T., 2004, "Improving the Compression Performance of Turkish Texts with PoS Tags", International Conference on Information and Knowledge Engineering (IKE’04), published by CSREA Press (ISBN: 1-932415-27-0), Las Vegas, Nevada, USA, June 21-24.
Dinçer , B., T. and Karao� lan, B., 2003, “Stemming in Agglutinative Languages: A probabilistic stemmer for Turkish.” , Proceedings of the 18th International Symposium on Computer and Information Sciences (ISCIS’03), Published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, Vol: 2869, 3-5 November, Kemer–Antalya, Turkey, pp. 244-251.
Dinçer , B., T. ve Karao� lan, B., 2003, “Bilginin Sosyal Uzantısı : Bili � im” , Bilgi Teknolojileri Sempozyumu, B � LG� -TEK’03, Bildiriler Kitabı (ISBN: 975-6992-08-5), Pamukkale Üniversitesi, Denizli, Türkiye, 44-46.
xii
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
1
1. G � R ���
“ Bilgi güç demektir.” (Francis Bacon,1561-1626)
Bu tez bilgi geri-getirim veya eri � im (BGG veya BE)
sistemlerinde birbirini destekleyen iki çalı � mayı sunmaktadır: Türkçe
yazılı metinler için sayısal belge temsilini dil-bilim özelliklerine dayalı
istatistikler ile destekleme yöntemleri ve dil-bilim özellikleri ile
desteklenmi � sayısal belge temsilinin geri-getirim ba� arımı üzerindeki
etkilerinin ara� tırma sonuçları. Geli � tirilen yöntemlerin, Türkçe yazılı
metinlere uygulanabilmesi için gerekli, bir ön-i � lem a� aması olan
simgele� tirme (Tokenization), cümle sonu tespitini de içerecek � ekilde
geli � tirilmi � tir. Tez hedefinde, Türkçe yazılı metinler bulundu� u için,
çok dilli bir belgeler toplulu� u içinden (örne� in Internet) Türkçe yazılı
metinlerin hızlı ve verimli bir � ekilde ayırt edilmesine yönelik yeni bir
yordam da ayrıca olu� turulmu � tur. Bu bölümde öncelikle BGG
sahasının tanıtımı, sahadaki u� ra� ların genel hedefleri ve bu hedeflere
ula� manın önünde mesele yaratan konular tanıtılacaktır. Tezin kapsamı
ve hedefleri genel tanıtımın ardından sunulacaktır. Tez kapsamımız
içinde cevapladı � ımız ara� tırma sorularının özetleri ve tezin genel
anlatım akı � ı bölüm sonunda yer almaktadır.
Bilgi geri-getirimin veya eri � imin tanımı en genel hali ile
� öyledir:
“ � nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve sunulmasını içine alan bir süreç. ...”
(Ingwersen, 1992)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
2
Verilen tanımının sınırları içinde BGG, kullanıcıların belirtti � i
enformasyon ihtiyaçları do� rultusunda belirli bir belge toplulu� undan
alakalı belgelerin kılavuzlarının (künyelerinin ve eri � im bilgilerinin),
daha do� rusu varlı � ının tespit edilmesi i � idir. Söz konusu, güncel
anlamda sorun olan hedef belge toplulu� u Internet’ tir. Internet’ in
günlük ya� amın içine girmesi ve yaygınla� ması ile insanlık tarihinde
� imdiye kadar kar � ıla� ılmamı � miktarda ki � isel, bölgesel, kurumsal,
bilimsel vb. enformasyon’ un bir arada bulundu� u bir ortam olu� mu� tur.
Dolayısı ile yönetilmesi, depolanması ve organize edilmesi gereken,
sayısı milyonlarla ifade edilen metin, resim ve görüntü vardır (Brin and
Page, 1998). Internet üzerindeki geli � imin ne düzeylerde oldu� u ve
gelecekte bizi ne tür bir enformasyon hacminin bekledi � ine dair bir
izlenimi � u istatistiklerden rahatlıkla elde edebiliriz1: 1998 yılı için,
sadece Amerika’daki tahmin edilen Web sayfası sayısı 320 milyon ve
Internet kullanıcısı sayısı 57 milyondur, 81 milyon e-posta kullanıcısı
arasında toplam 3,4 trilyon mesaj gönderilmi � tir; � ngiltere ile � rlanda
arasındaki yıkıcı (spam) e-posta gönderimini engelleme i � inin, 1998
yılı tahmini bedeli 8 milyon dolardır; 1997 yılının ikinci çeyre� i itibari
ile Internet � irketlerine yatırılan risk sermayesi miktarı 561 milyon
dolardır; Yahoo arama motorunda günlük görüntülenen sayfa sayısı
ortalama 38 milyondur; Web kullanıcılarının %82’si Internet’ i
vazgeçilmez olarak görmektedir ve “Home Corporation” 1999 yılında,
Excite arama motorunu 6.2 milyar dolara satın almı � tır ( Aynı yıl Ford
motor � irketi Volvo’ nun araba üretim bölümünü 6.45 milyar dolara
satın almı � tır !!!). Bu istatistikler elbette Internet ortamının tamamını
resmedenler de� ildir, ancak � u anki durumun ve geli � imin ne yönde
olabilece� i açısından bir fikir vermektedir. Fakat, enformasyon
zenginli � i açısından geli � en Internet’e paralel olarak kullanıcılar: çok
1 http://www.why-not.com/company/stats.htm
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
3
fazla enformasyonla kar � ı kar � ıya kalmaktadırlar. Bu enformasyonun
büyük ço� unlu� u ihtiyaç duydu� umuz enformasyon de� i ldir. Söz
konusu durum, yani aradı � ımız enformasyonun bulamayaca� ımız kadar
çok alakasız enformasyon içinde kalması durumu, fazla enformasyon
yüklemesi (Information overload) olarak adlandırılır. Internet’ teki fazla
enformasyon yüklemesi neredeyse önemli ve ciddi çalı � malar için
Internet ortamının kullanılamaz hale gelmesine sebebiyet verecek
noktalara çıkmı � tır. Bir ba� ka söyleyi � le, alakasız enformasyon miktarı,
alakalı enformasyonun bulunmasını imkansız hale getirecek
düzeylerdedir:
“ Web üzerindeki fazla enformasyon yüklemesinin en önemli sebebi, Web’ in çift amaç ta� ıyan bir ortam olmasıdır: aynı anda hem ki � isel hem kamusal enformasyonun, yayınlanması ve ileti � imin sa� lanması. Ki � isel olarak çok önemli olan konular, genelde kamusal anlamda önemli de� i ldir. Web üzerinde oldu� u gibi, e� er bir ileti � im ortamı üzerindeki arka-plan gürültüsü lüzumlu içeriklerin daha geni � kitlelere ula� masını engelleyecek düzeye çıkmı � sa, o ileti � im ortamı geçerlili � ini yitirir.
..., Çok � ükür ki, ki � isel radyo endüstrisinde ya� anan kendi kendini yok etme durumuna gelme e� i limi siber-uzayın sayısal alt-yapısı ile önlenebilir. Tabii ki, her yönden gelecek hesaplamaya dayalı yardımlar ile.”
(Berghel, 1997)
Internet üzerindeki enformasyonun neredeyse tamamı yapısal
olmayan ve do � al dilde yazılmı � belgelerden olu � tu� u için (bu durum
ili � kili veri-tabanlarındaki meselelerden farklıdır: Bölüm 6),
hesaplamalı dil-bilim (computational linguistics), yani do � al dilin
(dillerin) hesaplamaya dayalı çözümlemesi fazla enformasyon
yüklemesi meselesi kar � ısında, enformasyon bilimleri içerisindeki
u� ra� larda (bilgi geri-getirim sistemleri, enformasyon süzme sistemleri
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
4
(information filtering systems) vb. uygulamalar) önemini giderek
arttıran bir konu olacaktır2.
BGG sahasında genel anlamda ara� tırmaya açık konular 6 ana
ba� lık altında toplanabilir (van Rijsbergen, 1979).
1. Otomatik Sınıflandırma: Çok büyük sayısal belge topluluklarının, yönetilebilir büyüklükte sınıflar altına bölümlenmesidir.
• � statistiksel bir yöntem olan clustering (kümeleme) çözüm olarak uygulanmakta, fakat sayısal yordam olarak hızlandırılmaya ihtiyaç duymaktadır.
2. Dosya Yapılar ı: � ndeks terimlerin devrik dosya (inverted file) � eklinde tutulması yöntemi, küme kuramsal yöntemler için etkin olmasına ra� men; di � er olasılık kuramsal ve cebirsel yöntemler için çok etkin de� ildir. Bu yöntemlerde etkin � ekilde kullanılabilecek bir dosya yapısına ihtiyaç vardır.
3. Arama Stratej iler i: BGG hızını artırmak için yeni e� le� tirme/arama yöntemlerinin geli � tiri lmesine ihtiyaç vardır.
4. Benzetim: Genel anlamda, bir belge toplulu� unda, birbirleri ile alakalı belgelerin da� ılım simülasyonuna, yani örneksel benzetimlere ihtiyaç vardır. Özelde ise, ara� tırma için açık olan ana meselelerden en önemlisi, belge topluluklarındaki anahtar kelime da� ılım simülasyonudur.
5. � çer ik Analizi: Belge içeriklerinin bilgisayar ortamında anahtar kelimelerden veya indeks terimlerden ba� ka ne � ekilde sayısal olarak temsil edilebilece� inin belirlenmesi. Meseleye ba� langıç noktası olabilecek yakla� ımlarsa;
2 Fazla enformasyon yüklemesi meselesi kar � ısında, yapısal olmama durumunu çözümlemek adına anlamsal web (semantic web) tasarımları da bir çıkar yol olarak görülmekte ve geli � tirilmektedir. http://www.w3.org/
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
5
• Yapay zeka teknikleri kullanan bir bilgisayar yordamı ile do� al dilin anla� ılması veya
• Psiko-dilbilim, yani akıl-dilbilim veya anlam-dilbilim sahasında insan beyninde, do� al dilin anla� ılması mekanizmalarının incelenmesi ve örneklenmesi olabilir.
6. Metin Sıkı � tırma: Sıkı � tırma anlamında iki ihtiyaç vardır: birincisi sahip olunan çok büyük miktardaki verinin etkin ve hızlı � ekilde sıkı � tırılması ve açılmasıdır; ikincisi ise sıkı� tırılmı � verinin açılmasına gerek duymadan i � lem yapabilen yöntemlerin geli � tirilmesidir.
James ve arkada� ları (2003) SIGIR3 kongresinde BGG u� ra� sahasının kısa (1-5 yıllık) ve uzun (5-10 yıllık) vadeli ara� tırma
hedeflerini ve ihtiyaçlarını özele indirgenmi � ba� lıklar halinde bildiri
olarak yayınlamı � lardır. A � a� ıda bildirinin belirtti � i ara� tırma
sahalarına ait ana ba� lıklar ve kısa açıklamaları vardır. Aslen, van
Rijsbergen (1979) tarafından ortaya konan ihtiyaçlarda yakla� ık son 35
yılda çok fazla de� i � iklik olmadı � ı görülmektedir. Sahanın kapsam ve
uygulama alanı güncel teknoloj ileri desteklemek/kullanmak için
geni � lemi � , hesaplamalı dil-bilim sahası ile etkile� imin zorunlulu� u bir
kez daha söz konusu geli � imi kar � ılamak amacıyla ortaya konmu � tur.
James ve arkada� ları (2003) tarafından belirtilen hedefler � unlardır:
3 SIGIR, � ngilizce “Special Interest Group on Information Retrieval” olan bilgi geri-getirim sahasında u� ra� veren uluslararası kurum ve kurulu� ların düzenledikleri senelik sempozyumunun kısaltmasıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
6
1. En genel anlamı ile uzun vadede BGG u� ra� sahasında iki büyük meseleden bahsedilmi � tir: Küresel enformasyon eri � imi ve ba� lamsal geri-getirim. Küresel enformasyon eri � imi olarak, kullanıcının enformasyon ihtiyacını kar � ılayacak, özellikle Web esasına dayalı yapısallı � ı olan ve genelde de yapısal olmayan tüm belgeleri tahlil eden, kullanıcı ile do � al ve etkin bir ileti � im kuran sistemler tarif edilmi � tir. Ba� lamsal geri-getirim olarak, “arama stratejilerini” , “sorguları” ve “ kullanıcılar hakkında eldeki bilgileri” tek bir çatı altında birle� tiren, kullanıcıya bu sayede daha etkin
� ekilde cevap verebilecek sistemler tarif edilmi � tir. Mobil ileti � im vb. teknolojiler, bilgi geri-getirimin kullanıcı odaklı ve ba� lam esasında kullanımı için uygulanabilir örnekler olarak ortaya konmu� tur.
2. Yeni geri-getirim yöntemlerinin ortaya konması konusunda uzun ve kısa vadeli hedefler ve ihtiyaçlar belirlenmi � tir. Genel olarak mevcut sistemlerin 1960’ ların kurgularına dayandı � ı ve enformasyon ihtiyaçlarının kar � ıla� ılan karma� ıklı � ı ile ba� edemedi � i belirtilmi � ; özellikle dil-bilim kuramlarının, modeller içerisinde sadece kelime, kelime gurupları esasında ele alındı � ı, bunun yeterli olmadı � ı, dil-bilim kuramlarına dayalı geri-getirim yöntemlerinin geli � tirilmesi gerekti � i; kullanıcı bakı � açısının mevcut kurgularda ya hiç olmadı � ı ya da yetersiz � ekilde temsil edildi � inden bahsedilmi � tir. Bu ihtiyaçları kar � ılamak için tek bir modelin olamayaca� ı gerçe� inden yola çıkarak, kapsamı daraltılmı � , yani belirli sahalar için özelle� tirilmi � modellerin geli � tirilmesi ön görülmü� tür.
3. Çok dill i bilgi geri-getirim (bir do � al dilde yapılan sorgunun di � er do� al dillerdeki belge uzaylarında da aranması) a� ırlıklı konular arasına girmi � tir. Dilbilimin, bilgi geri-getirim sahasında kullanılabilirl i � ini etkin hale getirecek yeni geri-getirim yöntemlerinin ve sayısal belge temsillerinin (içerik analizi) önemine çok dilli geri-getirim amacını etkin � ekilde gerçekle� tirebilmek adına bir kere daha de� inilmi � tir. (Bugün dünya üzerinde yakla� ık 7000 dil konu� ulmaktadır. Bu dillerden 320 tanesi yaygın dillerdir ve dünya nüfusunun %80’ ini tarafından konu� ulur (Strassel et al, 2003; Oard, 1997)).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
7
4. Internet üzerindeki enformasyonun geri-getirim etkinli � inin arttırılması için, arama stratejilerinin geli � tirilmesine yönelik uzun ve kısa vadeli hedefler ve ihtiyaçlar belirlenmi � tir.
5. Kullanıcı modellerinin geri-getirim yöntem kurgularında a� ırlıklı ö� e olarak ele alınması ve verilen kullanıcı hizmetlerinin daha i � levsel modellerinin olması gereklili � i ortaya konmu� tur. Bu yönde ilerleyecek çalı � maların kısa ve uzun vadeli hedefleri ve ihtiyaçları belirlenmi � tir.
6. Süzme (Filtering), konu tespiti (topic detection) ve sınıflandırma (classification) gibi u� ra� larda mevcut sistemlerin genele uygulanabilirli � inin önünde engel te� kil eden hesaplama karma� ıklıklarını halledebilmek için yeni tekniklerin ve çözümlerin gereklili � i ortaya konmu� tur. Özetleme (Summarization) u� ra� ında geli � me kaydedebilmek için yine dilbilimsel yöntemlerin etkin kullanımını ihtiyacı ortaya konmu � tur. Aynı � ekilde soru-cevaplama (question answering), üstel-arama (MetaSearch), da� ıtık geri-getirim (distributed retrieval), çoklu ortam geri-getirim (multimedia retrieval) ve enformasyon özümseme (information extraction) u� ra� sahalarında da benzer ihtiyaçlara de� inilmi � tir.
7. Önerilen geri-getirim örneklerinin denenmesi için sınanmı � daha büyük belge uzayına, yani külliyatlara/derlemlere ve sorgu kümelerine olan ihtiyaç ortaya konmu� tur. Mevcut olan 1000 kadar sorgu için sınanmı � deneysel derlemlerin yeterli olmadı � ı, sorgu sayısının 100,000 seviyelerine çıkarılması gereklili � i ortaya konmu� tur. � ngilizce dı � ındaki di � er diller için de sınanmı � deneysel belge topluluklarının acil ihtiyacına dikkat çekilmi � tir (Gereksinim olan diller için ve ne tür çözümlerin uygulanabilece� ine dair geni � bilgi için ayrıca Strassel ve arkada� ları (2003) çalı � masına bakınız.).
Bu tezin kapsamı, van Rijsbergen (1979) sınıflandırması içinde
içerik analizi veya James ve arkada� ları (2003) sınıflandırmasında yeni
geri-getirim yöntemleri, yani hesaplamalı dilbilim ile etkile� imin
arttırıldı � ı geri-getirim yöntemlerinin tasarlanması altına girer. � ekil
1.1.’de BGG sahasının (Enformasyon bilimin bir alt u� ra� ı olarak) ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
8
hesaplamalı dilbilim sahasının kar � ılıklı etkile� imi, tez kapsamına giren
u� ra� ları ve ara� tırma hedeflerini netle� tirecek � ekilde, bir çizge halinde
verilmi � tir. � ekilde, tezin ara� tırma hedeflerinin ba� arılmasında katkı
sa� layacak temel konuların ba� lıkları dolgulu kutular ile gösterilmi � tir. � ekilde yer almayan, ancak tez kapsamını tamamlayan yan konular da
bulunmaktadır. Bu konuların ba� lıkları sırasıyla: “Türkçe” (Bölüm 2),
“Kavram olarak Enformasyon ve � leti � im” (Bölüm 3) ve “Enformasyon
Kuramı ve Düzensizlik (Entropy)”dir (Bölüm 4).
Tezin hedefindeki ara� tırma konusu en genel � ekli i le � öyle
tanımlanabilir:
Tanım 1.1: (Tezin ara� tırma konusu) BGG sistemlerinde, yazılı metinler (belgeler) için kullanılan sayısal belge temsil yönteminin (içerik analizi) Türkçe dil-bilimsel özellikler ile ta� ınan enformasyonu içerecek � ekilde, Türkçe metinler için istatistiksel yöntemler yardımıyla geli � tirilmesi.
Tanım 1.1.’de verilen sayısal belge temsilinin geli � tirilmesi için
tezde kullanılacak dilbilimsel özelliklerin ba� lıkları, � ekil 1.1.’den de
takip edilebilece� i gibi sırasıyla � unlardır: Sözcük türleri (isim, fiil
vb.), kelime gurupları (birden fazla kelimeden olu� an anlamsal
birlikler) ve cümle unsurları (cümlenin fiili, faili, nesnesi vb.). � ekil
1.1.’de bilgi geri-getirim sahası ve hesaplamalı dilbilim sahası iki ayrı
çalı � ma alanı olduklarını niteleyecek � ekilde ayrık sınırlar içine
alınmı � tır. BGG, enformasyon bilim sahasının bir alt u� ra� ı olarak
di � er alt u� ra� larla birlikte gözükmektedir. Hesaplamalı dilbilim
sahasının alt u� ra� ları da, yalın bir metinden anlamın çıkarılması için
kullanılan yöntemlerin dilbilimsel çözümleme seviyelerine göre silsile
� eklinde olan sınıflandırması ile gösterilmi � tir. Dilbilimsel çözümleme
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
9
seviyelerinin tez çalı � mamız içine girenleri “Hedef” etiketi ile
gösterilen ve “kesikli çizgi” ile kesi � enlerdir. BGG sahası ile
hesaplamalı dilbilim sahasının ili � kisi geleneksel sistemler esas
alındı � ında içerik analizi üzerinden olmaktadır. � ekilde geleneksel
sistemlerde içerik analizi için kullanılan mevcut yöntemler koyu bir
çerçeve içine alınmı � tır ( � ekilde “Mevcut” etiketi ile i � aret edilen). �çerik analizinde, bu tez hedefleri do� rultusunda yapılacak katkının
ba� lıklarıysa, “Hedef” etiketi i le i � aret edilen kesikli çerçeve içinde
dolgulu olarak gösterilmi � tir. Ayrıca hedeflere ula� abilmek için tezin
her iki saha içinde kapsamına giren konuların ba� lıkları da, dolgulu
olarak gösterilmi � tir. � ekilde dolgulu olmayan ba� lıklar tez kapsamının
dı � ındadır.
Her ne kadar, hesaplamalı dilbilim içinde a� ırlı � ı olan bir konu
olmasa da, yalın metinleri hesaplama birimlerine (kelimeler, sayılar,
noktalama i � aretleri vb.) ayrılması meselesi, yani simgeleme
(tokenization) de tezin ara� tırma kapsamına dahil edilmi � tir. Ayrıca,
tezin hedefinde Türkçe metinler oldu� u için, herhangi bir “ çok dilli”
belge toplulu� undan Türkçe metinlerin otomatik olarak ayrı� tırılması
da ara� tırma kapsamındadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
10
BilgiGeri-Getirim
BGG Sistemi( Çekirdek Bile �enler )
Enformasyon Bilim
Alt U
�
ra �larAra �tırma Sah.
Hesaplamalı Dilbilim
EnformasyonÖlçütleri
EnformasyonYönetimi
EnformasyonGeri-Getirim
Etkile �imi
Alt U
�
ra �lar
�
çerik Analizi
Sınıflandırma
Simülasyon
Sıkı �tırma
Ba �arı Ölçüm
Göz-Atma Hiz.
Geri-Get. Mod.
�
çerik Anal.
Dosya Yap.
3
5
5
6
87
Dilb
ilimse
l analiz sıralaması
� � � � � � � � � � �
� � � � � � � � � � �
� � � � � � � � � � �
Gövdeleme
Durma Listesi
Simgeleme
E � Anlam
BirlikteGözükme
Biçim
Sözlük
Sözdizim
Anlam
Söylev,Pragmatic
CümleUnsuru
KelimeGurubu
SözcükTürü
HEDEF
Mevcut
�
ekil 1.1: Enformasyon bilim ve hesaplamalı dil-bilim sahalarının etkile �imleri. Dolgulu �ekiller tez kapsamını göstermektedir.
ekillerin sa
üst kö �esinde yıldız içindeki sayılar, konunun tez akı �ında anlatıldı
ı bölüm numarasıdır. Alt u
ra �lar sadece hesaplamalı dil-bilim için, yalın bir metnin analiz sırasını verecek �ekilde betimlenmi �tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
11
Bu tezde, ara� tırma konusu kapsamında yapılan çalı � malar
maddeler halinde � u � ekilde sıralanabilir:
1. Türkçe yazılı metinlerin otomatik tespiti. Herhangi bir çok dill i yazılı belge toplulu� undan, Türkçe belgelerin otomatik olarak tespit edilmesi.
2. Türkçe belgelerin simgele� tirilmesi (tokenization). Yazılı Türkçe belgelerin yalın halinden, hesaplamalı dil-bilim uygulamaları için uygun olan hesaplama birimlerine (kelime, sayı, v.b.), yani hesaplama simgelerine dönü� türülmesi ve cümle sonlarının tespiti.
3. Sözcük-türü enformasyonunun sayısal belge temsili içinde kullanılabilmesi, yazılı belgelerden elde edilen simgelerin, özellikle kelimelerin dil-bilimsel temel türlerinin belirlenmesi ile elde edilen enformasyonun sayısal belge temsilinde içerilmesidir. Tez kapsamında ele alınan dokuz temel sözcük/kelime türü � unlardır: isim (noun), özel isim (proper noun), fiil (verb), sıfat (adjective), zarf/belirteç (adverb), zamir/adıl (pronoun), ba� laç/rabıt (conjunction), soru (Question), edat/ilgeç (preposition). Temel kelime türlerinin yanı sıra simge olarak ele alınan di � er birlikler de
� unlardır: rakamlar, kısaltmalar (abbreviations) ve noktalama i � aretleri (punctuations).
4. Türkçe için Gövdeleme Yöntemi (stemming): Türkçe yazılı metinlerde, aynı anlamı ta� ıyan ancak yazımda dilbilgisi kuralları gere� i çe� itli i � levsel il i � kilerin kurulması için ek alarak farklı
� ekillerde gözlenen kelimelerin, ortak bir biçim, yani � ekil birli � i altında toplanması. Bu � ekilsel birlik, genel olarak dilbilimde kelime gövdesi olarak kabul edilir. Ancak, bilgi geri-getirim uygulamalarında ortak � eklin her zaman anla� ılır bir kelime olması
� artı olmadı � ı da burada belirtilmesi gereken bir durumdur: örne� in n-gramlar cinsinden metinlerin indekslenmesi veya tüm kelimelerin yazılı � ekillerinin ba� tan itibaren belirli sayıda bir harf uzunlu� una kadar alınması ve geri kalan kısmın atılması durumlarında, anlamlı birlikleri söz konusu de� ildir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
12
5. Kelime/Sözcük Türlerinin Tespiti (Part-of-Speech Tagging): Türkçe metinlerde, her kelime için, o kelimenin olası kelime türleri içinden, bir cümlenin söz-dizimsel akı � ı içinde i � levsel görevlerine uygun olanının seçimi. Örne� in, bir ismin bir ba� ka ismi vasıflandırmak için önüne geldi � i durumlarda, isim görevi yerine sıfat görevi gördü� ünün belirlenmesi.
6. Kelime gurubu enformasyonunun sayısal belge temsili içinde kullanılabilmesi. Kelime gurupları, yazılı belgelerde birden fazla kelimeden olu� an ve bütün halinde kar � ılanan bir anlam birli � ini temsil eder. Yazılı Türkçe’de kelime guruplarının çe� itleri oldukça zengindir. Ancak bu tez kapsamında “kelimelerin gurup halinde dil-bilimsel tutarlılık içinde bulunması” enformasyon olarak kabul edilmekte, grubun dil-bilimsel açıdan alt tanımlamaları ayrı � ımına gidilmemektedir.
7. Cümle unsuru enformasyonunun sayısal belge temsili içinde kullanılabilmesi. Türkçe’de cümle unsurları fiil, fail (özne), nesne, yer tamlayıcısı ve zarftır. Fiil ve fail bir cümlenin esas unsurları, nesne, zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Yazılı bir cümlede bu temel unsurlardan ba� ka bir de edatlar bulunabilir.
8. Genel � statistikler: Bu çalı � ma, 5., 6. ve 7. maddelerde öngörülen dilbilgisi enformasyonun kullanımını mümkün hale getirecek alt yapıyı hazırlamaktadır. Genel istatistikler aslen Zipf birinci ve ikinci ilkesinin Mandelbrot yorumları ile birlikte, elimizdeki derlemler üzerinden incelemesini içermektedir. � nceleme iki ana bölümden olu� mu� tur:
8.1. Zipf ve Mandelbrot üzerinden birinci güç kanunun incelenmesi.
8.2. Zipf ikinci kanunu üzerinden, kelime da� arcı � ı incelemeleri ve frekans esasında indeks terim seçimi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
13
9. Deneysel Derlem hazırlama: Türkçe için bilgi geri-getirim ba� arımının ölçümünde kullanılacak, dilbilgisi özellikleri i � aretlenmi � bir derlem bulunmamaktadır. Hesaplamalı dilbilim sahası için Orta Do� u Teknik Üniversitesi (ODTÜ) ve SABANCI üniversitelerinin ortak çalı � ması ile gerçekle� tirilmi � bir derlem, sadece dilbilgisi özellikleri kodlanmı � olarak mevcuttur. Kısaca OSTAD olarak adlandırdı � ımız bu derlemde: kelimelerin biçimbirimsel analizi (morphology), dolayısı ile kelime türleri ve ayrıca cümle unsurları i � aretlenmi � tir. Tez çalı � mamızda kullanılmak üzere, derlem içinde indeks terim olan kelimelerin i � aretlenmesi de, yazar tarafından “elle” yapılmı � tır.
Tezde dilbilimsel özelliklerin sınanması amacı ile iki Türkçe
deneysel derlemden faydalanılmı � tır. Birinci derlem, Bilkent
Üniversitesinde hesaplamalı dil-bilim çalı � malarının “ sonucu” olarak
otomatik � ekilde i � aretlenmi � yakla� ık 850,000 simge-birli � i içerendir
(Hakkani-Tür et. al, 2002). Tez içinde bu derlem BilTD kısa adıyla
geçmektedir (Bilkent Türkçe Derlemi) � kinci derlem ise hesaplamalı
dilbilim ara� tırmalarını desteklemek amacına yönelik ODTÜ ve
Sabancı üniversitelerinin ortak çalı � masıdır (Atalay et al., 2003;
Oflazer et al., 2003). Bu derlem tamamı elle i � aretlenmi � 7262
cümleden olu� maktadır. Tez içinde derlem, OSTAD (ODTÜ Sabacı
Türkçe A � aç Yapılı Derlemi) kısa adıyla geçmektedir. Genel
istatistikler ba� lı � ı altında kullanılan bir üçüncü derlem daha vardır:
ODTÜ derlemi. ODTÜ derlemi yakla� ık 2.5 milyon birlikten
olu� maktadır. Aslen OSTAD, bu derlemden seçilmi � bazı paragraflarla
olu� turulmu� tur. Fakat, ODTÜ derleminde hiçbir dilbilgisi özelli � i
i � aretli de� ildir. Bu yüzden sadece genel istatistiklerin alınması
a� amalarında kullanılabilmektedir.
Bilgi geri-getirim uygulamalarının merkezinde bulunan konu,
sorgu ile belgeler arasında sistemin kurmak zorunda oldu� u alakadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
14
Alaka kavramı ise do� asında öznellik ta� ır (Baeza-Yates and Ribeiro-
Neto, 1999). BGG sistemlerinin ana hedefi kullanıcının, yani ki � ilerin
enformasyon ihtiyaçlarını kar � ılamaktır. Bu yüzden bir ki � inin kendi
ihtiyaçları ile alakalı buldu� u enformasyon, bir ba� ka ki � i için pek o
kadar da alakalı olmayabilir. Dahası, ki � iler sıklıkla verilen bir sorgu ile
geri-getirilen belgelerin alakalı oldukları konusunda anla� mazlık
gösterirler (Hersh et al., 1995). Ki � iler arasındaki anla� mazlı � ın ortaya
çıkması ihtimali, belgeler ile sorgular arasındaki alakanın mutlaklıktan,
bir derece alakalı olu� a do� ru gidi � i yönünde artı � gösterir. Ayrıca,
alaka sadece sorgu ve eldeki belge toplulu� una ba� lı da de� ildir;
alakaya karar veren ki � inin o anki istekleri, yani ihtiyaç ba� lamı ile de
yakından ili � kilidir. Belirtildi � i gibi “BGG sistemlerinin hedefinde
insanların enformasyon ihtiyacını kar � ılamak” oldu� u için, söz konusu
öznellikten kurtulmanın bir yolu da yoktur. Bu yüzden bilgi geri-
getirim sistemlerinin ba� arımlarının ölçülmesi sorunlu bir durum te� kil
eder.
BGG sistemlerinde kullanılan genel ba� arım ölçütleri (Bölüm 8):
Anma (recall) ve duyarlıktır (precision). Anma ve duyarlılık ile ba� arım
ölçümünde iki temel mesele kar � ımıza çıkmaktadır:
1. Ölçütlerin kullanılabilmesi için, derlemdeki her belge ile ba� arım ölçümünde kullanılacak tüm sorgular arasındaki alaka kararının önceden verilmesi gerekir; ancak bu kararı sadece insanlar verebilmektedir.
2. Sorgular ve belgelerin alakalı olu� ları ile ilgili insanlar tarafından verilen kararlar ki � iseldir; dolayısı ile bir BGG sisteminin ba� arım ölçümünün nesnel (objektif) olması için alaka kararını birden fazla ki � inin vermesi gerekir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
15
James ve arkada� ları (2003) tarafından SIGIR kongresinde BGG
sistemlerinin geli � tirilmesi için daha büyük derlemlerin
olu� turulmasının neden mesele olarak gündeme getirildi � i de böylece
netli � e kavu� maktadır. BGG u� ra� ları için derlem hazırlamak, ba� arım
ölçütleri anma ve duyarlılık oldu� u sürece, çok maliyetli ve kalabalık
çalı � ma guruplarının uzun zaman üzerinde u� ra� ması gereken bir konu
olarak kalacaktır. Türkçe için nesnelli � ine güvenilebilecek, eri � imi
serbest, standart olmu� bir BGG sistem ba� arım ölçüm derlemi, ne
yazık ki yoktur! Mesele aslında sadece Türkçe’nin de� ildir, üzerinde az
u� ra� ılmı � di � er diller içinde geçerlidir (Çok çalı � ılmı � � ngilizce ile
orta-Avrupa dillerini çıkardı � ımızda, geriye kalan üzerinde az
çalı � ılmı � yakla� ık 300 dil). Bir bakıma ba� arım ölçütlerinin bu hali ile
kalmasının bir ekonomi yarattı � ı da dikkat çeken bir gerçektir! Fakat
ekonomisi bir yana, BGG sistemlerinin ba� arımlarını daha dü� ük
maliyetlerle ve nesnel olarak ölçmek için bir yol daha vardır, o da
matematiksel/istatistiksel bir ölçüm yöntemi örne� i geli � tirmektir.
Bu tezde ba� arım ölçütü olarak kullanaca� ımız yöntem olan
üstel-puanlama (Meta-Scoring) matematiksel/istatistiksel yöntemler
sınıfına girmektedir ve ne yazık ki tektir (Jin, 2001). Carnegie Mellon
üniversitesinde, dilbilim teknolojileri enstitüsü ve bilgisayar bilimleri
bölümünün ortak çalı � ması ile geli � tirilen bu yöntem, anma ve
duyarlılık ölçütlerinin tüm olumsuz yönlerinden arındırılmı � tır (Bölüm
7.3). Yöntem saklı-anlam-indeksleme (LSI-Latent Semantic Indexing,
Bölüm 5.2) geri-getirim yönteminin esas aldı � ı matematiksel kurguya
göre biçimlendirilmi � tir.
Tezin anlatım akı � ı genel olarak iki parçaya ayrılmı � tır: Parça-1
içinde kuramlar, yöntemler v.b. teze esas olu� turan temel konular yer
almaktadır. Parça-2 içinde ara� tırma konusu kapsamındaki çalı � malar
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
16
ve sonuçları vardır. Okuyucu Parça-1’ i atlayıp, Parça-2’ye geçebilir.
Parça-2’deki ara� tırmaların akı � ı içinde, Parça-1’e yapılan atıf
noktalarından geriye dönerek de Parça-1’den faydalanabilir. Bu durum,
anlatım akı � ını bozmaz. Her iki parçayı olu� turan bölümler ve içerikleri
a� a� ıdaki gibidir:
PARÇA-1 BÖLÜM-2 : Türkçe: Türkçe’nin teze esas olan dilbilgisi
özelliklerinin tanıtımı. BÖLÜM-3 : Enformasyon: BGG sahasında ve
enformasyon bilim altında ele alınan di � er sahalarda, uygulamaların temelini olu � turan enformasyon fikrinin kavram olarak çok yönlü tanımı.
BÖLÜM-4 : Enformasyon Kuramı: Enformasyon fikrinin matematiksel kuramı, enformasyon ileti � im modeli ve ili � kili konular: düzensizlik (entropy), istikrarsızlık (perplexity) v.b. kavramlar.
BÖLÜM-5 : BGG Sistemleri: BGG sahasının detaylı kapsamı ve tanıtımı. BGG sistemlerinin genel kurgusu ve yapı unsurlarının tanıtımı.
BÖLÜM-6 : Geri-getirim Modelleri: BGG sistemlerinde kullanılan geri-getirim modellerinin sınıflandırması ve teze esas te� kil eden geri-getirim yöntemlerinin detaylı tanıtımları. �ndeks terim a� ırlıklandırma yöntemleri.
BGG sistemlerinde kullanılan “çıktı” sıralama yöntemleri.
BÖLÜM-7 : � ndeksleme ve � ndeks terimler: Enformasyonun temsil yolu olarak indeksleme u� ra� ının genel tanıtımı, elle indeks terim seçimi ve BGG sahasında otomatik indeks terim seçimi konuları, kelimelerin kuramsal da� ılımları ile ilgili yakla� ımlar ve ili � kili olarak belge içeri � ini temsilde “önem” belirleme yöntemleri. BGG sistemleri için sayısal belge temsili ve olu � turulmasında kullanılan alt süreçlerin tanıtımı.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
17
BÖLÜM-8 : Ba� arım Ölçütleri: BGG sistemlerinin ba� arım ölçümünde kullanılan anma ve duyarlılık kavramlarının tanıtımı ve bu kavramları esas alan ba� arım ölçütleri. Anma ve duyarlılık kavramını esas almayan ve tezde ba� arım ölçütü olarak kullanılan üstel-puan (Meta-Score) yöntemi.
PARÇA-2 BÖLÜM-9: Geli � tir ilmi � Yöntemler: Tez konusu
kapsamında geli � tirilmi � genel amaçlı yöntemlerin (Türkçe tespiti ve simgeleme) ve hesaplamalı dilbilim yöntemlerinin (gövdeleme ve sözcük türü tespiti) tanıtımı, ba� arım sonuçları.
BÖLÜM-10: Genel � statistikler: Tezin ara� tırma konusu kapsamına giren u� ra� lara esas olu � turacak kavramlarla ilgili tüm istatistikler: Zipf ve Mandelbrot denklemleri ile Türkçe derlemlerin uyum sınamaları; Türkçe derlemlerin kelime da� arcı� ının açık/kapalı olu � una dair kabullenmenin deneysel sınamaları. Sözcük-türü, cümle unsuru ve kelime guruplarının derlem içinde genel da� ılımsal istatistikleri.
BÖLÜM-11: � ndeks Terim Seçimi: Sözcük türü, cümle unsuru ve kelime gurupları ile ta� ınan enformasyonun, indeks terimler üzerindeki olasılık da� ılımları. Dilbilgisi özellikleri ile sa� lanan katkıların a� ırlıklandırma için kullanım yöntemleri.
BÖLÜM-12: Sonuç: Tez konusu kapsamında yapılan ara� tırmaların özet sonuçları.
BÖLÜM-13 Geli � im Noktaları ve Tartı � ma: Tez kapsamında ele alınan konularda, geli � im için açık olan konular ve genel tartı � malar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
18
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
19
2. TÜRKÇE4
Dünya üzerinde konu� ulan dillerin, aynı men� eden gelenleri bir
gurup altında toplanır. Bu guruplama ile diller, birbirleri ile il i � kili ve
yakın olanları bir aile kabul edilerek, bir dil aileleri sınıflandırması
te� kil ederler. Dünya üzerinde konu� ulan dillerin aileleri � unlardır:
1. Hint – Avrupa dilleri ailesi: Bu dil ailesinin içine Macarca, Fince ve di � er bazı küçük ülkelerin dilleri dı � ında kalan bütün Avrupa dilleri ile Asya dillerinden Farsça ve Hindistan’da mevcut bir çok dil girer. Adından da anla� ılaca� ı gibi Hint – Avrupa dilleri ailesi biri Avrupa’da, di � eri Asya’da olmak üzere iki büyük kola ayrılır.
1.1. Avrupa kolu: Germen dilleri, Roman dilleri ve � slav dilleri olmak üzere üç büyük kol vardır.
1.2. Germen dilleri kolu: Almanca, Felemenkçe, � ngilizce ve � skandinav dilleri girer.
1.3. Roman dilleri kolu: Ana dil Latince’dir. Bugün ya� ayan ba� lıca diller ise Fransızca, � spanyolca, Portekizce, � talyanca ve Rumence’dir.
1.4. � slav dilleri kolu: Rusça, Bulgarca, Sırpça, Lehçe gibi diller.
1.5. Yunanca, Arnavutça, Keltçe, Litvanca ve Hititçe de Avrupa koluna ait dillerdir.
1.6. Asya kolu: Hint dilleri, Sanskritçe, Farsça ve Ermenice bu kola giren dillerdendir.
2. Sami dilleri ailesi: Akadca, � branice, Arapça gibi diller bu aile içine girer.
4 Bu bölümde yer alan tüm konular ve içerikleri, Muharrem Ergin (1999) tarafından yazılmı � olan “Türk Dil Bilgisi” kitabından alıntıdır. Alıntılarda, içerik tez kapsamına uygun � ekilde özetlenerek yazılmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
20
3. Bantu dilleri ailesi:Afrika’daki en büyük dil ailesidir ve orta ve güney Afrika’da konu� ulan Bantu dilleri bu aileyi te� kil eder.
4. Çin – Tibet dilleri ailesi: Çin ve Tibet dilleri.
Diller yapı bakımından da guruplara ayrılmaktadır. Dünya
üzerindeki diller yapı bakımından da üçe ayrılırlar:
1. Tek heceli diller : Bu guruptaki dillerde, her kelime tek heceden olu� ur. Kelimelerin çekimli halleri yoktur. Cümle bir çekimsiz ve tek heceli kelimeler silsilesinden ibarettir. Cümlenin ifade etti � i mana genelde kelime sırasından anla� ılır. Kelimelerin di � er dillerde çekimli halleri ile ifade edilen halleri ya hiç ifade edilmez veya ayrı bir kelime ile ifade edilir. Çin – Tibet dilleri bu guruba girer.
2. Eklemeli diller : Eklemeli dillerde tek veya çok heceli kelime kökleri ile ekler vardır. Kelimelerden yeni kelimeler veya kelimelerin geçici halleri yapılırken köklere ekler getiril ir. Bu ekleme sırasında kökler de� i � mez, köklerle ekler açık � ekilde belirlenebilir. Bu diller ön-ekli veya son-ekli olabilir. Türkçe, Macarca gibi diller eklemeli dillerdendir. Türkçe son ekli, eklemeli bir dildir.
3. Çekimli diller : Çekimli dillerde de tek veya çok heceli kökler ve bir takım ekler vardır. Yeni kelimeler yaparken ve çekim sırasında genellikle köklerde bir de� i � iklik olur. Hint – Avrupa dilleri böyle dillerdir. Sami dilleri, örne� in Arapça da bu guruba girmektedir.
Dünya dilleri arasında Türkçe’nin içine girdi � i gurup Ural-Altay
dilleri gurubudur. Ural – Altay dilleri yukarıda bahsedilen dil aileleri
gibi sa� lam bir aile özelli � i göstermezler. Mesela Hint – Avrupa dilleri
arasındaki yakınlık bu dillerde yoktur. Ural – Altay dilleri arasındaki
yakınlık bir men� e birli � inden daha çok bir yapı birli � idir. Onun için bu
diller bir dil ailesi olarak de� il, bir dil gurubu olarak ele alınmaktadır.
Ural – Altay dilleri için bir aile olmak için gerekli olan men� e birli � i
kuvvetli bir ihtimal olmakla beraber, henüz kesinle� mi � de� ildir. Ural –
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
21
Altay dilleri eklemeli dillerdir. Ayrıca, hepsinde aynı derece de olmasa
da, bir sesli uyumu vardır ve Hint – Avrupa dilleri etkisinde kalmamı � olanlar dı � ındakilerde, kelime sırası genel olarak aynıdır. Ural – Altay
dilleri, Ural ve Altay olmak üzere iki kola ayrılır.
1. Ural kolu: Fin – Ugur ve Samoyed olmak üzere ikiye ayrılır.
1.1. Fin – Ugur kolunda: Fince, Macarca, Ugurca ve Permce vardır.
1.2. Samoyed kolunda ise çe� itli kolları ile Samoyedce vardır.
2. Altay kolu: Mançuca, Mo� olca ve Türkçe’dir.
Özetle Türkçe, Ural – Altay dil gurubunun Altay koluna ba� lı,
sondan ekli, eklemeli bir dildir. Altay dilleri içinde Türkçe’ye en yakın
olan Mo� olca’dır.
2.1. Türkçe harfler ve Alfabe
Türkçe alfabe toplam 29 harften olu� mu� tur ve genel sırası ile � u
� ekildedir: a b c ç d e f g � h ı i j k l m n o ö p r s � t u ü v y z. Bu harfler
ses özellikleri bakımından iki guruba ayrılırlar: sesliler/vokaller ve
sessizler/konsonantlar.
Türkçe alfabede bulunan harflerden 8 tanesi seslidir (vokal): a e ı
i o ö u ü. Geriye kalan 21 tanesi de sessizdir (konsonant): b c ç d f g � h
j k l m n p r s � t v y z.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
22
2.2. Heceler ve kelimeler
Dildeki sesler birbiri ardına gelerek anlamlı veya bir dilbilgisi
i � levi görevinde kendilerinden daha büyük birlikler meydana getirirler.
Daha büyük birlikleri meydana getirmek üzere yan yana gelen seslerin
birle� meleri, onların müstakil olarak, birbirlerinden ayrı arka arkaya
gelmeleri � eklinde olmaz. Bir kenetlenme, bir silsile halinde ortaya
çıkarlar. Dilbilimsel birlikteki sesler, aralarında bo � luklar olmayacak
� ekilde ba� lanırlar. Bu kayna� ma ve zincirleme birle� meler vokal
etrafında toplanır. Bir vokal ile birle� en veya bir vokal etrafında
toplanan di � er sesler sıkı bir � ekilde birbirleri ile kayna� ır. � � te böyle,
bir vokal etrafında meydana gelen ses birle� melerine hece denir. Hece
tek vokalden meydana gelmedi � i durumlarda, bir vokal ve bir veya
birden fazla konsonant tarafından meydana getirilir. Bir kelime e� er bir
heceden olu� muyorsa hecelerin arka arkaya gelmesi ile te� kil edilir.
Fakat böyle daha büyük dilbilimsel birlikleri meydana getirmek için
birle� en heceler içinde kayna� ma sıkı; ancak heceler arasında daha
zayıftır. Heceler arasındaki bu eklenti, sa� lam bir birle� meden çok arka
arkaya bir söyleyi � ten ibarettir. Bir benzetme ile anlatacak olursak;
“Heceler içinde sesler birbiri ile bir zincirin halkaları gibi, fakat heceler
birbiri ile bir tespihin taneleri gibi birle� irler.”
2.2.1. Türkçe Heceleme
Türkçe’de bir hece içinde en az bir, en çok dört ses bulunur. Bir
ve dört sesli olarak birer tip, iki ve üç sesli olarak da iki � er tip hece
vardır. Böylece, Türkçe’deki hece tiplerinin sayısı altıdır. “ V” vokal
için, “K” konsonant için gösterim olarak kullanılacak olursa bu
hecelerin � ekilleri � öyledir; V, VK, KV, KVK, VKK, KVKK.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
23
Türkçe’nin de� i � ik heceleme desenleri için verilebilecek
örnekler: o, a (V); ol-, al- (VK); bu, � u (KV); bal, kal- (KVK); art, erk
(VKK); kalk-, sarp (KVKK).
2.3. � ekil yapısı bakımından kelimeler
�ekil yapısı bakımından ele alınınca kelimelerin bünyesinde,
anlamlı veya vazifeli bir takım � ekiller vardır: göz-lük, gör-ü� , aç-ı-k,
ev-i-m kelimelerinin parçaları gibi. Anlamlı � ekiller tek ba� larına
kullanılabilirler ve bir anlam ifade ederler. Vazifeli � ekiller ise anlamlı
� ekillerle birle� erek kullanılan ve ancak o zaman anlam ile ilgili bir
vazife gören, fakat tek ba� larına anlamı olmayan ve kullanılmayan
kelime parçalarıdır.
Kelime yapısında tek ba� ına anlamlı olan sesbirimsel � ekillere
kök adı verilir. Tek ba� ına manası olmayan ve kullanılmayan, ancak
köklerle birle� mek suretiyle mana ile ilgili bir vazife gören � ekillere ise
ek denir. Kök, bir kelimenin anlamı ve yapısı bozulmadan
parçalanamayan � ekli, manalı en küçük dil birli � idir. Kökler tek
ba� larına veya eklerle birle� mek suretiyle kullanılır. Mesela göz-lük
kelimesinde göz kök, -lük ektir.
2.3.1. Kökler ve Gövdeler
Kökler anlamları bakımından ikiye ayrılırlar: isim kökleri ve fiil
kökleri. � sim kökleri evrendeki canlı cansız varlıkları ve kavramları
kar � ılayan köklerdir. Fiil kökleri ise, bu varlık ve kavramların
hareketlerini kar � ılar. Nesneler kendi kendilerine var olan, ba� ımsız
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
24
unsurlardır. Hareketler ise kendi kendilerine var olmayıp nesnelerden
do� an, nesnelere ba� lı bulunan, varlıkları nesnelerle kaim olan
unsurlardır.
�sim ve fiil kökleri arasındaki bu mana farkı onların dildeki
kullanı � larına da etki eder. �sim kökleri tek ba� larına kelime olarak
kullanılabilirler. Fiil kökleri ise, tek ba� larına kullanılı � sahasına
çıkamazlar. Mutlaka nesnelere, � ahsa, zamana v.s. ‘ye ba� lanarak
vazife görürler ki, bu ba� lanı � ta fiil köklerine bir takım ekler getirmek
suretiyle olur.
Dilde nesnelerin ve hareketlerin hepsi için ayrı kökler bulunmaz.
Birbiriyle ilgili bir gurup nesne veya hareket için bir kökten türemi � bir
kelime ailesi bulunur. Kökler kendileri ile ilgili yakın nesne ve
hareketler için geni � letilip, yeni kökler meydana getirirler. Köklerden
türeyen bu geni � köklere kelime gövdesi adı verilir. Gövde de bir çe� it kök oldu� u için, mana veya kullanı � bakımından tamamı ile kök
gibidir. Yalnız � ekil bakımından kökten farklı ve ondan büyük bir dil
birli � idir. Gövdeler, hem isim köklerinden hem de fiil köklerinden
yapılabilirler. �sim köklerinden hem isim gövdeleri, hem de fiil
gövdeleri, fi il köklerinden hem fiil hem de isim gövdesi olu� turulabilir.
Yani, yapı bakımından dört çe� it kelime gövdesi vardır: �simden
yapılmı � isim, isimden yapılmı � fiil, fiilden yapılmı � isim, fiilden
yapılmı � fiil.
2.4. Anlam veya Görev Bakımından Kelimeler
Türkçe’de anlam veya görev bakımından üç çe� it kelime vardır:
isimler, fiil ler ve edatlar. Türkçe’deki her kelime muhakkak bu üç
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
25
kelime çe� idinden birine girer. Bunlardan isimler ve fiiller anlamları
olan, edatlar ise görevleri olan kelimelerdir.
�simler, nesneleri kar � ılayan kelimelerdir. Burada nesne
kavramını, eylem dı � ında kalan her � ey için kullanıyoruz. Nesneler de
kendi içinde bir takım sınıflara ayrılırlar. Çe� itli nesneler vardır. Bu
çe� itli nesneleri kar � ılamak için kullanılan isimler de kendi aralarında,
kar � ıladıkları nesnelerin anlamlarına uygun olarak kelime çe� itlerine
ayrılır. Varlıkların ve kavramların adı olarak nesneleri kar � ılayan
isimlere dar anlamı ile isim, vasıflandırmak veya belirtmek suretiyle
nesneleri kar � ılayan isimlere sıfat, temsil veya i � aret etmek suretiyle
nesneleri kar � ılayan isimlere zamir, hal ve durumları kar � ılayan
isimlere zarf denir. Dolayısı ile geni � anlamda isim adı altında
topladı � ımız kelimeler, kendi içinde dörde ayrılır: isimler, sıfatlar,
zamirler ve zarflar.
Fiiller hareketleri kar � ılayan kelimelerdir. Hareket kelimesini de
tabii geni � anlamda kullanıyor ve nesnelerin zaman ve mekan içindeki
her türlü olu� ve yapı � ları veya olmayı � ve yapmayı � ları kar � ılı � ı olarak
alıyoruz. Evrende bir nesne, bir de eylemler, yani hareketler vardır.
Nesne dı � ında kalan her � ey harekettir.
Edatlar tek ba� larına hiçbir � eyi kar � ılamayan kelimelerdir. Yani
edatların tek ba� larına anlamları yoktur. Edatlar ancak isimler ve
fii llerle birlikte kullanılırken bir anlam kazanırlar. Edatlar anlamlı
kelimelerin, yani isimlerin ve fiillerin ili � kileri sırasında onlara yardım
eden, dilbilgisi içinde görevleri olan kelimelerdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
26
2.5. Kelime Gurupları
�sim ve fiil cinsinden bütün kelimeler nesneleri ve hareketleri
kar � ılayan, onların adları olan dil birlikleridir. Tek bir kelimenin
kar � ıladı � ı nesnenin ve hareketin çe� itl i vasıfları, özel durumları,
cepheleri, � artları vardır. Nesneleri ve hareketleri bu çe� itli yönleri ile
daha geni � olarak ifade etmek için tek kelimeden daha geni � dil
birliklerine ihtiyaç duyulur. Ayrıca tek kelimenin kar � ıladı � ı
nesnelerden ve hareketlerden daha büyük, daha geni � nesneler ve
hareketler vardır ki onlar tek bir kelime ile kar � ılanamazlar. Onların tek
kelime olarak kar � ılıkları, adları yoktur; ancak tek kelimeden daha
geni � dil birlikleri ile ifade edilebilir, adlandırılabilirler. �
� te tek kelime
ile kar � ılanan nesneleri ve hareketleri daha geni � olarak ifade etmek
veya tek kelimenin kar � ıladı � ı nesnelerden ve hareketlerden daha geni � nesneleri ve hareketleri kar � ılamak için, kelimeden daha geni � dil
birlikleri olan kelime guruplarına ba� vurulur.
Kelime gurubu birden fazla kelimeyi içine alan, yapısında ve
anlamında bir bütünlük bulunan, dilde bir bütün olarak i � lem gören bir
dil birli � idir. Kelime gurubu için birden fazla kelime bir takım
kurallarla belirli bir düzen içinde yan yana getirilir. Böylece, belirli bir
düzenle kuruldu� u için, kelime gurubunun yapısında bir bütünlük olur.
Bütünlük, özellikle gurubun anlamında göze çarpar. Kelime gurubunun
kullanılı � ında da bu bütünlük korunur. Kelime gurubu kelimelerle ve
di � er kelime gurupları ile bir bütün halinde ili � kiye geçer. Cümlelere
bir bütün halinde katılır. Kullanımında tek bir kelime gibi çekime tabi
tutulur, sona gelen i � letme eki bütün gurubu � ümulü içine alır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
27
Kelime gurupları nesneleri ve hareketleri daha geni � olarak veya
geni � nesneleri ve hareketleri belirtmek için kullanıldıklarına göre
bunlar birer belirtme gurupları’ dır. Tek bir nesneyi veya hareketi
belirtmek için, bu guruplar içinde yan yana gelen, birbirine ba� lanan
kelimeler, bir i � birli � i yapar, birbirine yardım eder, birbirlerini
tamamlarlar. Bir belirtme, bir yardım, bir tamamlama esası üzerine
kurulan kelime guruplarında genellikle belirten-belirtilen, tamamlayan-
tamlanan, tabi olan-tabi olunan, asıl-yardımcı olmak üzere iki unsur
bulunur.
Türkçe’de kelime gurupları içinde yan yana gelen kelimelerin
sırasını tayin eden temel kanun � udur: Türkçe’de yardımcı unsur asıl
unsurdan önce gelir. Türkçe söz-dizimin bütün yapısı bu ana kanun
üzerine kurulmu � tur. Bütün kelime gurupları ve cümlede belirtilen,
tamlanan, tabi olunan, asıl unsur sonda; belirten, tamamlayan, tabi olan,
yardımcı unsur ba� ta bulunur. Türkçe’de yalnız ki’ li birle� ik cümle bu
kuralın dı � ında kalır. Çünkü ki’ li birle� ik cümle yabancı asıllıdır.
Türkçe’ye girmekle beraber, Türkçe söz-dizimine dahil sayılmaz.
Türkçe’nin bu ana kanuna dayanan kelime sırası ancak, o da kelime
guruplarının bir kısmı ile cümlelerde olmak üzere, nazımda � ekil
bakımından geçici olarak yerlerini de� i � tirebilir. Vezin, kafiye ve
ahenk gere� i, nazımda � ekil bakımından geçici olarak yerlerini
de� i � tiren unsurlar, kelime gurupları ve cümlelerdeki asıl çekim
� ekillerini ve asıl sıra içindeki anlam ve i � levlerini yine de korurlar.
Hangi sırada olursa olsunlar, � iir okurken yine asıl normal sıraları
içinde idrak edilirler. Çünkü, Türkçe dü� ünme sisteminde kelime
sırasının temelini olu� turan kanun de� i � mez. Dil dü� üncenin aynasıdır.
Türkçe de, Türkçe dü� ünü� ün aynasıdır. Onun için kelime sırası geçici
olarak ne � ekle girerse girsin, asıl normal sırası ile idrak edilir.
Dü� ünme sırası ile kelime sırası birbirinden ayrılamaz.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
28
Türkçe’nin ekler sistemi de tamamen bu kelime sırasına uygun,
bu kelime sırasını destekler bir bünyeye sahiptir. Bu durum özellikle,
isimlerle fiil lerin ili � kisinde açıkça görülür. Türkçe’de ili � ki ekleri, isim
i � letme ekleri olan iyelik, hal ve soru ekleridir. Bu ekler bazen ismi
isme, fakat çok defa ismi fiile ba� ladıklarına göre, isim-fii l
münasebetinde daima isim önce, fiil sonra gelir. Soru eki de hal ekleri
gibidir. Kelime guruplarının büyük bir kısmında kelime sırası
Türkçe’nin ekler sistemiyle de sıkı sıkıya ba� lıdır.
Türkçe’de bulunan kelime gurupları a� a� ıdaki ba� lıklar altında
toplanır.
2.5.1. Aynen Tekrarlar
Tekrarlar aynı cinsten iki kelimenin arka arkaya getirilmesi ile
meydana gelen kelime guruplarıdır. Türkçe’de hemen her çe� it kelimeden tekrar yapılabilir. Tekrarların ba� lıca dört i � levi vardır:
kuvvetlendirme, çokluk, devamlılık ve ortalama/beraberlik.
2.5.2. Ba � lama Gurubu
Ba� lama gurubu sıralama ba� lama edatları ile yapılan kelime
gurubudur. Bugün sıralama edatları ve, ile ve bir de ara ( ...’den ...’e
kadar) ifade eden Arapça i la kelimeleridir. Bu edatlarla birbirine
ba� lanan iki unsur hep beraber ba� lama gurubu te� kil eder. Edat iki
unsurun arasına girer. Unsurlardan her biri, bir kelime veya kelime
gurubu olur. Unsurlar � eklen ve e� it olarak birbirine ba� lanır. Sıralanan
unsurlar ikiden fazla ise ba� lama edatı son iki unsurun arasına girer. Bu
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
29
edat da ancak ve olabilir. Di � erleri ancak sıralanan iki unsur arasında
olabilirler. Bunlardan ila, “ kadar” anlamında oldu� u için yalnız sayılar
arasına girer. � le ve ila genellikle isim unsurlarını ba� larlar. Araya
girerek iki unsuru birbirine ba� layan ve edatı ise her çe� it kelime ve
kelime guruplarını, bu arada çekimli fiilleri ve cümleleri de birbirine
ba� lar. Leyla ile Mecnun, Alinin babası ile Ahmet bey, yetmi � ila
seksen, bin yüz ila bin iki yüz, sen ve ben; su, hava, ate� ve toprak,
geldi ve gitti, ancak ve ancak gibi.
2.5.3. Sıfat Tamlaması
Sıfat tamlaması bir sıfat unsuru ile bir isim unsurunun meydana
getirdi � i kelime gurubudur. Sıfat unsuru isim unsurunu vasıflandırmak
veya belirtmek için getirilir. Sıfat tamlaması eksiz bir birle� medir. Her
iki unsurda ek almadan yan yana gelirler. Sıfat bu birle� mede daima
teklik halde bulunur, sıfatların çoklukları yapılmaz. Sıfat tamlamasında
sıfat isim ba� ına gelir; yani sıfat önce, isim sonra gelir. Tamlamanın
sıfat unsuru bir sıfat veya sıfat olarak kullanılan bir kelime gurubudur. �sim unsuru ise bir isim veya isim vazifesi gören bir kelime gurubudur.
En basit halde bir sıfat ve bir isim sıfat tamlaması olu� turur. Sıfat
tamlamasında gurubun vurgusu sıfat üzerinde kalır: güzel yazı, üç ki � i,
canım � stanbul, güzelim bahar rüzgarı, büyük bir i � , çok i � lek bir
cadde, bahçede oynayan kom� u çocu� u, bu gün Karadeniz’den gelecek
olan vapur, arkada� ları ile gezmeye giderken bindi � i trenden dü� üp
kolu kırılan orta okul ö� rencisi, demir kapı, dolma kalem, altın saat,
evin önündeki a� aç gibi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
30
2.5.4. � yelik Gurubu ve � sim Tamlaması
Bu gurup iki isim unsurunun meydana getirdi � i bir kelime
gurubudur. Bir ismin anlamının iyelik sistemi içinde ba� ka bir isimle
tamamlanması esasına dayanır. Bir nesnenin ba� ka bir nesnenin parçası
oldu� unu, bir nesnenin ba� ka bir nesneye ait oldu� unu veya bir
nesnenin ba� ka bir nesne ile tamamlandı � ını ifade etmek için bu kelime
gurubuna ba� vurulur. Gurubu meydana getiren iki unsurdan biri
tamlayan, di � eri tamamlanandır. Bu gurup ekli bir birle� medir.
Tamamlanan unsur daima iyelik eki ta� ır. Tamamlayan unsur ise daima
genetif (ismin ilgi hali) halinde bulunur, fakat bu genetif bazen ekli,
bazen eksiz olur: � stanbul � ehr-i, ta� -ın üst-ü gibi. Özetle iyelik gurubu
iyelik ekli bir isim unsuru ile genetif ekli bir isim unsurunun meydana
getirdi � i kelime gurubudur.
�yelik gurubunun bu � ekilde her iki unsurunun da isim oldu� u
durumlara isim tamlaması adı verilir. �sim tamlaması iyelik gurubunun
üçüncü � ahıs ile yapılan � eklidir. Tamlaması ekli olan isim tamlamasına
belirli isim tamlaması, tamlayanı eksiz olan isim tamlamasına da
belirsiz isim tamlaması denir.
Belirsiz tamlamanın birle� ik isim hükmünde olması dolayısı ile
bir çok yer, makam, müessese, memuriyet, kitap, e� ya v.s. nesne
isimleri bu tamlama � eklindedir: � stanbul � ehri, ordu kumandanı,
çalı� ma bakanı, Edebiyat Fakültesi, Saraço� lu, ipek böce� i,
kahverengi, çama� ır makinesi gibi. Böyle isimler ekli tamlayanla
yapılamamaktadır. Demek ki ekli tamlayan bir isim tamlamasını bir
isim haline gelmekten alı koymaktadır. Bunun sebebi ise tamlayanın
belirli olmasıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
31
2.5.5. Aitlik Gurubu
Bu gurup aitlik ekine dayanan bir kelime gurubudur. –ki aitl ik eki
ile ondan önceki bir kelime gurubunun yalın hali, genetif veya lokatif
hali ile kurulur: tarihten önceki, ya� lı adamınki, Anakara ile � stanbul
arasında sefer yapan otobüslerinki örneklerinde oldu� u gibi. Son
kelimesinin yalın, genetif veya lokatif hali –ki’yi kabul eden her kelime
gurubundan aitlik gurubu yapılabilir ve bu gurup, yapıldı � ı kelime
gurubuna göre her geni � likte olabilir. Kelime gurubu olarak tek ba� ına
zamir olan aitlik gurubu, di � er kelime guruplarında veya cümlede
zamir veya sıfat vazifesi görür.
2.5.6. Birle � ik � sim ve Birle � ik Kelime
Birle� ik isim, bir nesnenin ismi olmak üzere yan yana gelen
birden fazla ismin meydana getirdi � i kelime gurubudur. Bir nesnenin
çok defa adı olan isimler, aynı nesneyi kar � ılama, aynı nesneye beraber
ad olmak için do � rudan do � ruya, eksiz olarak yan yana gelirler ve
birle� ik isim yaparlar. Birle� ik isimler, Türkçe’de hep özel isimlerdir.
Bazı yer adları ile ikili, üçlü bütün � ahıs adları Türkçe’nin birle� ik
isimlerini meydana getirir: Afyon Karahisar, Mehmet Kaplan, Ahmet
Hamdi Tanpınar, Halide Edip Adıvar, Orhan Veli, Faruk Nafiz
Çamlıbel, Ta� demir, Timurta� , Demitta� örneklerinde oldu� u gibi.
Örneklerde de görüldü� ü gibi, cins isimlerden yapılan birle� ik isimler
birle� ik kelime durumuna geçmektedir. Zaten cins isimlerden birle� ik
isim yapmak, Türkçe’de yok gibidir. Onlar da, ancak özel isim haline
geçmi � cins isimlerden yapılanlardır. Birle� ik isim, aynı zamanda
Türkçe’de yalnız özel isimlerden yapılan kelime gurubudur da
diyebiliriz.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
32
2.5.7. Birle � ik Fiil
Birle� ik fiil bir yardımcı fiille bir isim veya bir fiil � eklinin
meydana getirdi � i kelime gurubudur. � sim veya fiil unsuru önce,
yardımcı fiil sonra gelir. � sim unsuru ile birle� erek, birle� ik fi il
olu� turulması: yok et-, alay et-, kabul et-, reddet-, mahvet-, telefon et-,
sabreyle- var eyle-, yok ol-, mahvol-, hasta ol-, dost ol-, banyo yap-,
spor yap-, almı � ol-, müteessir bulun-, yapmı� bulun-, olmu� bulun-,
gitmi � bulun-. Fiil unsuru ile birle� erek, birle� ik fii l olu� turulması: gele
bil-, saklaya bil-, konu� a bil-; alı ver-, kaybolu ver-, yakalayı ver-,
isteyi ver-; kullanıla gel-, süre gel-, ola gel-; dü� meyi gör-, yalvarı gör-
, isteyi gör-, istemeyi gör-; yapa dur-, gide dur-, oynaya dur-; baka kal-
, kala kal-, � a� a kal-; gide koy-, otura koy-, alı koy-; durup dur-, gezip
dur-, ko� up dur-.
2.5.8. Unvan Gurubu
Unvan gurubu bir � ahıs ismi ile bir unvan veya akrabalık
isminden meydana gelen kelime gurubudur. � ahıs ismi önce, unvan
veya akrabalık ismi sonra gelir. Her iki unsur da hiç ek almaz : Ahmet
bey, Hasan efendi, Mustafa Kemal Pa� a, Nuri Çavu� , Bayındır Han,
Babür � ah, Fatma nine gibi.
Türkçe’de bir de unvan ve akrabalık isimlerinin ba� a getirilmesi
vardır. Bu takdirde birle� ik isim meydana gelir. Unvan veya akrabalık
ismi � ahısın bir ismi durumuna geçer: Ba� bakan Rü� tü Saraço� lu, Vali
Fahrettin Kerim, General Kazım Karabekir, Profesör Ahmet
Cafero� lu, Binba� ı Seyfi, Dede Korkut, Hoca Nasreddin, Molla Kasım,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
33
Sultan Fatih, Kraliçe Elizabet, Katil � brahim, Hırsız Hüseyin
örneklerindeki gibi.
2.5.9. Ünlem Gurubu
Ünlem gurubu bir seslenme edatı ile bir isim unsurundan
meydana gelen kelime gurubudur. Seslenme edatı önce, isim sonra
gelir. Eksiz bir birle� me olur. Edat tek kelime halinde, isim unsuru ise
bir isim veya isim yerine geçen bir kelime gurubu halinde bulunur: a
beyim, be birader, be adam, bre kız, ey karde� , hey Allah’ ın kulu, ya
Ali, ey bu topraklar için topra� a dü� mü� asker örneklerinde oldu� u
gibi.
2.5.10. Sayı Gurubu
Türkçe’de sayılar üç � ekilde kar � ılanmaktadır: 1. tek kelime ile,
2. sıfat tamlaması, 3. sayı gurubu. Tek kelime ile kar � ılanan sayılar bir,
iki, üç, dört, be� , altı, yedi, sekiz, dokuz, on, yirmi, otuz, kırk, elli,
altmı � , yetmi � , seksen, doksan, yüz, bin, milyon, milyar v.s.’dir. Sıfat
tamlaması ile kar � ılanan sayılar iki yüz, üç yüz, iki bin, bir milyon, bir
milyar v.s.’dir. Burada dikkat edilecek tek � ey yüz ve bin’ in aksine
milyon ve milyar ’ ın tek ba� ına kullanılamaması, tek milyon ve milyar
için de bir milyon ve bir milyar denilmesidir. Sayı gurubu ile kar � ılanan
sayılar ise i � te bu tek kelimelik sayıların ve on’ dan sonrakilerinin ve
sıfat tamlaması halindeki sayıların ara yerlerindeki sayılardır: on bir,
yirmi iki, otuz dört, yetmi � be� , bir milyon dört yüz, bin altı yüz yirmi üç
gibi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
34
2.5.11. Edat Gurubu
Edat gurubu bir isim unsuru ile bir son çekim edatının meydana
getirdi � i kelime gurubudur. � sim unsuru önce, son çekim edatı sonra
getirilir. � sim unsuru zamir veya isim olmasına ve edatın cinsine göre
çe� itli hallere girer ve çe� itl i ekler alır. Edat ise, gurubun eksiz,
de� i � mez unsurudur. Edat unsuru daima tek kelimedir. � sim unsuru tek
kelime olabilece� i gibi isim yerine kullanılan bir kelime gurubu da
olabilir. � u örnekler edat gurubudur: benim için, senin gibi, ta� için,
onun güzel hatırı için, eve do� ru, ye� il gözleri i le, Ankara’dan
bildirildi � ine göre, sessiz akan bir su gibi, on be� gün kalmak üzere,
bundan dolayı, dün geceye dair, ko� up oynamaktan ba� ka.
2.5.12. � snat (yükleme) Gurubu
� snat gurubu biri di � erine isnat edilen, yani biri di � erine
yüklenen, dayanan, bindirilen, yaslanan iki isim unsurundan meydana
gelir. � snat edilen unsur isnat olunandan, kendisine isnat yapılandan
sonra gelir. Kendisine isnat yapılan unsur ya yalın halde bulunur veya
iyelik eki almı � olur. Bu unsur tek bir isim olabilece� i gibi isim yerine
geçen bir kelime gurubu da olabilir. � snat unsuru ise bir sıfat veya sıfat
yerine kullanılan bir kelime gurubu olur. � u örnekler isnat gurubudur:
ba� açık, ayak yalın, göz kapalı, üst ba� peri � an, omuzlar dü� ük, gözü
açık, karnı tok, sırtı pek, etrafı yıkık, ba� rı yanık, saçı uzun, aklı kısa,
alnı açık, � ekeri az, sütü bozuk, canı tez, bütün duvarları ya� lı boya,
bahçesinin dört yanı tellerle çevrili, ba� ı bo� , eli açık, baldırı çıplak,
geli � igüzel, karnıyarık.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
35
2.5.13. Genetif Gurubu
Genetif eki ile birbirine ba� lanan iki isim unsurunun meydana
getirdi � i kelime gurubudur. Genetif ekli unsur önce, onun ba� landı � ı
yalın isim sonra gelir. Gurubun anlamı genetif ekinin ilgi i � levine
dayanır. Gurup iyelik eki dü� mü� bir iyelik gurubu gibidir: bizim kız,
senin ev, benim at, Ahmet dayının o� lan, sizin av köpe� i gibi. Genetif
gurubunun her iki unsuru da tek bir isim olabilece� i gibi, isim yerini
tutan bir kelime gurubu da olabilir. Gurubun vurgusu ikinci unsur
üzerinde bulunur. Bir yandan iyelik gurubuna yakla� an genetif gurubu,
bir yandan da sıfatı kli � ele� mi � bir genetif olan bir sıfat tamlamasına
benzemektedir. Aynı tipte guruplar olan datif, ablatif ve lokatif
gurupları da bu � ekilde sıfat tamlamasında benzemektedir. Hepsinin
ikinci unsurda bulunan vurguları da bunu göstermektedir. Yalnız bütün
bu gurupları kısaltma gurubu olarak da saymak mümkündür. Genetif
gurubu kısalmı � bir iyelik gurubu, datif, lokatif ve ablatif gurupları ise
kısalmı � , kli � ele� mi � birer fiil gurubu gibidirler. Zaten datif, lokatif ve
ablatif gibi eklerin normal i � levleri ismi fiile ba� lamaktır ve
bulundukları yerde bir fii l yoksa bir fiil ifadesi muhakkak bulunur.
Özellikle ikinci unsuru fiilden yapılmı � bir isim olanlarla, –ma, -me ekli
olanlar aynı zamanda birer fiil gurubu durumundadırlar.
2.5.14. Datif Gurubu
Datif halindeki bir unsur ile ondan sonra gelen bir isim unsurunun
meydana getirdi � i kelime gurubudur. Datifli unsur da, unsurda ya tek
bir isim veya isim yerini tutan bir kelime gurubu olur: dile kolay, ba� a
bela, cana yakın, ate� pahasına bir ö� len yeme� i, aslına uygun, keyfine
dü� kün, ba� ına buyruk, ana babasına ba� lı gibi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
36
2.5.15. Lokatif Gurubu
Lokatif eki almı � bir isim unsuru ile ondan sonra gelen bir isim
unsurunun meydana getirdi � i kelime gurubudur. Her iki unsurda ya tek
bir isim ya da isim yerine geçen bir kelime gurubu olur: geçmi � te
bugün, dam üstünde saksa� an, elde bir, yükte hafif, pahada a� ır, i � inde
usta, i � inde usta, i � inde gücünde adam, üçte iki, dörtte bir, be� te üç,
onda bir, yüzde be� , binde bir örneklerinde oldu� u gibi.
2.5.16. Ablatif Gurubu
Ablatif eki almı � bir unsurdan sonra gelen bir isim unsurunun
meydana getirdi � i kelime gurubudur. Her iki unsurda ya tek bir isim
veya isim yerine geçen bir kelime gurubu olur: kafadan kontak,
do� u� tan sakat, yandan çarklı, anadan do� ma, sonradan görme,
sıradan adam, gözden uzak, a� ızdan dolma, candan arkada� , yalandan
dostluk, içinden pazarlıklı, kendisinden çok emin, bunlardan biri,
e� lencesine dü� kün olanlardan hiç biri, içlerinden ço� u, gençlerden
üçü gibi. Bu son örneklerde ikinci unsurun iyelikli olması dolayısı ile
iyelik gurubu i � levinde bir gurupla kar � ıla� ıldı � ı görülmektedir.
Birbirine çok benzeyen, i � levleri bir gibi olan (bunların biri, bunlardan
biri) bu iki gurubun birbirine karı � tırılmaması gerekir.
2.5.17. Kısaltma Gurupları
Bunlar kelime gurupları ve cümlelerin kısalması, yıpranması
neticesinde ortaya çıkan kelime guruplarıdır. Her hangi bir kuralları
yoktur. Daha geni � bir guruptan kısalmı � ve kli � ele� mi � guruplardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
37
Sayıları pek fazla de� i ldir: gün aydın, güle güle, günden güne,
ba� tanba� a, o gün bugün, yan yana, sırt sırta, omuz omuza, ba� ba� a,
el ele, ha� a huzur, git gide, ba� a� a� ı, eller yukarı, ileri mar � , sola
çark, ba� üstüne gibi.
2.5.18. Akuzatif Gurubu
Akuzatif gurubu akuzatif halindeki bir isim ile onun arkasından
gelen bir isim unsurundan meydana gelir. � kinci unsur isimle yapılan
bir birle� ik fiilin isim kısmı olur ve dolayısı ile geçi � li fiil ifadesi ta� ır: her � eyi borçlu, seni istikbal, yapılanı tenkit, kitabı birine ithaf gibi.
Görülüyor ki akuzatif gurubu partisip gurubu veya fiil gurubunun
kısalmı � , yardımcı fiili dü� mü� � eklidir. Onun için akuzatif gurubu da
bir kısaltma gurubu sayılabilir. Bu yüzden birinci unsurdan sonra araya
yer tamlayıcısı ve zarf unsurları da gelebilir: seni istasyonda istikbal,
kitabı her gün orada birine hediye, her � eyi olur olmaz tenkit gibi.
2.6. Cümle ve Cümle Unsur lar ı
Cümle bir fikri, bir dü� ünceyi, bir hareketi, bir duyguyu, bir
hadiseyi tam olarak bir hüküm halinde ifade eden kelime gurubudur.
Yukarıda bahsedilen kelime gurupları belirtme gurupları idi. Cümle ise
hüküm gurubu’dur. Cümlenin temel fonksiyonu “hüküm” ifade
etmektir. Onun için cümle en tam, en geni � kelime gurubudur.
Cümlenin varlı � ı için asgari � art bir çekimli fiilin varlı � ıdır.
Çekimli fiil cümlenin varlı � ı için gerekli ve yeterdir. Demek ki, çekimli
fii l olmak � artı ile tek kelime de cümle olmaktadır: Geliyorum.;
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
38
Güzeldir. gibi. Çekimli fiilde, eklerin � ahıs da ifade etmesi dolayısı ile
fii lden ba� ka fail ifadesi de vardır. Onun için çekimli fiilden ibaret tek
kelimelik bir cümlede de, biri kapalı olmak üzere, fiil ve fail olarak iki
unsur var demektir. Bu iki unsur zaten cümlenin temel unsurlarıdır.
Varlıkları tam bir cümlenin varlı � ı için yeterlidir.
Hükmü daha geni � , daha etraflı, çe� itli � artları ile daha belirli
olarak ifade etmek için, cümle birden fazla cümle unsurundan meydana
getirilir. Cümle unsurları fi il, fail, nesne, yer tamlayıcısı ve zarf’ tır.
Yani cümlede fiil ile onun gerektirdi � i unsurlar bulunur. Hükmün
geni � li � ine göre cümlede, cümle unsurlarından biri, bir kaçı veya hepsi
bulunur. Fiil ve fail cümlenin esas unsurları, nesne, zarf ve yer
tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede ancak bir
fii l unsuru bulunur. Di � er unsurların ise cümlede aynı cinsten bir veya
birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç nesne,
birkaç yer tamlayıcısı ve birkaç zarf bulunabilir.
2.6.1. Fiil Unsuru
Cümlenin ana unsurudur. Cümlenin bütün yapısı onun üzerine
kurulur. Di � er unsurların tamamı fiilin etrafında toplanan, onu
destekleyen, onu tamamlayan unsurlardır. Türkçe’de asıl unsurun,
yardımcı unsurdan sonra gelmesi ilkesi gere� ince, esas unsur olan fii l
daima sonda bulunur. Kendisinden önce gelen unsurların kesin bir
sırası yoktur. Belirtilmek istenme derecelerine uygun olarak fiile
yakla� tırılarak kullanılırlar. Genellikle fiile en yakın unsur, yani fii lden
önceki unsur en üzerinde durulan unsurdur. Cümlenin normal vurgusu
da fii lin önünde, bu unsur üzerinde bulunur. Fiil cümlede hareketi,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
39
olu� u, yapı � ı, olayı, hükmü kar � ılayan unsurdur. Daima çekimli fi il
halinde bulunur.
2.6.2. Fail Unsuru
Cümlenin fiilden ba� ka iki ana unsurundan biridir. Fail, fii li
yapan veya olan unsurdur. Fiile en yakın, fiilden ayrılmaz bir cümle
unsurudur. Ayrıca söylenmese bile fiilin içinde genel olarak � ahıs
halinde ifade edilmek suretiyle, varlı � ı cümlede daima hissedilir. Fail,
isim cinsinden bir kelime veya kelime gurubu olur. Daima yalın halde
bulunur. Cümlenin çekimsiz bir unsurudur. Fiile yalın halde, eksiz
ba� lanır. Fail, yalnız meçhul fii lli cümlelerde bulunmaz. Yalnız teklik
üçüncü � ahısları kullanılan meçhul fiiller fail istemezler. Gereklilik
kipinin teklik üçüncü � ahısının � ahıssız, genel kullanı � ında da fail
bulunmaz: “Gitmeli.” ; “Yazmalı.” örneklerinde oldu� u gibi.
2.6.3. Nesne
Fiilin etki etti � i nesneyi, � ahsı kar � ılayan cümle unsurudur.
Fiillerin bir kısmı geçi � li, bir kısmı geçi � sizdir. Yani bir kısmı yapma,
bir kısmı olma ifade eder. Yapma ifade edenlerin hareketi fiilden ba� ka
bir nesneye yönelir, ona etki eder. Olma ifade edenlerin hareketi ise
faile yönelir, onun üzerinde kalır. Dolayısı ile, geçi � li fi iller etki edecek
bir nesne isterler. Bu durumu kar � ılayan cümle unsuru nesnedir. O
halde nesne, yalnız fiili geçi � li cümlelerde bulunur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
40
2.6.4. Yer Tamlayıcısı
Fiilin mekanını ve yönünü gösteren cümle unsurudur. Her
hareketin zaman ve mekan içinde bir yeri ve bir yönü vardır. Yer
tamlayıcısı hareketin meydana geldi � i bu yeri ve yönü ifade eder. Bu
unsur da, isim cinsinden bir kelime veya kelime gurubu olur.
2.6.5. Zar f
Fiilin çe� itli � artlarını ve zamanını gösteren cümle unsurudur.
Hareketin nasıl, niçin, ne � ekilde, hangi vasıtalarla, hangi sebeple, yani
özetle hangi � artlarla yapıldı � ını veya oldu� unu ve hangi zamanda
cereyan etti � ini göstermek için zarf unsuru kullanılır. Bu unsur zarf
olarak kullanılan isim cinsinden bir kelime veya kelime gurubu olur.
Zarf da çekimsiz bir cümle unsurudur, fiile oldu� u gibi, do� rudan
do� ruya ba� lanır.
2.6.6. Cümle Dı � ı Unsur lar
Cümlede bu unsurlardan ba� ka bir de ba� lama ve ünlem edatları
veya ünlem gurupları bulunabilir. Fakat bunlar esas hareketle, fiille
ilgili olmayan ve cümleye sadece ilave edilmi � durumda bulunan
unsurlardır. Genellikle cümlelerin ba� larında, sonlarında ve cümleler
arasında bulunurlar. Parantez � eklinde cümle içine girdikleri de görülür.
Bunlara cümle dı � ı unsurlar denir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
41
3. ENFORMASYON
3.1. Enformasyon Bilim ve Bilgi Geri-Getirim
Enformasyon bilim en genel anlamda, u� ra� ı alanı enformasyon
olan bir bilim dalı olarak tanımlanabilir. Enformasyon bilim aslen, çok
disiplinli bir u� ra� sahasıdır ve bir çok farklı bilim dalının katkı
sa� ladı � ı do � al meseleleri incelemektedir. Enformasyon bilime katkı
sa� layan di � er bilim dalları � ekil 3.1.1.’de çizge halinde gösterilmi � tir.
BilgisayarBilimleri
EnformasyonBilimleri
EnformasyonTeorisi
Yöntem-bilim(Epistemology)
Bili � sel Bilimler(Cognitive Sciences)
�leti � im
(Communication)
Matematik( � statistik)
Sosyo-Dilbilim
Sosyoloji
Dilbilim
Psiko-DilbilimPsikoloji
YapayZeka
�ekil 3.1.1: Enformasyon bilimine katkıda bulunan di� er bilimler (Ingwersen, 1992).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
42
Ingwersen (1992) tarafından, enformasyon bilim içindeki u� ra� lar
4 ba� lık altında sınıflandırılmı � tır:
1. Enformasyon-ölçütleri (Informetrics): Enformasyon ileti � iminin nicel çalı � maları. Örnek: Çapraz atıflar (co-citations).
2. Enformasyon Yönetimi (Information Management): Metin ve di � er medya içerikli Bilgi geri-getirim dizgelerinin de� erlendirilmesini ve kalite kriterlerini belirlemeyi de kapsayacak � ekilde enformasyon yönetimi.
3. Enformasyon (geri-getirim) sistemleri kurgusu (Information (Retrieval) Systems Design). Bir Bilgi geri-getirim sistemi veya sadece Bilgi sistemi tasarlama, altyapısını kurgulama çalı � maları.
4. Enformasyon geri-getirim etkile� imi (Information Retrieval Interaction): Bilgi geri-getirim dizgeleri ile kullanıcı (esas ki � iler, vekil yazılımlar veya di � er Enformasyon geri-getirim dizgeleri) arasında gerçekle� en etkile� imi yönetme ve faydalanma çalı � maları. Örnek olarak Bilgi geri-getirim dizgelerinin uygulamada kullanacakları ara-yüz tasarımları, kullanıcıların yaptıkları sorguların kayıtlarının tutulup tarihsel olarak kullanıcı profillerini çıkartmak ve geri-getirim ba� arımlarını kullanıcı esasına dayalı olarak iyile� tirmek gibi u� ra� lar.
Tez çalı � mamız Ingwersen’ in yaptı � ı enformasyon bilim u� ra� sahaları sınıflandırması içinde Enformasyon (geri-getirim) sistemleri
kurgusu ba� lı � ı altına girmektedir.
3.2. Enformasyon Tanımı ve Farklı Yakla � ımlar
Enformasyon kavram olarak en geni � anlamda, insanlar
arasındaki ileti � imin her hacminde (asgaride iki insan genelde ikiden
fazla ki � i arasında) ve her � eklinde (yazılı, sesli, görüntülü, e� zamanlı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
43
veya farklı zamanlı) taraflar arasında nakledildi � i dü� ünülen olguyu
kar � ılar. Thagard (1990) enformasyon kavramının tanımına yönelik
matematik, bili � sel psikoloji ve felsefe bilimleri kökenli 3 farklı
yakla� ımın oldu� unu bildirmi � tir:
1. Enformasyon-i � lem yakla� ımı (Information-processing).
2. Çevrebilimsel yakla� ım (Ecological).
3. Matematiksel yakla� ım (Mathematical).
3.2.1. Enformasyon-i � lem (Anlamsal-Enformasyon)
Enformasyon-i � lem yakla� ımı bili � sel psikoloji (cognitive
phychology – bilme veya kavrama psikolojisi, anlambilim) için genel
bakı � açısıdır. Bili � sel psikoloji’ de enformasyon soyut bir kavramdır ve
ancak insan zihninde bilme eyleminin5 idrak, yani anlayabilme alt
süreci içinde var olur ve anlamsal-enformasyon’ dur (veya
anlambilimsel-enformasyon). Psikoloj i’de, enformasyon fikri sadece
bilgi kavramı ile, yani ayrıca belirtilmeden içine dahil edilmi � � ekilde
tanımlanır. Enformasyon-i � lem yakla� ımda, enformasyon zihnin
tasvirine ait bir mesele olarak, daha do� rusu dü� ünen ki � inin
zekasında/aklında hesaplama ile ilgili yapılar olarak ele alınır. Soergel
(1985) anlamsal-enformasyonun bir ki � inin bilme eylemi içindeki var
olu� noktasını � ekil 3.2.1.1’de oldu� u gibi, dı � dünyadaki veriden
ba� layarak davranı � a kadar ki zihinsel süreçler içinde resmetmi � tir.
5 Bilme eylemi algı, idrak (anlama, kavrayı � ) ve karar verme olarak 3 alt süreçten meydana gelir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
44
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
Bilgi
� �leme ve Yorumlama
Karar Verme
Davranı � ın Planlanması
Davranı �
MevcutDurum
�stenilenDurum
Algılama
Veri,enformasyon’a
Dönü � ürVeri
�ekil 3.2.1.1: Bireysel bilme eylemi (Soergel, 1985).
Soergel’ in anlamsal-enformasyon tasviri bili � sel psikoloji bakı �
açısını tam olarak yansıtmaktadır. Bu genel enformasyon betimlemesi,
özelde disiplinler arasında küçük farklar olmasına ra� men insanın
bilme eylemi ile u� ra� an tüm bilim dallarında da geçerlidir. Ancak
enformasyon her ne kadar ki � inin bilgi edinme süreci içinde var
olabilen bir olgu olsa da; bilgi ile enformasyon arasındaki farkı
uygulamalı sahalarda belirleme ihtiyacı vardır. Böyle belirleyici bir
anlamsal-enformasyon tanımı da ancak enformasyon, bilgi ve veri
kavramları üzerinden “ i � levsel tanımlar ve ili � kiler” kapsamında ortaya
konabilir.
Bili � sel psikoloji bakı � açısından veri, bilgi ve enformasyon
kavramlarının tanımları Fosket (1996) tarafından � u � ekilde verilmi � tir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
45
“ Veri (Data) do� rudan, hiçbir aracı olmaksızın gözlemlenen her türlü gerçek veya gerçekler; Bilgi (Knowledge) benim bildi � im � ey, yani ki � i olarak bildi � imiz � ey veya � eyler; Enformasyon (Information) ise bizim bildi � imiz � eyler, yani payla� ılmı � bilgidir.”
(Fosket, 1996)
Fosket’ in tanımlarında belirleyicilik adına altı çizilmesi gereken
husus: sadece enformasyonun insanlar arasında nakledilebildi � i ve
bilginin insana has oldu� udur. Bilgisayar bilimleri için daha belirleyici
ve i � levsel veri, bilgi ve enformasyon kavramları, bili � sel psikoloj i
bakı � açısından sapmadan Creaven (2002) tarafından � u � ekilde
uyarlanmı � tır:
“ Veri (Data), insanlar veya bilgisayarlar tarafından alınabilen, depolanabilen, i � lenebilen ve iletilebilen her türlü sayı, harf ve harf dizileri, resimler ve benzeri � eyler; Bilgi (Knowledge) ise algı, ö� renme ve usa vurmanın psikolojik sonucudur. …; Enformasyon (Information) ise alan ki � inin belirsizli � ini azaltan, alınabilen ve anlanabilen bir mesajdır.”
(Creaven, 2002)
Creaven’ ın tanımlarında da, Fosket’ inkinde oldu� u gibi bilgi
insana ait bir olgu olarak tanımlanmı � ; ancak enformasyonun payla� ım
özelli � i farklı olarak soyut bırakılmamı � , alınabilen ve anlanabilen bir
mesaj olarak nesnele� tirilmi � tir. Mesaj veya ileti ise, sözle veya yazılı
olarak insanlar arasında gönderilen haber olarak tanımlanır.
Enformasyon fikrinin bu tanımı, aslen bili � sel psikoloji bakı � açısından
enformasyonun var olu� noktasını de� i � tirmez, yine insanın bilme
eyleminin soyut bir parçasıdır. Ancak, enformasyon olgusunun
tasvirini, bilmeye kaynak te� kil eden somut, yani nesnel olgulardan
ba� langıçla, insana do � ru, yani bili � eyleminin gerçekle� mesine do� ru
yapar. Bir ba� ka söyleyi � le, öncelikle somut bir nesne ile, daha do� rusu
veri ile temsil edilmi � bir mesaj vardır (ki bu mesajın da kayna� ı aslen
yine bir ba� ka insandır!). E� er bu mesaj bir ki � i tarafından alınabiliyor,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
46
anla� ılıyor ve o ki � inin belirsizli � ini gideriyor, yani bir durum hakkında
o ki � inin kararsızlı � ını ortadan kaldıran bir bilgiyi olu� turuyorsa
enformasyondur. Ki � iler arası mesaj iletimini olu� turan alt süreçler �ekil 3.2.1.2.’de resmedilmi � tir.
A Ki � isi
Bilgi � � leme ve Yorumlama
Mesaj Olu � turma
�leti � im Ortamı
B Ki � isi Bilgi leme ve Yorumlama
Veri
Algıma
Veri,enformasyon’a
EnformasyonVeri’ye
Mesaj ≅Enformasyon
�ekil 3.2.1.2 : � nsanlar arasında Mesaj/Haber � letimi. Soergel’ den (1985)
uyarlanmı tır. Enformasyonun veriye ve verinin tekrar enformasyona dönü üm evrelerini betimler.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
47
3.2.2. Çevre-bilimsel Yakla� ım
Çevrebilimsel yakla� ım enformasyonun dünyada hazır bulunu� u,
daha do� rusu varlık fikrine dayanır. Çevrebilimsel yakla� ım içinde
enformasyon gerçek olguların veya mahallerin özellikleridir.
3.2.3. Matematiksel Yakla� ım
Matematiksel yakla� ım, enformasyon fikrinin tanımına yönelik
olarak Thagard’ ın verdi � i son yakla� ımdır. � lk defa Shannon6 (1949)
tarafından ortaya konmu� tur. Aynı yakla� ım literatürde ileti � im-teorik
ve enformasyon-teorik olarak da anılır. Bu yakla� ım açısından
enformasyon bir kaynak ve hedef arasında kurulmu� herhangi bir
ileti � im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir,
yani sinyal-enformasyon’ dur (veya öz-enformasyon). Sinyal ile
enformasyon arasındaki ili � ki istatistik esaslıdır, daha do� rusu ileti � im
� ekli içinde söz konusu sinyalin gözlenme olasılı � ına dayanır. En çok
enformasyon içeren sinyal en az olasılı � a sahip olandır ve aralarında
Denklem 3.2.3.1.’de verildi � i gibi ters orantı vardır.
)(log veya)(
1log)( 22 sPI(s)
sPsI −== (3.2.3.1)
Denklem 3.2.3.1.’de; bir sinyal üzerinden ta� ınan sinyal-
enformasyon miktarı I(s), söz konusu sinyalin s, gözlenme olasılı � ının
P(s), -1. dereceden kuvvetinin 2 tabanına göre logaritması alınarak elde 6 Claude Elwood Shannon, 1916-2001 yılları arasında ya� amı � Amerikalı bir bil im adamıdır. 1940 yıl ında MIT’ den matematik dalında doktorasını almı � ve 1941 yıl ında AT&T adına çalı � maya ba� lamı � tır. 1948 yılında enformasyonun nicel olarak nasıl ölçülebilece� ine dair kuramını yayınlamı � tır. Enformasyon teorisi , sayısal mantık ve matematiksel ileti � im modeli için kuramsal alt yapıyı olu� turan ki � idir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
48
edilen sayısal de� erdir. Denklem’den elde edilen sayısal de� er sinyal-
enformasyon miktarını nicel � ekilde “ ikili sayıları” (binary digits)
cinsinden ifade eder, daha do� rusu ikilleri (bits) birim alarak
ölçeklendirmektedir.
Bili � sel psikoloji bakı � açısına dayalı anlamsal-enformasyon
fikrinin bir özelli � i olan anlam, yani idrak edebilen bir zihin tarafından
anla� ılma özelli � i sinyal-enformasyon fikrinde yoktur (Weaver, 1949).
Sinyal-enformasyonun nicel olarak ölçülebilmesinin kökeninde, Türkçe
kar � ılı � ı düzensizlik olan, � ngilizce entropy kavramı vardır. Düzensizlik
kavramı fikir olarak termodinamikten gelmektedir ve tanımı � öyledir:
“ E� er verilen bir durum son derecede organize bir haldeyse, yüksek dereceli rasgele olu� larla veya seçeneklerle nitelenemez, yani söz konusu durumda enformasyon az miktarda bulunmaktadır.”
(Weaver, 1949)
Aslen, Denklem 3.2.3.1.’den belirli bir sinyal için elde edilen
sayısal ifade, hem sistem içinde gözlemlenebilecek farklı durumlar
nispetinde olu� an toplam düzensizli � in bu sinyale ait kısmını, hem de
sinyalin söz konusu sistemdeki sinyal-enformasyon de� erini ikil adedi
cinsinden nicel olarak temsil eder. Örne� in, belirli bir sinyalin
gözlenme olasılı � ı “1” ise bu sinyalin hem sinyal-enformasyon de� eri
hem de sistemde yarattı � ı düzensizlik miktarı ikil adedi cinsinden 0
(sıfır) olur. Bir ba� ka söyleyi � le, e� er kayna� ın hedefe iletebilece� i tüm
mesajların farklı olanlarının her birini temsil için tek bir sinyale ihtiyaç
oldu� u kabul edilirse: Gönderilecek tek bir mesaj oldu� u durumda,
zamanın herhangi bir kesitinde iletim hattı üzerinde gözlemlenecek
sinyal hep aynı kalacak, yani tam bir düzen olacaktır. Dolayısı ile hat
üstünde gözlemlenebilecek farklı durumları kodlamak için gerekecek
asgari ikil sayısı ve söz konusu sinyalin sinyal-enformasyon de� eri 0
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
49
olacaktır; Ancak nakledilmek istenen mesaj sayısı 2 olursa, zamanın
herhangi bir kesitinde sistem içinde farklı iki sinyalden herhangi birisi
gözlemlenebilir. Dolayısı ile hat üstünde gözlemlenebilecek farklı
durumları kodlamak için gerekecek asgari ikil sayısı ve söz konusu
sinyallerden her birinin sinyal-enformasyon de� eri 1 olacaktır; Aynı � ekilde 3 mesaj için, 3 farklı durumu kodlamak gerekecek dolayısı ile
gözlemlenebilecek farklı durumları kodlamak için gerekecek asgari ikil
sayısı ve sinyal-enformasyon de� eri 2 olacaktır. Genellersek, n farklı
durum için log2(n) ikil gerekecektir.
3.2.4. Enformasyon Yakla � ımlarının Kar � ıla � tırması
Lyons (1977) terminoloji açısından sinyal-enformasyon ile
anlamsal-enformasyon arasında karma� ık bir ili � ki oldu� una da dikkat
çekmi � tir. Lyons bu iki farklı enformasyon kavramı arasında, duyusal
olarak beklenmedik olma, yani � a� kınlık yaratma ölçüsünde bir
ba� lantı oldu� undan bahseder. Bu ba� lantı, bir sinyalin gözlenme
olasılı � ı arttıkça ta� ıdı � ı sinyal-enformasyon azalır ilkesi üzerinden
kurulur. Örne� in “Adam köpe� i ısırdı.” cümlesi “Köpek adamı ısırdı.”
cümlesinden duyusal olarak � a� kınlık yaratma ölçüsünde bir bakıma
daha büyük anlamsal-enformasyon de� eri ta� ır denebilir. Bu ba� lamda
söz konusu iki cümlenin duyusal olarak � a� kınlık yaratma miktarı
sinyal-enformasyon de� erleri olarak da dü� ünülebilir: Duyusal olarak � a� kınlık yaratma miktarı yüksek olan “Adam köpe� i ısırdı” cümlesi
beklenmedik bir durumdur, yani gözlenme olasılı � ı dü� üktür dolayısı
ile sinyal-enformasyon de� eri yüksektir; Benzer � ekilde bir sinyalin
gözlenmesi olasılı � ı e� er “1” ise, bu sinyal hiç sinyal-enformasyon
ta� ımaz. Yani, e� er bir ki � i tamamen tahmin edilebilir bir � ey
söylüyorsa, “Köpek adamı ısırdı” cümlesi gibi duyusal açıdan � a� kınlık
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
50
yaratma ölçüsünde söyledi � i � eyin hiçbir anlamsal-enformasyon de� eri
yoktur denebilir.
Anlamsal-enformasyonun verilen tanımından da anla� ılaca� ı
gibi enformasyon, ba� langıç olarak veri ile temsilinden dü� ünen bir
zihinde bilgiye dönü� mesine kadar geçen süreçte, tekbir halde
bulunmaz. Çizelge 3.2.4.1.’de enformasyonun, içinde bulundu� u
süreçler açısından hangi hallerde oldu� u verilmi � tir.
Çizelge 3.2.4.1: Enformasyonun çe� itli hallerini gruplayan Buckland Matrisi (Buckland, 1991)
Soyut (Intangible) Somut (Tangible)
Varlık (Entity)
Bilgi-olarak-Enformasyon: Ki � isel, bireysel bilgi
Nesne-olarak-Enformasyon: Kayıtlı her türlü veri: belge vb.
Süreç (Process)
Süreç-olarak-Enformasyon: Edinilmi � enformasyon.
� � lem içindeki enformasyon: Veri i � leme, belge i � leme v.b.
Buckland (1991) enformasyonun söz konusu hallerini kavramsal
(soyut veya somut) ve nesnel (varlık veya süreç) olmak üzere iki boyut
üzerinden 4 gruba ayırır ve söz konusu sınıflandırma Buckland Matrisi
olarak anılır:
1. Bilgi olarak enformasyon: “Soyut varlık” olarak enformasyon sadece insanda bulunur ve ki � isel, daha do� rusu bireye ait bilgidir.
2. Bir � ey olarak enformasyon: “Somut varlık” olarak enformasyon gündelik hayatta kar � ıla� ılan ve nesnel olan her türlü veridir: belge, ses, görüntü v.b. � eyler.
3. Süreç olarak enformasyon: “Soyut süreç” olarak enformasyon bili � sel olarak verinin dü� ünen bir zihinde enformasyona dönü� mü� hali, yani edinilmi � enformasyondur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
51
4. Enformasyonu i � leme: “Somut süreç” olarak enformasyon, yani i � lemin hedefinde bulunan nesnel enformasyon; mekanik olarak semboller (yazılı belgelerdeki alfabe, sayılar vb. ) veya ba� ka
� eklindeki gösterimler üzerinde i � lem yapmak, örnek olarak veri i � leme (data processing), belge i � leme (document processing) ve bilgi mühendisli � i (Knowledge engineering).
Tez kapsamında yaptı � ımız çalı � malar anlamsal enformasyonun
somut hallerini esas almaktadır.
3.3. Enformasyonun � letimi – � leti � im
Enformasyon fikrine Thagard (1990) tarafından verilen
yakla� ımların içinde anılan önemli bir di � er husus da, enformasyonun
nakledilmesi, daha do� rusu genel adı ile ileti � im, haberle� medir. Aslen
Shannon (1949) tarafından sinyal-enformasyon fikrinin ortaya atıldı � ı
çalı � mada, sadece sinyal-enformasyon iletimi için tasarlanmı � olan �ekil 3.3.1.’deki ileti � im modeli, insanlar arasındaki anlamsal-
enformasyon nakli içinde kullanılabildi � inden, literatürde ileti � imin
klasik modeli olarak anılır ve her iki enformasyon fikri kapsamındaki
uygulamalarda genel-geçer model kabul edilir.
�ekil’de, kaynak, daha do� rusu enformasyonun kayna� ı telefonda
konu� mayı yapan ki � idir. Verici sesi elektrik sinyaline çeviren birimdir. �ekilde etiketsiz olarak bulunan kutu ise sinyal gönderip alınabilen
herhangi bir iletim ortamıdır (örne� in telefon hattı). Alıcı, iletim
ortamından aldı � ı sinyali tekrar sese çeviren birimdir. Hedef ise
telefonun kar � ı tarafında konu� mayı dinleyen ki � idir. Gürültü kayna� ı
bu ileti � imi bozacak her türlü ek uyarımdır (örne� in telefon hatlarında
yo � unluk).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
52
Kaynak Verici Alıcı Hedef
GürültüKayna � ı
Mesaj MesajSinyalAlınanSinyal
Anlamsal-enformasyon
Sinyal-enformasyon
�
ekil 3.3.1: � leti � imin klasik modeli. (Shannon, 1949, uyarlama)
Shannon’un, enformasyonun iletimi için verdi � i modelle ilgili altı
çizilmesi gereken en önemli husus: kaynak ile hedef arasında anlamsal-
enformasyon naklinin; alıcı ve verici arasında sinyal-enformasyon
gönderiminin söz konusu olmasıdır. Çünkü, ileti � im fikri, daha do� rusu
anlamsal-enformasyonun nakli sadece iki insan arasında var
olmaktadır. � leti � imin klasik modelinde, genel olarak anlamsal-
enformasyon naklinin her � ekli için bir betimleme verilmi � tir, özelde
tez kapsamı içinde ele aldı � ımız yazılı metinlere uyarlanmı � ileti � im
modeli de � ekil 3.3.2.’deki gibidir.
Anlamsal-enformasyonun genelde her � eklinde, özelde de yazı ile
naklinde enformasyonun muhtemelli � i (potansiyel) söz konusudur.
Yazı ile ileti � imde, anlamsal-enformasyon simgesel göstergeler ile
temsil edilen anlamlar silsilesi halinde metne dönü� türülür. Söz konusu
iletilmek istenen anlamsal-enformasyonun tekrar elde edilebilir olması
adına kullanılan simgesel göstergelerin “ dü� ünen bir zihin tarafından
idrak edilebilme, yani anla� ılabilir” olma özelli � ini ta� ıması gerekir.
Temsil edilen anlamlar, bütün halde kaynak ile hedef arasında
nakledilmek istenen mesaj içeri � ini, yani muhtemel enformasyonu
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
53
olu� turur. Muhtemellik ise ileti � imin hacim özelli � i ile izah edilir, yani
hedef durumunda mesajı okuyan herhangi bir ki � i, enformasyonu
edinebilirken, herhangi bir ba� ka ki � i edinemeyebilir, yani
nakledilmeye çalı � ılan enformasyonu anlamayabilir. Enformasyonun
muhtemelli � i ba� lamında, � ifrelenmi � metinlerin herkes için; hedef
ki � inin bilmedi � i bir do � al dilde yazılmı � metinlerin sadece söz konusu
ki � i için, “ enformasyon” olu� turmayaca� ı örnek olarak verilebilir.
Anlamsal-enformasyonun muhtemellik özelli � ini, yazılı metinler için
genellersek, tanım � öyle olur: Yazılı bir metinde, anlamlar bütünü ile
temsil edilen muhtemel bir enformasyon vardır; bir ki � i söz konusu
metni okur ve idrak ederse, bu muhtemel enformasyon sadece o ki � i için anlamsal-enformasyona dönü� ür.
�leti � im = anlamsal enformasyonun nakli
Kaynak
yazarken
metin
okurken
Okuyan
Anlamlar ile ifade
eder
Anlamları algılar
Enformasyonu
edinir
Mesaj içeri � i (anlamlar bütünü)
Muhtemel Enformasyon
Hedef
Bilgi Olu� ur
Anlamlar silsilesi
Enformasyonu NaklederYazan
Enformasyon Kayna� ı
�ekil 3.3.2: Anlamsal-enformasyonun yazı ile iletim modeli.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
54
3.4. Veri, Enformasyon ve Bilgi Tanımları
Tez kapsamında geçerli veri, enformasyon ve bilgi tanımları
anlamsal-enformasyon yakla� ımı esasına göre � öyledir:
Tanım 4.4.1: Veri, insanlar veya bilgisayarlar tarafından alınabilen, depolanabilen, i � lenebilen ve iletilebilen her türlü sayı, harf ve harf dizileri, resimler ve benzeri olgulardır;
Tanım 4.4.2: Enformasyon, alınabilecek ve anla� ılabilecek bir mesajın içeri � ini te� kil eden verilerin temsil edebilece� i her muhtemel anlam ile olu� turulabilecek “anlam bütünleri” toplulu� undan, dü� ünen bir zihin tarafından idrak edilebilir özellikteki her “anlam bütünü” ;
Tanım 4.4.3: Bilgi genel anlamda algı, ö � renme ve usa vurmanın psikolojik sonucunda (her tür edinilmi � enformasyon yorumlanarak), özelde ise deneyim, ya� anmı � lık, tecrübe etme (ki � inin a� ina oldu� u, malum olmu�
� eylere ait bilgi) veya tanımlama, tasvir, betimleme (ki � inin okuyarak veya olgular üzerinden edindi � i bilgi) sonucunda olu� ur ve sadece ki � inin zihninde soyut olarak var olur.
Tanımlanan veri, enformasyon ve bilgi arasındaki ili � kiler de �ekil 3.4.1.’de özetlenmi � tir.
Enformasyon = Veri + Anlam
Bilgi = Enformasyon + � � lem
�ekil 3.4.1: Veri, enformasyon ve bilgi arasındaki ili � kilerin denklemleri.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
55
3.5. Enformasyon ve Haber
Bu bölümde, � ngilizce information terimi için Türkçe kar � ılık
olarak haber kelimesinin kullanılması ve bilgi kelimesinin sadece
� ngilizce knowledge terimi ile kar � ılanan anlamı içerecek � ekilde
daraltılması hususu tartı � ılmaktadır. Türkçe kaynaklarda (TBD 2004;
TDK 2004a) hem knowledge hem de information terimi için bilgi
kar � ılı � ı verilmektedir. Tartı � malı ve mesele olan konu � udur: Türkçe
bilgi kelimesi ile, kökeninde kavramsal tanımları farklı olan iki
olgunun birden, yani � ngilizce information ve knowledge kavramlarının
kar � ılanmaya çalı � ılması, dolayısı ile enformasyon bilim adına: bir,
“Türkçe” için yapılacak çalı � malarda hedeflerin belirlenmesi; iki,
ara� tırmalardan elde edilen sonuç ve ürünlerin yerinde kullanılması; ve
son olarak geni � kitlelere özü bozulmadan aktarılması gibi esasa dayalı
üç hususta disiplinler arası birikimsel katkıyı kısmen engellemektedir.
Bu sebeple, Türkçe’de bilgi kelimesi, sadece � ngilizce knowledge
kavramını kar � ılamak için kullanılmalıdır. Information terimi ile
kar � ılanan kavram içinse, uygun olan farklı bir Türkçe kelime
olmalıdır. Bizim önerimiz, bili � im’deki anlamıyla enformasyon
kavramını kar � ılamak için haber kelimesinin kullanılmasıdır. Türkiye
Bili � im Derne� i (TBD) Terimler Sözlü� ünün (2004) ve Türk Dil
Kurumu (TDK) Bilgisayar Terimleri Kar � ılılar Kılavuzunun (2004a)
sayısal uyarlamaları information terimini, Türkçe’ye bilgi olarak
aktarmı � tır. Bilgi kelimesinin Türkçe’de kar � ıladı � ı kavramlar ise,
bili � im için verilen kar � ılık hariç, Fosket (1996) ve Creaven (2002)
tarafından � ngilizce knowledge kavramı için verilen tanımla örtü� ürken
(TDK, 2004b); bili � im için verilen tanımda, information kavramına
verilen tanımla örtü� mektedir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
56
“ Bilgi: 1-) � nsan aklının erebilece� i olgu, gerçek ve ilkelerin bütününe verilen ad, malûmat. … 3-) � nsan zekâsının çalı � ması sonucu ortaya çıkan dü� ünce ürünü, malûmat, vukuf. … 6-) (bili � imde) Kurallardan yararlanarak ki � inin veriye yöneltti � i anlam.”
(TDK, 2004b)
Yine Türk Dil Kurumu güncel Türkçe Sözlü� ün sayısal
uyarlamasında (2004b), haber kelimesi için � u tanımlar verilmektedir:
“ 1-) Bir olay, bir olgu üzerine edinilen bilgi, salık. 2-) � leti � im veya yayın organlarıyla verilen bilgi. 3-) Bilgi. 4-) (eskimi � , gramer ) Yüklem.”
(TDK, 2004b)
Haber kelimesinin kar � ıladı � ı Türkçe kavramları detaylı
inceledi � imizde, ilk dikkati çeken husus, Creaven’ ın enformasyon
tanımı için yaptı � ımız tespitin, yani “ ...enformasyonun var olu� noktasını de� i � tirmez, yine insanın bilme eyleminin bir parçasıdır;
ancak olgunun tasvirini bilmeye kaynak te� kil eden somut olgulardan
ba� langıçla, insana do� ru yapar.” hükmünün haber olgusu içinde
geçerli oldu� udur. Bu ba� lamda haber, alan ki � inin belirsizli � ini
azaltan, alınabilen ve anlanabilen bir mesajdır, yani somut halde
simgesel gösterimler ile temsil edilen bir anlamlar bütünüdür. Haber’ i
içeren mesaj bir ki � iye ula� ınca, o ki � i tarafından simgeler algılanır,
anlamlar tekrar yüklenir ve olu� an anlamlar bütününden haber idrak
edilir (bir anlamda geri-getirilir). Bu noktadan itibaren haber
yorumlanarak edinilmi � bilgiye dönü� mü� tür, yani artık söz konusu
olgu, gerçek veya mekan’a ait mevcut durum, o insana mal olmu� tur, o
insan için malum durumdadır. Bu bakı � açısı, somut nesnellikten, insan
zihnindeki soyut varlı � a, yani bilgiye do� ru enformasyon tarifidir ve
somut nesnellik içinde haber enformasyonun kar � ılı � ıdır. Ancak bir de
insan cephesinden, yani bilgi olgusundan ba� layarak enformasyon
tasvir edilebilir. Bu � ekilde yapılan bir tanımda, enformasyon olgusu:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
57
algı, ö� renme ve usa vuruma (idrak) ile insana mal olabilecek her türlü
soyut veya somut nesnelere ait özellikleri ta� ıyan malumat olarak da
tanımlanabilir. Bir ba� ka söyleyi � le, soyut veya somut nesnelere ait
özellikler ile temsil edilen belirli bir durumun, bir insan için malum bir
durum olmasına, bilinmesine sebebiyet veren olgudur. Her iki bakı � açısından yapılan tasvirler kullanım sahalarına göre geçerli olabilirler.
Anacak söz konusu bili � im, yani “ enformasyon bilim” ise insan kökenli
tanım pek i � levsel de� ildir; somut nesnellik ba� lamında bir tanım
u� ra� lar açısından i � levsel olacaktır.
� lk anda haber ile information kelimesinin kavramsal olarak
örtü� medi � i dü� ünülebilir. Bunun sebebi haber kelimesinin, Türkçe’de
yaygın olarak � ngilizce news kelimesi için kullanılması, daha do� rusu
bu anlamının di � er anlamlarını bastıracak kadar yaygın kullanılmasıdır.
Aslen, news terimi ile � ngilizce’de kar � ılanan olgu da, Türkçe’deki
haber’dir, fakat güncel, yani “ yeni” olan information anlamında
kullanılır. Bir ba� ka söyleyi � le, information kavramının, news terimi ile
kar � ılanan halinde, duyusal olarak beklenmedik olma, enformasyonu
alan ki � ide bir � a� kınlık yaratma durumu söz konusudur. Türkçe’de bu
� ekilde bir ayrım yoktur, daha do� rusu haberin “eskisi” ve “yenisi”
diye ayrı kavramlar olu� turulmamı � , farklı terimlerle kar � ılanmamı � tır. Bu yüzden bili � imde bir kar � ılık aranırken, information olgusu için en
uygun terimin, bilgi oldu� u dü� ünülmü� olmalıdır. Fakat, haber
kelimesi, information kelimesinin bili � im için kavramsal çeviri
açısından e� , yani köken olarak aynı, ancak Türkçe güncel kullanımda
daraltılmı � kar � ılı � ıdır. Önerimizin temelinde, bilgi kelimesi ile
Türkçe’de kar � ılanan soyut kavramın sınırları bozularak, � ngilizce
information kavramı ile kar � ılanan bir bakıma somut olguyu da içine
alacak hale getirilmesi yerine, daha do� rusu insan dı � ındaki nesneleri
de içine almaya zorlanması yerine, haber kelimesi ile kar � ılanan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
58
kavramın güncel dar anlamından geni � letilmesi yatmaktadır. Bu
yakla� ımın enformasyon bilim göz önüne alındı � ında, i � levsel
tanımlara ula� ma hedefini daha rahat kar � ıladı � ı da söylenebilir.
Önerimizi güçlendirmek adına, son olarak dilbilim’de e� anlamlı iki
kelimeyi do � rulamak amacı ile kullanılan yöntemi information ve
haber için uygulayarak tartı � mamızı bitiriyoruz. Dilbilimde “E� er
farklı biçimlere sahip iki kelime aynı cümlede birbiri yerine kullanılır
ve cümlenin anlamı de� i � mezse, söz konusu iki kelime e� anlamlıdır.”
önermesi, biçimsel olarak farklı � ekillere sahip kelimelerin e� anlamlılı � ının sınanması için kullanılan, geçerli bir yöntemdir. Haber
kelimesini Fosket (1996) ve Creaven (2002) tarafından verilen
enformasyon tanımlarında kullanarak e� anlamlılıklarını sorgulayalım.
“ … Bilgi (Knowledge) benim bildi� im � ey, yani ki � i olarak bildi � imiz � ey veya � eyler; Haber (Information) bizim bildi � imiz � eyler, yani payla� ılmı � bilgidir.”
(Fosket, 1996)
“ …Bilgi (Knowledge) ise algı, ö� renme ve usa vurmanın psikolojik sonucudur. …Haber (Information) ise alan ki � inin belirsizli� ini azaltan, alınabilen ve anlanabilen bir mesajdır.”
(Creaven, 2002)
Görüldü� ü gibi aynı cümlede haber kelimesinin enformasyon
kelimesi ile de� i � tirilmesi; Türkçe anlam birli � inin bozulması bir yana,
verilen tanımları daha belirleyici kılmı � , algılanmasını ve anla� ılmasını
kolayla� tırmı � tır. Ancak alınan bu müspet sonucun aksine, tezde bilgi
geri-getirim terimi Türkçe literatürle bütünlü� ü bozmamak amacı ile
biçimsel olarak aynen kullanılacaktır. Fakat okuyucu, yukarıda izah
edildi � i gibi aslen haber geri-getirim terimi ile kar � ılanması gereken
kavramsal sınırları anlamalıdır. Ek olarak, süre geldi � i � ekilde, �ngilizce information ve knowledge kavramları arasındaki farkı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
59
belirtebilmek için information terimi yerine enformasyon kelimesi
kullanımı, knowledge terimi yerine de bilgi kelimesi kullanımı devam
edecektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
60
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
61
4. ENFORMASYON KURAMI
Enformasyon kuramı Shannon (1949) tarafından ortaya konmu�
olan sinyal-enformasyon fikrini esas alır (Aynı yakla� ım literatürde
ileti � im-teorik ve enformasyon-teorik olarak da anılır). Sinyal-
enformasyon bir kaynak ve hedef arasında kurulmu� herhangi bir
ileti � im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir,
yani öz-enformasyon’ dur. Shannon aslen, mükemmel olmayan bir
ileti � im hattı üzerinden, örne� in gürültülü bir telefon hattı üzerinden
gönderilecek enformasyonun, miktarını en yüksek seviyeye çekme
amacındaydı. Shannon, bu amaç do� rultusunda, herhangi bir
enformasyon kayna� ı ve ileti � im hattı için iki etmenin kuramsal en
yüksek de� erlerini tespit etmi � tir: 1-) düzensizlik, H de� eri ile elde
edilen veri sıkı � tırma miktarı, 2-) � letim hızı, yani ileti � im kanalı
kapasitesi, C ile verilen de� er. Shannon’a gelinceye kadar, iletilmek
istenen mesajın hızı ne kadar arttırılırsa, mesajın iletimindeki hatanın
da o kadar artaca� ı dü� ünülüyordu. Ancak Shannon, mesaj ile ta� ınmak
istenen enformasyonun, kanal kapasitesinden daha küçük bir hızla
iletilmesi durumunda, mesajın iletiminde hata olması olasılı � ının
istendi � i kadar küçültülebilece� ini ispatlamı � tır. Shannon’un ortaya
koydu� u kuramda, mesaj iletiminde kullanılan sinyal ile enformasyon
arasındaki ili � ki istatistik esaslıdır, daha do� rusu ileti � im � ekli içinde
söz konusu sinyalin gözlenme olasılı � ına dayanır. Sinyal-
enformasyonun nicel olarak ölçülebilmesinin kökeninde ise olasılık
kuramını esas alan düzensizlik (entropy) kavramı vardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
62
4.1. Düzensizlik (Entropy)
E� er X olasılık de� i � keninin, bir ayrık simgesel de� erler kümesi
A (örne� in alfabe) üzerinden tanımlanan olasılık yo � unluk
fonksiyonunun, p(x) oldu� unu kabul edilirse:
AxxXPxp ∈== ),()( (4.1.1)
Örne� in, iki demir parayı havaya atıp yere dü� tüklerinde gelen
turaları sayarsak, p(0) = ¼, p(1) = ½ ve p(2) = ¼ olasılıklarına sahip
bir olasılık de� i � keni tanımlamı � oluruz.
Bir olasılık de� i � keninin düzensizli � i (Entropy), yani öz-
enformasyonu sahip oldu� u ortalama belirsizliktir:
)(
1log)(
)(log)()()(
2
2
xpxp
xpxpXHpH
Ax
Ax
�=
�−==
∈
∈ (4.1.2)
Düzensizlik, bir olasılık de� i � kenindeki enformasyon miktarıdır. Denklem 4.1.2.’de verilen e� itlik, yalın bir � ekilde ))(/1log()( xpxp
de� erlerinin tüm Ax∈ de� erleri için toplamı olarak yorumlanmamalıdır. xxp ∀
�,)( � terimi bir kalıptır ve her Ax ∈
de� eri için ))(/1log( xp de� erinin, yani sinyal-enformasyon miktarının
toplam üzerindeki etkisini a� ırlıklandırır. Ayrıca, p(x) tanımı gere� i xxp ∀=
�,1)( . � statistiksel olarak xxp ∀
,)( kalıbı bir olasılık
de� i � keni için beklen de� er, yani tahmini de� er tanımlar. Örne� in bir
olasılık de� i � keni Z ve olasılık yo � unluk fonksiyonu p(z) olsun. Z
olasılık de� i � keninin beklenen de� eri E(Z):
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
63
�=⋅=
∀zzzzpZE )()( (4.1.3)
E(Z) beklenen de� eri, Z olasılık de� i � keninin tanım kümesinin ortalamasının zµ , tahmini, yani z de� erine e� ittir. Beklenen de� er
tanımı kullanılarak, Denklem 4.1.2.’de verilen düzensizlik e� itli � i
Denklem 4.1.4.’ deki biçimde yazılabilir.
�=���
����=∀x xp
xpxp
EXH)(
1log)(
)(
1log)( 22 (4.1.4)
Denklem 4.1.4.’ün Denklem 4.1.3.’den elde edili � inde
belirtilmesi gereken bir nokta vardır. Denklem 4.1.3.’e göre gerçekte düzensizlik ( )( ) ( ) xxpxpp ∀
,)(/1log)(/1log olmalıdır. Bir ba� ka
söyleyi � le, ))(/1log( xp ile betimlenen olasılık de� i � kenine ait olasılık
yo � unluk fonksiyonunun de� erleri ile a� ırlıklandırmak gerekmektedir. Ancak, ( ) ∀== xxpxpp ,1)())(/1log( ve log fonksiyonunun bir
do� rusal ta� ıma olmasından ötürü X ile ))(/1log( xp olasılık
de� i � kenlerinin olasılık yo � unluk fonksiyonları özde� , yani p(x)
olacaktır.
Düzensizli � in 3 (üç) temel özelli � i vardır;
1. )(~;0)( xpXxXH ⇔∀≥ .
2. cXxXH =⇔∀= ;0)( . Yani X olasılık de� i � keni sabit bir c de� erine e� itse, bir olasılık da� ılımına göre de� er almıyorsa.
3. Düzensizlik mesaj uzunlu� u ile orantılı olarak artar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
64
4.2. Bir le� ik Düzensizlik ve Ko� ullu Düzensizlik
Ayrık iki olasılık de� i � keni X,Y ~ p(x,y) çiftinin birle� ik
düzensizli � i, ikisinin de� erini birlikte belirtmek için gereken ortalama
enformasyon miktarıdır.
���−=
∀ ∀x yyxpyxpYXH ),(log),(),( 2 (4.2.1)
Bir ayrık Y olasılık de� i � keninin, X olasılık de� i � keni
verilmi � ken ko ullu düzensizli i (X,Y ~ p(x,y)), kar � ı taraf X’ i bilirken
Y’ yi iletmek için sa� lamak gereken, fazladan ortalama enformasyon
miktarını verir.
���−=
� ����� �
−=
�==
∀ ∀
∀ ∀
∀
x y
x y
x
xypyxp
xypxypxp
xXYHxpXYH
)(log),(
)(log)()(
)()()(
(4.2.2)
Olasılık kuramında oldu� u gibi, düzensizlik için de bir
zincirleme kuralı vardır.
),()()(),,(
)()(),(
111211 −+++=
+=
nnn XXXHXXHXHXXH
XYHXHYXH
��� (4.2.3)
Olasılık kuramı içindeki zincirleme kuralında, olasılıkların
çarpımları, düzensizlikte log fonksiyonu sebebi ile toplam olmu� tur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
65
( )( )( )
( )( ) ( )
)()(
)(log)(log
)(log)(log
)()(log
),(log),(
),()(
),(
),(
),(
XYHXH
xypExpE
xypxpE
xypxpE
yxpEYXH
yxpxp
yxp
yxp
yxp
+=
−−=
+−=
−=
−=
(4.2.4)
Bir mesaj içinde bulunan enformasyon miktarı, mesajın
boyutuna ba� ımlı oldu� u için, genellikle bir harf için veya bir kelime
için düzensizlikten bahsedilir. Bir mesajın, n uzunlu� unda olması
durumunda düzensizlik hızı (entropy rate) olarak da bilinen bir
harf/kelime için düzensizlik Denklem 4.2.5.’de verildi � i gibi
hesaplanır.
�−==
nxnnnrate xpxp
nXH
nH
1
)(log)(1
)(1
111 (4.2.5)
Denklem 4.2.5.’de, X1n simgesi, genel hali ),,( jiij XXX �=
olan gösterimin, özelidir ve ),,( 1 nXX � olasılık de� i � kenlerinin sıralı
silsilesini temsil eder.
E� er do� al bir dili, simgelerin sıralı diziliminin olu� turdu� u bir
silsile süreci (stochastic process) olarak kabul edersek, L=(Xi), örne� in
bir haber kanalından gönderilen her haber yazısının meydana getirdi � i
bir derlem olabilir, do � al dilin L, düzensizli � ini söz konusu silsile
sürecinin düzensizlik hızı olarak tanımlayabiliriz.
),,,(1
lim)( 21 nn
rate XXXHn
LH �∞→
= (4.2.6)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
66
Denklem 4.2.6. ile do� al bir dilin, yani aktif kullanımı olan ve
iç-devinimli olarak de� i � en bir dilin düzensizli � ini hesapladı � ımız için,
elimizdeki örnek derlem boyutu sonsuza giderken düzensizlik hızını
hesaplamamız gerekmektedir. Denklemde bu yüzden limit i � levi
kullanılmı � tır.
4.3. Kar � ılıklı Enformasyon (Mutual Information)
Düzensizli � in zincirleme kuralına göre, iki ayrık olasılık
de� i � keninin X,Y ~ p(x,y) birle� ik düzensizli � i H(X,Y), Denklem
4.3.1.’de gösterildi � i biçimde hesaplanabilmektedir.
)()()()(),( YXHYHXYHXHYXH +=+= (4.3.1)
Denklem 4.3.1.’den de, Denklem 4.3.2.’de bulunan e� itlik elde
edilmektedir.
)()()()( XYHYHYXHXH −=− (4.3.2)
Denklem 4.3.2.’de verilen düzensizlikler arasındaki fark
kar� ılıklı-enformasyon olarak adlandırılmaktadır. Sözle ifadesi edecek
olursak: bir olasılık de� i � kenini (Y) bilmekle bir di � er olasılık
de� i � keninin (X) düzensizli � indeki azalı � miktarıdır. Bir ba� ka
söyleyi � le, bir olasılık de� i � keninin (Y), di � er bir olasılık de� i � keni (X)
hakkında içerdi � i enformasyon miktarıdır. Kar � ılıklı-enformasyon ve
düzensizlik arasındaki ili � kinin çizge olarak ifadesi � ekil 4.3.1.’de
verilmi � tir (Cover and Thomas, 1991).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
67
H(X,Y)
H(X) H(Y)
H(Y|X)H(X|Y)
I(X;Y)
�
ekil 4.3.1: Kar � ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili � ki.
Kar � ılıklı-enformasyon, iki de� i � ken tarafından içerilen ortak
enformasyon miktarının simetrik ve pozitif nicel de� eridir. Kar � ılıklı-
enformasyon iki de� i � kenin ba� ımsızlık ölçütüdür ve � u özelliklere
sahiptir:
1. Kar � ılıklı-enformasyon, iki de� i � ken ba� ımsızken 0 (sıfırdır).
2. � ki ba� ımlı de� i � ken için, kar � ılıklı-enformasyon miktarı sadece ba� ımlılı � ın derecesi oranında artmaz, aynı zamanda de� i � kenlerin düzensizli � i nispetinde de artar.
Kar � ılıklı-enformasyon için biçimsel tanımlama Denklem
4.3.3.’de verilmi � tir. Denklem, hem düzensizli � in neden öz-
enformasyon (self-information) olarak adlandırıldı � ını, hem de
tamamen ba� ımlı iki de� i � kenin kar � ılıklı-enformasyonunun neden
sabit olmayıp, de� i � kenlerin düzensizli � ine ba� lı oldu� unu da
açıklamaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
68
�=
�+
� �+=
−=
∀
∀
∀ ∀
yx
yx
x y
ypxp
yxpyxp
yxpyxp
ypyp
xpxp
XYHXHYXI
,
,
)()(
),(log),(
),(log),(
)(
1log)(
)(
1log)(
)()();(
(4.3.3)
Denklem 4.3.4.’de ko� ullu kar � ılıklı-enformasyon ve Denklem
4.3.5.’de de zincirleme kuralı verilmi � tir.
),()());(();( ZYXHZXHZYXIZYXI −== (4.3.4)
�=
++=
=−
−n
iii
nnn
XXYXI
XXYXIYXIYXI
111
1111
),,;(
),,;();();(
�
�� (4.3.5)
4.4. Ko� ullu Düzensizlik (Conditional Entropy)
�ki olasılık yo � unluk fonksiyonu p(x) ve q(x) için göreceli
düzensizlik Denklem 4.4.1.’de verilmi � tir.
( ) =∀x xq
xpxpqpD
)(
)(log)( (4.4.1)
Denklem 4.4.1.’de 0)/0log(0 =⋅ q olarak, ∞=⋅ )0/log( pp
olarak kabul edilmektedir. Aynı zamanda Kullback-Leibner (KL)
ıraksaklı ı (Kullback-Leibner divergence) olarak da anılan göreceli
düzensizlik, aynı örneklem uzayında tanımlı iki olasılık da ılımının ne
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
69
kadar farklı oldu� unu gösterir. Beklenen de� er olarak tanımlaması
Denklem 4.4.2.’de verilmi � tir:
( ) ��������=
)(
)(log
xq
xpEqpD p (4.4.2)
Dolayısı ile, p ve q arasındaki KL yakınsaklı � ı, p da� ılımdaki
olayları, q da� ılımını esas alan kodlarla kodlanması ile fazladan ortaya
çıkan ortalama düzensizlik miktarını, bir ba� ka söyleyi � le kodlama için
fazladan harcanan ikil (bit) sayısını verir.
Göreceli düzensizlik miktarı daima pozitif bir sayıdır ve 0 (sıfır)
olması ancak q da� ılımın, p da� ılımına e� it olması ile gerçekle� ir. Göreceli düzensizlik matematiksel anlamda bir ölçüt de� ildir, yani p ve
q için simetrik de� ildir ve saç aya� ı e� itsizli � ini7 (triangle inequality)
sa� lamaz.
Kar � ılıklı-enformasyon aslında, bir birle� ik da� ılımın
ba� ımsızlıktan ne kadar uzak oldu� unun da bir ölçütüdür ve Denklem
4.4.3.’de verildi � i � ekli ile betimlenir.
))()(),(();( ypxpyxpDYXI ⋅= (4.4.3)
Ko � ullu göreceli düzensizlik, Denklem 4.4.4.’de ve göreceli
düzensizlik için zincirleme kuralı da Denklem 4.4.5.’de verilmi � tir.
7 Herhangi üç nokta X, Y ve Z için saç aya� ı e itsizli � i (triangle inequality) udur: d(x,y) <= d(x,z) + d(z,y). (d(x,y) iki nokta arasındaki mesafedir)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
70
( ) ��=∀∀ yx xyq
xypxypxpxyqxypD
)(
)(log)()()()( (4.4.4)
( ) ( ) ( ))()()()(),(),( xyqxypDxqxpDyxqyxpD +=
(4.4.5)
4.5. Çapraz düzensizlik (Cross Entropy)
Düzensizlik (entropy) bir de� i � kenin alaca� ı de� erlerdeki
belirsizli � i nicel olarak ölçer. Bir � ey hakkında daha çok � ey bildikçe,
düzensizlik dü� ecektir, çünkü yapılacak bir denemenin sonucu bizi � a� ırtmayacaktır. Öyleyse, düzensizli � i ne kadar � a� ıraca� ımızın bir
ölçüsü olarak da dü� ünebiliriz. Örne� in, yazılı bir metinde cümle içinde
bir sonraki kelimenin ne oldu� unu tahmin etmeye çalı � tı � ımızı
dü� ünelim. Bu durumda cümlenin ba� ından itibaren okudu� umuz, yani
bildi � imiz kelimelerden h, bir sonraki kelimenin w, ne olaca� ının
tahmin edilmesi P(w | h) biçiminde, � ekilsel olarak gösterilebilir.
Dolayısıyla, ne kadar � a� ıraca� ımızın bir ölçüsü olarak, söz konusu dile
ait geli � tirilmi � bir model, m ile bir sonraki kelimeye, w’ ye atanan
ko � ullu olasılı � ı alabiliriz. � a� ırma, noktasal düzensizlik (pointwise entropy) olarak adlandırılan )|(log)|( 2 hwmhwH −= denklemi ile
ölçülebilir. E� er tahmin edici, verilmi � bir, h ile ifade edilen
kelimelerin akı � tarihini, w kelimesinin izleyece� inden eminse ve bu da
do� ruysa, tahmin edicinin w kelimesini görmesi ile w kelimesinden elde edece� i enformasyon miktarı 01log2 =− olacaktır. Bir ba� ka
söyleyi � le, tahmin edici w kelimesini gördü� ünde hiç � a� ırmayacaktır.
Ancak di � er taraftan, model w kelimesinin verilen, h tarihini izlemeyece� ini öngörüyorsa, dolayısı ile 0)|( =hwm olacaktır ve
tahmin edicinin, w kelimesini görmesi ile elde edece� i enformasyon miktarı ∞=− 0log2 olacaktır. Son durum, kullandı � ımız dil modelinin
m, sonsuz derecede � a� ırması demek olur, bu da model için çok kötü bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
71
� eydir. Genelde dil modelleri, her olay için söz konusu iki uç noktaya
kar � ılık gelen aralık içinde, yani [0,1] kapalı aralı � ında bir olasılık
üretirler, böylece bir sonraki kelime w, belli oldu� unda bir miktar
enformasyon kazanırlar, yani bir miktar � a� ırırlar. Amaç bu � a� ırma
düzeyini, mümkün oldu� unca dü� ük seviyede tutmaktır. Tahmin edici
modelin, tüm kelimeler üzerinden � a� ırma miktarlarının toplamı, bize
modelin toplam � a� ırma miktarını verir:
),,,(log
),,,|(log
212
11212
n
n
jjjtoplam
wwwm
wwwwmH
�
�
−=
�−=
=−
(4.5.1)
Denklem 4.5.1.’de, e� itli � in son satırdaki hali, zincirleme kuralı
kullanarak çıkartılır. Genelde bu ölçüt metnin uzunlu� una ba� ımlı
olmaması için normalle� tirilir. Ölçütün normalle� mi � hali, bir kelime
için ortalama � a� ırma miktarını vermektedir.
Düzensizli � in, � a� ırmanın bir ölçüsü olarak verildi � i yukarıdaki
tanımı biçimsel bir halde verecek olursak, çapraz düzensizli � in
tanımına kolayca ula� ılacaktır. Do� al dili, gerçek bir olgu olarak
modellemeye çalı � tı � ımızı farz edelim. Ayrıca do� al dilde yapılan bir
konu� ma içindeki her bir sözü (yazıdaki kar � ılı � ı kelime), modellemeye
çalı � tı � ımız do � al dilin hesaplama birimleri olarak alalım. Sözler
kümesini, gerçek sayılar kümesine ta� ıyan bir olasılık de� i � keni X,
tanımlarsak, X de� i � keninin sözler kümesi üzerinde tanımlı bir da� ılımı
olacaktır, yani X ~ p(x). Fakat, ne yazık ki bu gün gerçek bir olgu
olarak, hiçbir dil için p(.) da� ılımının ne oldu� u bilinmemektedir.
Ancak, örneklere bakarak, belirli konu� maları kapsayan bir sözler
derlemi olu� turup, de� erlendirme altındaki do � al dilin, söz konusu p(.)
da� ılımının neye benzedi � ini deneysel olarak bulmaya çalı � abiliriz. Bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
72
ba� ka söyleyi � le, gerçek da� ılımın bir modelini m, elimizdeki en iyi
tahminleri kullanarak olu� turabiliriz. Bu modeli olu� tururken, yanlı � sız
bir olasılık da� ılımı elde etme amacımıza ula� mak için gerçek da� ılımla, model arasındaki göreceli enformasyon )( mpD mümkün
oldu� unca küçük olmalıdır. Ne yazık ki, yine bu göreceli enformasyon
da gerçek da� ılımın p(.) ne oldu� u bilinmedi � i için hesaplanamaz.
Ancak, bununla ili � kili bir ba� ka nicelik daha vardır, o da çapraz
enformasyondur.
Bir olasılık de� i � kenine X, ait gerçek olasılık da� ılımı, p ve bir
ba� ka olasılık da� ılımı, q (genelde modelimizi temsil eder) arasındaki
çapraz enformasyon, Denklem 4.5.2.’de verildi � i gibi hesaplanır.
��������=
�−=
+=
∀
)(
1log
)(log)(
)()(),(
xqE
xqxp
qpDXHqXH
p
x
(4.5.2)
Denklem 4.5.2.’de, do� al bir dil için düzensizli � i
tanımladı � ımız gibi, do� al bir dil L(Xi) ~ p(x) için geli � tirilmi � bir
model m üzerinden çapraz düzensizlikte, Denklem 4.5.3.’de oldu� u
gibi tanımlanabilir.
−=
∞→nx
nnn
xmxpn
mLH1
)(log)(1
lim),( 11 (4.5.3)
Denklemde, do� al dile ait gerçek olasılık da� ılımı, p(.) halen
yer almaktadır. Dolayısı ile, bu durumda da do� al dile ait çapraz
düzensizlik hesaplanamaz. Ancak, do� al dille ilgi bazı basitle� tirici
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
73
kabullenmeler yapacak olursak, Denklem 4.5.4.’de verilen
hesaplanabilir haline getirebiliriz.
)(log1
lim),( 1nn
xmn
mLH∞→
−= (4.5.4)
Çapraz düzensizli � in verilen bu biçiminde, sadece kendi
olu� turdu� umuz model m, ve yeterince büyük bir söz kümesi ile
hesaplama yapmamız mümkündür. Yani, gerçekte söz sayısının sınırı
sonsuza giderken hesaplama yapmak yerine, yeterince büyük olan bir
miktar söz kümesi ile hesaplama yapabilmek mümkün olmaktadır:
)(log1
),( 1nxmn
mLH ≈ (4.5.5)
Bu ölçüt, sadece ortalama � a� ırmayı vermektedir. Amaç bu
sayıyı mümkün oldu� unca küçük tutmaktır. E� er H(X) sabitse (yani
bilinmiyorsa), ölçüt göreceli düzensizli � i küçültme� e e� de� er
olmaktadır, yani modelimizdeki olasılık da� ılımının gerçek olasılık
da� ılımından farklılı � ının mümkün olan en küçük de� ere çekilmesi ile
e� olmaktadır. Bu noktadan sonra, geriye kalan tek gereksinim modeli
sınamak için kullanaca� ımız deney metninin ba� ımsız olmasıdır, yani
modelin parametrelerini tahmin etmek için kullandı � ımız talim derlemi,
deney metnin bir parçası olmamalıdır. Çapraz düzensizlik, modelin
deney metnindeki kelimelere atadı � ı ortalama olasılık ile ters
orantılıdır. Genellikle, dü� ük çapraz düzensizlik de� erlerine sahip dil
modelleri, uygulamada daha iyi sonuçlara sebep olur, ancak her zaman
böyle olması gerekmez. Örne� in, çapraz düzensizli � in dü� mesine sebep
olacak � ekilde, modelin kelimelere atadı � ı olasılıkların büyümesi fakat
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
74
kelimelerin göreceli olarak sıralanmasına atanan olasılıkların aynı
kalması, dil modelinin uygulamada ba� arımını arttırmaz.
Denklem 4.5.4.’den Denklem 4.5.5.’e geçi � i sa� layan sebep,
çapraz düzensizlik denklemi içinde olan beklenti fikridir:
��������=
∞→ )(
1log
1lim),(
1nn xmE
nmLH (4.5.6)
Beklenti tüm olası sıralamalar üzerinden elde edilen a� ırlıklı
ortalamadır. Ancak, Denklem 4.5.6.’da sınır de� erlerde hesaplama
yapılmaktadır, yani söz konusu a� ırlıklı ortalamanın do � al dilde
olu� turulabilecek en uzun sıralamaya bakarak olu� turulması
gerekmektedir. Denklem 4.5.5.’e geçi � te kullanılan fikir, yeterince
büyük uzunlukta bir sıralamaya bakarak hesaplanacak a� ırlıklı
ortalamanın çok fazla de� i � meyece� idir. Yani, “dilde olu� turulabilecek
tüm sıralamalara bakmak gerekmez, yeterince uzun bir sıralamadan
genel a� ırlıklı ortalamanın ne oldu� u tahmin edilebilir” fikrini esas
almaktadır.
Sebeplenmenin biçimsel tanımı ise � öyle yapılabilir: E� er do � al
dilin L(Xi) ~ p(x), dura� an (stationary) ergodik bir süreç oldu� u kabul
edilirse, Kuram 4.5.1.’e (Cover and Thomas, 1991) göre Denklem
4.5.4., Denklem 4.5.5.’e e� it olur.
Kuram 4.5.1: (Shannon-McMillian-Breiman Kuramı) E� er Hrate , sonlu sayıda de� ere sahip dura� an ergodik bir sürecin (Xn) düzensizlik hızıysa,
1),,(log1
1 =�
�� →− HXXp
nP n� .
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
75
Ergodik süreçler, alt süreçlerinden biri içinde sonsuz döngüye
girmeyen süreçlerdir. Dura� an süreçler, sürecin bir adımından, di � er
bir adıma geçi � i için atadı � ı olasılı � ın, sürecin ayrık zaman noktaları ile
indekslenmi � akı � ı içerisinde, iki farklı zaman indeksinde de� i � iklik
göstermemesidir, yani P(wi|wi-1) = P(w2|w1), i = 1,2, ...n olmasıdır.
4.6. � stikrarsızlık (Perplexity)
Düzensizlik kuramı ile ili � kili olarak bahsedece� imiz son konu
istikrarsızlık’ tır. Bu kavram, düzensizlik ile sıkı sıkıya ba� ılıdır.
Hesaplamalı dilbilim sahasında düzensizlik yerine bu ifade için elde
edilen de� erler dil modellerinin kıyaslaması için kullanılır. Bir olasılık
silsile sürecinde Xn, her adımda tercih edilebilecek e� it olasılı � a sahip
ortalama seçenek sayısı, söz konusu sürecin istikrarsızlı� ı olarak
tanımlanır ve Denklem 4.6.1.’deki ifade ile düzensizlik üzerinden
hesaplanır.
nn
mxHn xmmxPer n
1
1),(
1 )(2),( 1−
== (4.6.1)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
76
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
77
5. B � LG � GER � -GET � R � M S � STEMLER �
21. yüz yılın ortalarından itibaren bilimsel, sanatsal, siyasal,
ekonomik, güncel vb. i � sahalarında yapılan birikimli çalı � malar bizleri
yönetilmesi, depolanması ve geri-getirilmesi gereken külliyetli bir
potansiyel enformasyon yı � ını ile kar � ı kar � ıya bırakmı � tır. Bilgisayar
dünyasındaki geli � melere paralel olarak bu ihtiyaçlardan yönetim ve
depolama sayısal kütüphanelerde örnekleri gözlemlendi � i � ekilde
kataloglama ve indeksleme açısından kısmen de olsa çözümlere
kavu� turulmu� tur. Fakat ihtiyaçlardan biri olan geri-getirim, daha
do� rusu bir ki � inin ihtiyaç duydu� u bilgi ile ili � kili/alakalı olan
belgelerin geri getirimi ara� tırma için açık olan bir konudur. Bilgi geri-
getirim i � i bir sorgu veya konu ba� lı � ı talebine kar � ılık tanımlı bir
yapıya sahip olmayan alakalı kayıtların özellikle metin içerikli
belgelerin geri getirimi ile ilgilenen bir disiplin olarak tanımlanabilir.
Söz konusu talebin nasıl yapılaca� ına dair önceden tanımlı bir yapı
olabilir veya olmayabilir, örne� in do � al dilde yazılmı � olan bir soru
cümlesi de olabilir veya boole8 ifadesi � eklinde yapısal bir biçimde de
sorgu olu� turulabilir. Günümüzde bilgi geri-getirim dizgeleri yalnızca
yazılı metinler için kurgulanmazlar, yapısal tanımlamaya sahip
olmayan di � er verilerde kullanılabilir: Foto � raflar, ses, görüntü vb.
Ancak bu tez kapsamında Bilgi geri-getirim (BGG) yalnızca yapısal
olmayan Türkçe yazılı metinler hedef alınaca� ından tez kapsamını
belirlemek amacı ile verilebilecek en iyi tanım bilgi geri-getirim
disiplini öncülerinin, isim verecek olursak Cleverdon, Salton, Sparck
Jones ve di � erlerinin çizgisini özetleyen Lancaster’ ın (1968) tanımı
olacaktır:
8 TBD, Bili � im Terimleri Sözlü� ü
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
78
“ … Bir bilgi geri-getirim sistemi ki � iyi aramakta oldu� u konu hakkında bilgilendirmez (veya ki � inin aramakta oldu� u konu ile ilgili bildiklerini de� i � tirmez). Ki � iyi sadece aramakta oldu� u konu ile alakalı belgelerin var olup olmadı� ı ve nerelerde bulunabilece� i hakkında bilgilendir.”
(Lancaster, 1968)
BGG tanımının en genel halini ise Kochen (1983) � öyle
yapmı � tır:
“ Bilgi geri-getirim enformasyon bilimin bir alt disiplinidir. Enformasyon bilimi ise geni � tanımı ile enformasyon, bilgi ve anlama ile, yani yazılı metinlerde (belgeler) gömülü ve idrak eden bir zihin tarafından algılanan anlam ile u� ra� ır.”
(Kochen, 1983)
BGG sistemleri için Ingwersen (1992) tarafından verilen,
bilgisayar bilimleri içindeki u� ra� ların hedeflerini belirleyen tanım da
� öyledir:
“ � nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve sunulmasını içine alan bir süreç. Muhtemel enformasyon ancak bir ki � i tarafından anla� ılırsa, yani idrak edilirse o ki � i için enformasyon olur. Muhtemel enformasyon e� er bir ki � i tarafından anla� ılmıyorsa, yani idrak edilemiyorsa o ki � i için veri olarak kalmaya devam eder.”
(Ingwersen, 1992)
Ingwersen’ in BGG sistemleri için verdi � i tanımda “ ... e� er bir
ki � i tarafından anla� ılmıyorsa, o ki � i için veri olarak kalmaya devam
eder.” hükmünden, BGG sistemlerinin veri ile u� ra� an bir sistem
oldu� u sonucuna varılmamalıdır. BGG sistemleri ile veri geri-getirim
(VGG) sistemleri, örne� in ili � kilendirilmi � veri-tabanı uygulamaları
(relational database applications) arasında ciddi farklar vardır. VGG ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
79
BGG sistemlerinin i � levsel özellikleri kar � ıla� tırmalı olarak Çizelge
5.1.’de özetlenmi � tir.
Çizelge 5.1: Veri geri-getirim ile Bilgi geri-getirim sistemlerinin i � levsel özellikleri.
Ver i ger i-getir im Bilgi ger i-getir imE � le� tirme Tam e� le� tirme Kısmi/en iyi e� le� tirmeÇıkarsama Tümden-gelim Tüme-varımModel Belirli OlasılıklıSınıflandırma Tek-hal Çok-halSorgu Dili Yapay Do� al (dil)Sorgu Belir tme Tam EksikAranan Kalemler E � le� tirme AlakalıHataya Tepki Duyarlı Duyarsız
Aslen herhangi bir ki � i, Çizelge 5.1.’de i � levsel özellikleri verilen
iki geri-getirim � ekli arasındaki sınırların pek de net olmadı � ını
dü� ünebilir. Zaten genel anlamda da öyledir; ancak söz konusu iki geri-
getirim � ekline ait uygulamada kar � ıla� ılan güçlüklerin belirlenmesi,
sınırları e� olsa dahi u� ra� sahalarının birbirinden çok farklı oldu� unu
ortaya koyacaktır. Bu yüzden listelenen belirli i � levleri biraz detaya
inerek tanımlayaca� ız.
VGG’de e� le� tirme tamdır, yani aranan bir kalemin belirli bir
sayısal dosyada var olup olmadı � ına bakılır. BGG’de bazı durumlarda
aynı � ey söz konusu olabilir, fakat genelde aranan kalemle kısmi olarak
e� le� enler belirlenir ve ardından bunların arasından en iyileri seçilmeye
çalı � ılır.
Çıkarsama veri geri-getirimde en basit halindedir, yani A ile B
ili � kili ve B ile C de ili � kili ise A ve C ili � kilidir sonucuna varılır.
BGG’de bu � ekilde bir tümdengelim yakla� ımının kullanımı genel
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
80
içinde çok nadir bir durum bile de� ildir; BGG içinde ili � kiler ancak bir
derecede kesinlik veya belirsizlik içerir, dolayısı ile yapılan
çıkarsamaların güvenilirli � i de� i � kendir. Söz konusu durum, VGG’ in
belirli (deterministic), BGG’ in ihtimalli (probabilistic) olmasına sebep
olur. Bu yüzden BGG’de sıklıkla Bayes9 karar kuramına ba� vurulur,
fakat VGG’deki i � lemlerin içinde ihtimal (olasılık) yoktur.
Sınıflandırma da, iki geri-getirim � ekli arasındaki farklılı � ı ortaya
koyan bir ba� ka niteliksel örnektir. VGG’de sınıflandırma tek-hal’dir,
yani bir sınıfa, i � lemdeki bir nesnenin dahil olabilmesi için gerek ve
yeter � art nesnenin süreç içinde tanımlanmı � özellikleridir ve bu
özellikler süreç içinde de� i � mez. Fakat BGG’de, bu tür bir
sınıflandırma genel anlamda pek kullanı � lı de� i ldir. BGG için çok-
hal’ li bir sınıflandırma daha do� rudur. Bir ba� ka söyleyi � le, bir sınıf
içindeki her nesne, söz konusu sınıfın di � er nesnelerinde bulunan
özelliklerin bütünü ile olu� an toplam özelliklerinden bir kısmını ta� ır. Dolayısı ile, bir sınıfa dahil olmak için, nesnelerin hiçbir özelli � i ne
gerekli, ne de yeterlidir.
Sorgu dili VGG’de yapaydır, yani kısıtlanmı � bir söz-dizim kural
kümesine ve kelime da� arcı � ına sahiptir (örne� in SQL, yani yapısal
ili � kili veri tabanı sorgu dili). Ancak BGG’de, belirtilmesi gereken
istisnalar olması bir yana, genelde do� al dil tercih edilmektedir.
VGG’de sorgular genellikle isteneni tam belirtir özelliktedir; BGG’de
ise her zaman eksiktir. Bu bahsetti � imiz eksik olma durumu, BGG
sorgularında belirtilen istek kalemi ile alakalı nesnelerin (örne� in
belgelerin), VGG’de ise tam e� le� enlerin aranmasından
9 Thomas Bayes (1702-1761) Bayes kuramına ismini veren � ngiliz matematikçi. Bayes tarafından ortaya konan olasılı � a dayalı sebeplenme prensibi karar kuramının temelini olu� turmu� tur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
81
kaynaklanmaktadır. Bir ba� ka söyleyi � le, BGG’de arama süreci “ sorgu
ile alakalı olma” ihtimalini ta� ıyan belgelerin bulunması � eklinde
tanımlanabilir. VGG’de yapılan bir aramada, hata olması durumunda
istenenleri getirmez, yani bir “ toplam hata” söz konusudur. Ancak
BGG’de, e� le� tirmede meydana gelen küçük hatalar, sistemin toplam
ba� arımına o kadar önemli etkilerde bulunmaz.
VGG ve BGG arasındaki farklılık, aslında uygulama
sahalarında da net bir � ekilde de gözükmektedir. � ekil 5.1.’de Veri’den
Bilgi Ke� fi/Madencili � i (VBK – Knowledge Discovery from Data,
KDD) ve belge uzayından Belge/Metin Madencili � i (BM –
Document/Text Mining, DM) u� ra� sahaları için, yapısal kurgular alt
süreçleri esasında e� le� tirmeli olarak gösterilmi � tir. Son ürünlerin,
VBK’da bilgi, BM’de enformasyon olmasının sebebi, VBK’da verinin
yapısal, BM’de ise do� al dil olmasıdır. VBK sahasında son süreç olan
de� erlendirme ile ( � ekilde “4” ile gösterilmekte) veri’ den bilgi elde
etmektir. BM sahasında ise, kar � ılık olan yorumlama süreci ile
enformasyon elde edilmektedir.
Bu tezin ara� tırma konusu olan BGG sistemleri, belge
madencili � i u� ra� sahasının ilk, yani giri � seviyesini olu� turan alt
süreçtir. Bu yüzden, BGG sistemlerinin ba� arımı, BM sahasının hedefi
olan “enformasyon’un ortaya çıkartılması” i � inin ba� arımında, en
belirleyici etmendir. Yani, belge uzayından alakalı belgelerin yüksek
bir ba� arı ile elde edilmesi, di � er süreçlerin ba� arımlarını, dolayısı ile
toplam sistem ba� arımını do � rudan etkiler.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
82
Veri
Veri
Veri
Veri
Veri’den Bilgi Ke � fi/Madencili � i (VBK)
De � erlendirme
Veri Madencili � i
Dönü � türüm
Seçim&
Ön-i � lem
Ön-i � lemdengeçmi � veri
Dönü � türülmü � Veri
Desenler
Belge/Metin Madencili � i (BM)
BelgeVeritabanı
AlakalıBelgeler
Dönü � türülmü �Belgeler
EnformasyonMadencili � i
1
2
3
EnformasyonÇıkarımı
BilgiGeri-Getirim
BelgeUzayı
Desenler
Bilgi
Yorumlama
4
Enformasyon
�ekil 5.1: Bilgi Ke� fi/Madencili � i ve Belge/Metin Madencili � i u� ra� larına ait yapısal
kurguların kar � ıla� tırması. “Veri’den Bilgi Ke� fi” ve “Belge Madencili � i” sahalarındaki alt süreçler, yapısal ve içerik benze� imleri nispetinde kar � ılıklı e� le� tirilmi � tir.
5.1. Genel Sistem Yapılanması
BGG sistemlerinin kullanım sahasında, sistem dı � ı etmenlerle
etkile� imleri en genel hali ile � ekil 5.1.1.’de çizge olarak tasvir
edilmi � tir. Herhangi bir BGG sisteminin etkile� imde oldu u dı � etmenlerden iki girdi unsurudur: sorgu ve belge uzayı. Sistem sorgu ile
uzaydaki belgeler arasında bir alaka/ili ki kurarak, en yüksek alaka
de erine sahip olan belgelere ait kılavuzları çıktı olarak verir (alakalı
belge adresleri). Verilen çıktı’ nın, talebi kar � ılama ba� arımı, her zaman
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
83
geçerli olmasa da talepte bulunan kullanıcı nezdinde sorgu inceltme
(query refinement) amacı ile geri-besleme olarak sisteme girdi
yapılabilir.
BGGSistemi
Çıktı
Geri-Besleme
Sorgu
BelgeUzayı
�
ekil 5.1.1: Bilgi geri-getirim sistemlerinin genel kurgusu.
Tüm BGG sistemlerinin hedefinde “ kullanıcının enformasyon
ihtiyacını kar � ılamak amacı ile alakalı belgelerin etkin � ekilde geri-
getirimi” vardır. Sistem içinde söz konusu etkin geri-getirim ise,
birbirinden ba� ımsız üç sürecin ortaklı � ı ile gerçeklenir:
1. Kullanıcı hizmetleri,
2. Belgelerin ve sorguların sayısal temsil � ekli ve
3. Geri-getirim yöntemi.
BGG sistemleri, kullanıcı için iki temel hizmeti sa� larlar.
Bunlardan birincisi, kullanıcının bilgi ihtiyacını kar � ılamak üzere geri-
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
84
getirim hizmeti; ikincisi de geri-getirim sistemi ile elde edilmi � alakalı
belgelerin kullanıcı tarafından incelenmesini sa� layacak ara-yüz, daha
do� rusu sonuçlara göz-atma (browsing) i � lemi için gerekli ortamın
sa� lanmasıdır. Kullanıcı bakı � ı açısından, bir BGG sistemi tarafından
verilen hizmetler ve birbirleri ile ili � kileri çizge olarak � ekil 5.1.2.’de
verilmi � tir.
Geri-Getirim
Göz-atma
BelgeUzayı
Kullanıcı
Sorgu
Çıktı
GeriBesleme
�ekil 5.1.2: Kullanıcı bakı � açısından, BGG sistem hizmetleri.
Bu tez kapsamına, BGG sistemlerinin kullanıcı bakı � açısından
sadece geri-getirim hizmeti girmektedir; göz-atma (Browsing) hizmeti
kapsam dı � ındadır.
5.2. Genel ��� leyi � Kurgusu ( � ç Yapılanma)
BGG sistemlerinde kullanıcının enformasyon ihtiyacını belirten
sorgu ile belge uzayındaki alakalı belgelerin e� le� tirilerek, sistemin
genel çıktısının olu� masını sa layan iç yapılanma örne i ekil 5.2.1.’de
betimlenmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
85
Geri-Getirim Sistemi
Belge Uzayı
Sayısal TemsilYordamı
E � le � tirme
Belge Kelime/Cümle
�ndeks
Terimler
�ndeks
Terimler
SayısalTemsil(Belge)
SayısalTemsil(Sorgu)
Çıktı(Alakalı Belgeler)
Sorgu
Alakalı
�
ekil 5.2.1: Bilgi geri-getirim sistemlerinin iç yapılanma örne� i.
BGG sistemlerinin, genel i � leyi � kurgusu içerisinde, yani iç
yapılanmasında iki temel süreç bulunmaktadır: sayısal temsil yordamı
ve e� le� tirme yöntemi. Sayısal temsil yordamı, sistem girdisi olan
metinlerin ve sorgunun, hesaplanabilir yapılara dönü� türülmesinden
sorumlu olan yordamdır. Aslen e� le� tirme sürecinde kullanılan, metin
ve sorgunun hesaplanabilir yapıları, kullanılan geri-getirim yönteminin
nitelikleri do � rultusunda bir takım i � lemlerle elde edilmektedir (örne� in
vektör uzayı modeli geri-getirim yöntemi ise, metinler ve sorgu
vektörler halinde temsil edilir). Ancak, buradaki anlamı ile, metinlerin
ve sorgunun, bir dizi ön süreçten geçirilerek, tüm geri-getirim
yöntemlerinin matematiksel alt yapılarında ortak hesaplama birimi
olarak kullanılan haline, yani ortak bir sayısal temsile dönü� türmektir
(indeks terimler). E� le� tirme, yani sorgu ile ifade edilen ve aranan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
86
enformasyonun, belgeler içinde bulunması ise, geri-getirim yönteminin
esas aldı � ı matematiksel alt yapı ile belirlidir. Örne� in, vektör uzayını
esas alan bir geri-getirim yönteminde, belgelerin ve sorgunun sayısal
temsilleri üzerinden vektörleri olu� turulur ve iki vektör arasındaki
açısal uzaklık “ alaka” için bir ölçüt olarak kullanılır. Açısal uzaklı � ı en
az olan belge, sorgu ile en alakalı olarak kabul edilir.
5.3. Sayısal Belge Temsili
BGG sistemlerinde yaygın � ekilde kullanılan sayısal temsil
yordamı ve onu olu� turan alt süreçler � ekil 5.3.1.’de çizge olarak
gösterilmi � tir. Sayısal temsil yordamını olu� turan alt süreçler, “ do� al
dilde yazılı bir belgeden” ba� layan ve nihayetinde “ indeks terimler
� eklinde temsil” ile son bulan bir dönü� türme zincirinde art arda
uygulanırlar.
Bir belgenin en asgari düzeyde temsili, tam metin � eklinde
olabilmektedir; yani belgeden noktalama i � aretleri, bo� luklar vb.
anlamsal-enformasyon açısından önemsiz simgeler arındırıldıktan sonra
geriye kalan kelimeler, isimler, yerler, sayılar v.b. simgelerin listesidir
( � ekil 5.3.1.’de 0 –sıfır- numara ile etiketlenmi � tir). Bu i � lem metin
normalle � tirme (text normalization) yada simgele � tirme (tokenization)
olarak adlandırılır. Tam metin sayısal belge temsili, yordamın çıktısı
olarak elde edilebilecek temsillerin en ilkel � eklidir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
87
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
Noktalama,bo �luk vb.
YapısalAlgılama
Durma-kelimeleri
KelimeGurupları Gövdeleme
Elle/Otomatik
�
ndeksleme
Metin
Metin+Yapı
Belge
Belge Temsilinin Çe �itli Halleri
Tam Metin
�
ndeksTerimler
0
1 2 3 4
�
ekil 5.3.1: Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal belge temsil yordamı.
�
ekilde kesikli oklar seçimlik; kesiksiz oklarsa zaruri alt süreç i �lemlerine, yordam akı �ını yönlendirmektedir. Seçimlik i �lemler 1, 2, 3 ve 4. i �lemlerdir. “0.” i �lem, yani Noktalama, bo �luk vb. ile etiketli olan genel geçerdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
88
Aslen, simgele � tirme veya metin normalle � tirme belge ve sorgu
temsili olu� turma süreçlerinde kullanılacak simgelerin, yani silsiledeki
di � er süreçler için temel hesaplama birliklerinin tespit edildi � i adımdır.
Di � er adımların tamamında bu adımda olu� turulan simgeler bir
hesaplama birimi olarak ele alınır. En basit hali ile simgele� tirme
kelimelerin ve kelime aralarında kullanılan di � er yazım sembollerinin
belirlenmesi olarak tanımlanabilir. � ekil 5.3.2.-(a)’da örnek bir yazılı
yalın Türkçe metin ve (b)’de de bu metnin normalle� tiri lmi � hali
gösterilmi � tir. Örnek metnin içinde aynı zamanda biçimlendirme de
iptal edilmi � tir (Büyük/küçük harf, kalın, yatık vb. yazım biçimleri).
(a)
(b)
(c)
(d)
�ekil 5.3.2: Sayısal belge temsili olu � turulması adımlarına örnekler. (a) metnin aslı;
(b) metnin simgele� tirilmi � /normalle� tirilmi � hali; (c) durma kelimelerinden arındırılmı � hali; (d) metnin biçimbirim (morphologic) normal veya gövdelenmi � halidir.
Durma kelimeleri (stop words) metin içeri � inde ta� ınan
enformasyon ile çok alakalı olmayan kelimelerdir. Bu kelimeler,
dervi � 'e ekonomi bakanlı ı yetmez sakın yanlı � anlamayın ba� lıktaki tespit bize ait de il devlet bakanı kemal dervi � 'in çok eski ve yakın dostu bülent eczacıba� ı böyle dü� ünüyor
Dervi � 'e Ekonomi Bakanlı ı yetmez! Sakın yanlı � anlamayın ba� lıktaki tespit bize ait de il. Devlet Bakanı Kemal Dervi � 'in çok eski ve yakın dostu Bülent Eczacıba� ı böyle dü� ünüyor:
dervi � 'e ekonomi bakanlı ı yetmez sakın yanlı � anlamayın ba� lıktaki tespit devlet bakanı kemal dervi � 'in eski dostu bülent eczacıba� ı dü� ünüyor
dervi � ekonomi bakan yetmez sakın yanlı � anla ba� lık tespit devlet bakan kemal dervi � eski dost bülent eczacıba� ı dü�
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
89
metinin içinden ayıklanırlar. Ta� ınan enformasyon ile alakalı olmama,
yani kelimelerin metin içinde ya gramer yada i � levsel olarak (örne� in
zamirler) kullanılması anlamına gelir. Do � al dilde bu kelimelerin sayısı
200-300 kelimeyi a� maz, ancak toplam kelime sıklı � ının yarısından
fazlasını olu� turabilir. Bu tip, gramer veya dilbilgisi yazım kuralları
gibi i � levleri olan kelimelerin metinden ayıklanması geleneksel
yöntemler içinde yaygın � ekilde görülen bir durumdur. � ekil 5.3.2.-
(c)’de normalle� tirilmi � metinden, bu kelimelerin ayıklanması ile elde
edilen örnek metin gösterilmektedir.
Biçimbirimsel normalle� tirme, yani gövdeleme, yapılan sorguyu
olu� turan kelimelerin farklı biçimlerini de içeren belgelerin, geri-
getiriminin sa� lanması için kullanılır. Ancak sondan eklemeli, çekimli
diller, örne� in Türkçe için bu amacın yanında ba� ka bir amaca daha
hizmet eder: indeks terim listesinin yönetilebilir boyutlarda tutulması.
� ekil 5.3.2.-(d)’de örnek metnin, gövdelenmi � hali gösterilmi � tir.
Analitik diller, yani bir kelimenin biçimbirimsel � ekilleri kısıtlı
olan dillerde, BGG sistemleri için biçimbirimsel normalle� tirme
nispeten basit yöntemlerle yapılabilmektedir. Örnek olarak, “Porter’s
Stemmer” otomatik gövdeleme yordamı, � ngilizce’deki tüm kelimelerin
yazımda kullanılan farklı biçimsel hallerini, sadece 120 kurala dayalı
olarak, gövdelerine indirgeyebilmektedir (Porter, 1980). Bu tür
yordamlarda, aslen dilbilimsel olarak gerçek köklere inildi � i
söylenemez. Dilbilimsel olarak gerçek kökün bulunması için kullanılan
yöntemse, sözlükten bakmadır. Daha do� rusu, tüm kelime köklerinin
bir liste halinde tutulması ve bu köklerden gövde türetme kuralları ile
kar � ıla� ılan kelimenin türetilerek bulunmasıdır. Ancak bu tür
yordamlarında gerçek kökün ne oldu� una dair belirsizli � e dü� tü� ü
durumlara sıkça rastlanmaktadır. Örne� in, � ngilizce “ saw” kelimesi,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
90
“see” , yani görmek fiilinin düzensiz ikinci hali midir? Yoksa “saw” ,
yani testere anlamında kullanılan bir isim midir? Böyle bir yordamla
ayırt edilemez. Belirsizli � in giderilebilmesi için, kelimenin kullanıldı � ı
yerdeki sözcük türünün (part-of-speech) iki ihtimalinden, yani isim ve
fii l halinden, hangisinin oldu� unun belirlemesi gerekir. Sözcük
türlerinin bulunması meselesi ise bu i � için geli � tirilmi � bir ba� ka
yöntemle bulunabilmektedir (Brill, 1995; Church, 1988; DeRose,
1988). Gövdeleme ile belgelerin ortak bir dilbilimsel biçime
indirgenmesi gibi dilbilim sahasının u� ra� alanında olan bir yöntem
yerine, kullanıcının sorgusundaki kelimelerin olası tüm biçimlere
ço� altılması da, � ngilizce gibi analitik diller için kullanılan bir di � er
alternatiftir (Hiemstra and de Jong, 2001).
Analitik diller için yukarıda anlatılan yöntemler etkin bir � ekilde
kullanılabilmektedir, ancak Türkçe gibi, sadece bir fii lden
olu� turulabilecek, yazım � ekli de� i � ik biçimlerin sayısı, milyon
seviyelerine çıkabilen diller için söz konusu yöntemler etkinli � ini
yitirmektedir (Jurafsky and Martin, 2000). Örnek olarak Çizelge
5.3.1.’de 1 milyon ve 10 milyon kelimelik iki derlemin sözcük
da� arcıklarının sayıları verilmi � tir (Hakkani-Tür, Oflazer and Tür,
2002).
Çizelge 5.3.1: Bir milyon ve on milyon kelimelik Türkçe derlemlerin kelime da� arcıkları (Hakkani-Tür et. al., 2002).
Derlem boyutu Kelime da� arcı� ı
1M kelime 106,547
10M kelime 417,775
Kelime da� arcı � ındaki bu biçimsel de� i � ikli � in zenginli � inden
kaynaklı büyüklük, sondan eklemeli, ekli diller için farklı yöntemlerin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
91
geli � tirilmesi zorunlulu� unu do� urmu� tur. En uzun e� le� me, Kut ve
arkada� ları (1995) tarafından Türkçe için gerçekle� tirilen ilk gövdeleme
yöntemidir. Yöntemde, bir sözlük içine dahil edilmi � kelimeler ve olası
türetilmi � gövdeleri bulunmaktadır. � ndeks terimleri olu� turulacak
belgedeki kelimeler, bu sözlükten aranmakta ve en uzun e� le� en kelime
gövdesi seçilmektedir. Türkçe için geli � tirilmi � bir di � er yordamda
Solak ve arkada� ları (1994) tarafından gövdeleme i � leminin geri-
getirim ba� arımı üzerindeki etkilerinin ara� tırılması esnasında ortaya
konmu� tur. A-F yordamı olarak adlandırdıkları bu çalı � mada, bir
sözlükte güncel Türkçe kelimelerin gövdelerini ve her gövdenin yapım
ve çekim eklerini alı � esaslarını belirten 64 özellik tutulmu � tur.
Belgelerde rastlanan kelimelerin, bu verilerin ı � ı � ı altında
de� erlendirilerek, olası tüm gövdeleri üretilmektedir. Sever ve
arkada� larının ortaya koydu� u gövde-bul (FINDSTEM) gövdeleme
yordamı, BGG sistemlerinin etkinli � ini esas alan ve sözünü etti � imiz
iki yöntemle de deneysel olarak kar � ıla� tırılan bir çalı � madır (Sever ve
Bitirim, 2003). Söz konusu gövdeleme yordamı, yazım � ekilleri farklı
olan kelime biçimlerini, dilbilimsel gövdelerine indirgemektedir.
Yöntemde, kelime gövdeleri ile kelime kökleri birbirlerinde özellikle
ayrı tutulmaktadır ve kelimelerin kökleri de� il gövdeleri tespit
edilmektedir. Çalı � mada, di � er kar � ıla� tırılan iki yöntemin hataları
içinde gövde yerine, kelimenin kökünü seçmeleri gösterilmi � tir. Sever
ve Bitirim’ in çalı � masında, örne� in “gözlü� üm” ve “gözlüklüyü”
kelimeleri “ göz” köküne de� il “ gözlük” gövdesine indirgenmektedir.
Di � er yöntemlerden, gövde olarak “göz” seçiminin ortaya çıktı � ı
durumlar oldu� u tespit edilmi � tir. Kelimenin gerçek gövdesinin
bulunması, dilbilimsel açıdan, yani anlamsal olarak Türkçe için önemli
bir husustur, çünkü kelime gövdeleri, kök kelimeye yapım eki
getirilmesi ile meydana getirilir ve ço� unlukla kökten farklı anlamlar
ta� ırlar. Türkçe için, kelime gövdesine indirgemeyi esas almayan, daha
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
92
do� rusu gövdeleme gibi bir meselenin, kullanılan geri-getirim kurgusu
içinde var olmadı � ı bir di � er yöntem de, Ekmekçio� lu’ nun (1996) n-
gram modeli ile yaptı � ı çalı � mada ortaya çıkmaktadır. Bu çalı � mada,
geri-getirim kelimeler veya gövdeler esasında uygulanmamaktadır.
Tüm belgelerdeki metinler ve sorguyu olu� turan kelimeler, harf
esasında n-gram birlikleri esas alınarak e� le� tirme yapılmaktadır.
Dolayısı ile, bu bakı � açısı içerisinde ne kelime, ne de gövdesi mesele
olarak ortaya çıkmaktadır. Ancak Türkçe’nin yine dilbilimsel
özellikleri sebebiyle, sayısal belge temsilinin n-gram örne� inde seyrek
veri (sparse data) sorunu, analitik dillere kıyasla daha ciddi boyutlarda
mesele yaratmaktadır.
Gerçek bir dilbilimsel gövdeleme yapılabilmesi için, tam bir
biçimbirimsel ve söz-dizimsel analizin yapılmasına gerek vardır.
Türkçe için geli � tirilmi � ve halen kullanılan tek biçimbirimsel analiz
yordamı, Oflazer (1993) tarafından gerçekle� tirmi � olandır. Söz konusu
yordam, tam bir dilbilimsel biçimbirim analizi yapmaktadır ve Türkçe
kelimelerin olası tüm kök ve gövdelerini bulabilmektedir. Oflazer, bu
biçimbirimsel analiz yöntemi için yordam geli � tirirken, Türkçe’nin
biçimbirim kural kümelerini, Koskenniemi (1983) tarafından ortaya
konulan iki-seviyeli dil tanımlamasını esas alarak yapmı � tır. Fakat, iki-
seviyeli dil modellemesi, teorik olarak girdinin büyüklü� ü ile do� rusal
bir hesap zamanına sahip de� ildir, daha do� rusu hesaplanabilme
açısından NP-Complete bir mesele oldu� u Barton (1986) tarafından
ispatlanmı � tır. Bu yüzden geri-getirim uygulamalarında kullanımı,
Sever’ in de (2003) çalı � masında belirtti � i gibi, uygun de� ildir.
Kelime guruplarının tespiti, BGG sistemlerinde sayısal belge
temsilinde kullanılan yöntemlerden bir di � eridir. Yazılı metinlerde
kelime guruplarının tespiti üç yolla yapılmaktadır: 1-) Elle önceden
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
93
sisteme tanıtılması (Robertson and Walker, 2000). 2-) � statistiksel
olarak kelimelerin birlikte gözlenme sıklı � ına göre olu� turulması (Mitra
et al., 1997) ve 3-) Söz-dizimsel cümle çözümlemesi ile belirleme
(Strzalkowski, 1995). � statistiksel yöntemler, durma kelimeleri
haricinde yan yana belirlenmi � bir e� ik de� erden daha fazla belgede
gözlemlenen birliklerin kelime gurubu olarak alınması gibi basit bir
mantı � a dayanmaktadır. Söz-dizimsel cümle çözümlemesinde ise,
� ngilizce için “ Information Retrieval” (Bilgi geri-getirim) ile “Retrieval
of Information” (Bilginin geri-getirimi) gibi aslen anlamları aynı fakat
dizilimleri farklı tümceler tespit edilerek tek bir sıralamaya konurlar.
Türkçe cümlelerin sözdizimsel çözümlemesi için de pek çok çalı � ma,
hesaplamalı dilbilim uygulamalarında kullanılmak üzere
gerçekle� tirilmi � tir (Demir, 1993; Güngördü, 1993; Oflazer and
Kuruöz, 1994; Hakkani, 1996; Korkmaz, 1996; Birtürk 1998).
E� anlamlı kelimelerin bulunması da, sayısal belge temsili
olu� turulmasında ba� vurulan bir yöntemdir. Ancak, özellikle sorguların
i � lenmesinde daha yaygın kullanılmaktadır. Kullanıcının bilgi ihtiyacını
kar � ılamak üzere, do� al dilde biçimlendirdi � i sorguyu olu� turan
kelimelerin, e� anlamlıları da geri-getirim sürecine dahil edilerek,
alakalı belgeler kümesinin geni � letilmesine (anma iyile� tirme) yönelik
bir yöntemdir. Belge temsili içinde kullanımı ise gövdeleme benzeri bir
i � levselli � e sahiptir. Farklı � ekillere sahip, fakat aynı anlama gelen
kelime biçimleri, bu sayede tek bir indeks terimle temsil edilirler. Bu
yönde Türkçe için, Orgun (1985) ve Sezer (1999) tarafından yapılan
çalı � malar örnek verilebilir.
Hesaplamalı dilbilim sahasına ait u� ra� lar olan gövdeleme, kelime
guruplarını belirlenmesi ve sözcük türlerinin tespiti, aslen BGG
sistemlerinde kullanımı, geri-getirim ba� arımına olan katkı açısından
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
94
tartı � malı bir durum yaratmaktadır. Yukarıda tanımlanan sayısal belge
temsil yordamı, geleneksel BGG sistemlerinin yaygın olarak
benimsedikleri alt süreçleri içermektedir. Görüldü� ü gibi, sözcük türü
tespiti bu yordamın alt süreçleri içinde en azından seçimlik olarak dahi
gözükmemektedir.
Gövdeleme yapmanın, analitik diller için, BGG sistemlerinin
geri-getirim ba� arımı üzerinde etkisinin olmadı � ına dair genel bir görü�
hakimdir. Bu yönde menfi sonuçlu ara� tırmalar (Harman, 1991; Kraaij
and Pohlmann, 1996) oldu� u gibi, müspet sonuçların alındı � ı
çalı � malar da mevcuttur: � ngilizce için Krovetz (1993), Hull (1996);
� talyanca için Sheridan ve Balerini (1996); Slovence için Popovic ve
Willet (1992). Ancak, çalı � maların geneli üzerinden olu� an kanı,
gövdeleme yapmanın anlamlı olmadı � ı yönündedir. Analitik dillerde
olu� an bu kanının aksine, Türkçe için yapılan çalı � maların tümünde,
geri-getirim ba� arımının arttı � ı tutarlı bir � ekilde belirtilmi � tir (Solak,
1994; Ekmekçio� lu, 1996; Sever, 2003).
Kelime guruplarının tespiti de, analitik dillerde yapılan
çalı � maların sonucunda, gövdeleme ile aynı akıbeti payla� mı � tır. Croft
ve arkada� ları (1991), Lewis (1992), Kupiec (1993), Jacqemin ve
Royaute (1994), Riloff (1995) ve Lewis ve arkada� ları (1996)
hesaplamalı dilbilim ve istatistiksel yöntemler kullanımı ile geri-getirim
ba� arımının arttı � ını belirtirken, Mitra (1997) � ngilizce için, Kraaij and
Pohlmann (1996) Almanca için kelime guruplarının belirlenerek ve
belirlenmeden yapılmı � olan geri-getirim uygulamalarının ba� arımları
arasında kayda de� er bir fark olmadı � ını belirtmi � lerdir. Ancak,
bilgimiz dahilinde kelime guruplarını belirlemenin Türkçe yazılı
metinlerde bilgi geri-getirim ba� arımına etkisinin olup olmadı � ına dair
bir ara� tırma yapılmamı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
95
Tez hedefimiz içinde bulunan di � er dilbilgisi özelli � inin, yani
cümle unsurlarının sayısal belge temsilinde kullanılması ve Türkçe için
bir BGG sisteminin geri-getirim ba� arımı üzerindeki etkileri de, yine
bilgimiz dahilinde � imdiye kadar yapılmamı � bir çalı � madır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
96
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
97
6. GER � -GET � R � M MODELLER �
Bilgi geri-getirim sistemleri, kullanıcı tarafından kendi
enformasyon ihtiyacını kar � ılamak üzere, sisteme yönlendirdi � i sorgu
ile belgeler arasında anlamsal açıdan bir alaka kurmaya çalı � ırlar. Bu
anlamsal alakayı kurma i � i, BGG sistemlerinin en önemli görevidir.
BGG sistemlerinde, belgelerin anlamsal olarak modellenmesi, bir birini
tamamlayan iki süreç ile gerçeklenir. Söz konusu süreçler, birbirinden
ba� ımsızdır. Ancak birinin çıktısı, di � erinin girdisi olma esasında
belgelerin sayısal temsilini birlikte tamamlarlar. Önce, sayısal temsil
yordamı ile belge toplulu� u için indeks terimler olu� turulur, sonrasında,
belirlenen indeks terimler için, kullanılan “geri-getirim modelinin”
gerektirdi � i � ekilde indeks terimlerin her birine, her belge için bir
a� ırlık hesaplanır. Her indeks terime, her belge için atanan bu
a� ırlıklar, söz konusu indeks terimin belgede ta� ınan “ içeri � e”
yaptıkları katkının öneminin bir ölçüsüdür ve ne � ekilde hesaplanaca� ı
geri-getirim modeli tarafından belirlenir. Böylece, bir BGG sistem
uygulaması için gerekli olan sayısal belge temsili de tamamlanmı � olur.
Geri-getirim modelleri, bir de BGG sistemlerinin iç yapılanmasında
bulunan “e� le� tirme” yöntemi için bir yordam tarif ederler. Bu
“e� le� tirme” yordamı, indeks terimlere atanan a� ırlıkların hesaplama
yordamı ile aynı ölçekte ve kurgusal olarak geri-getirim modelinin esas
aldı � ı kuramsal alt yapının do � al bir parçası olmak zorundadır.
Dolayısı ile, bir geri-getirim modeli, BGG sisteminin iki i � levsel
yapısının olu� turulması için, yani belgelerin anlamsal olarak
modellenmesi ve “e� le� tirme” için, bir kuramsal alt yapı tarifidir.
Geri-getirim modelleri, esas aldıkları kuramlar açısından
birbirlerinden ayrılırlar. Dolayısı ile, belgelerin anlamsal olarak
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
98
modellenmesi ve e� le� tirme için farklı yöntemler kullanırlar. Yaygın
olarak, BGG sistemlerinde kullanılan geri-getirim modellerinin
sınıflandırması � ekil 6.1.’de çizge � eklinde verilmi � tir. � ekilde
sınıflandırma BGG sistemlerinin “genel yapılanması” esas alınarak
verilmi � tir. Dolayısı ile, verdikleri kullanıcı hizmetleri, kök olmak
üzere, alt dallanmalar biçiminde guruplara ayrılmı � , dallanmanın a� a� ı
kısımlarında ise, esas aldıkları matematiksel kuramlara göre
sınıflandırılmı � lardır.
Kullanıcı Hizmeti
Geri-GetirimAdhocFitering
Klasik Modeller
- � kil Sayılar-Vektör-Olasılık
Yapısal Modeller
Non-Overlapping ListsProximal Nodes
Küme Kuramsal
FuzzyExtended Boolean
Cebirsel
Generalized VectorLatent Semantic IndexNeural Networks
Olasılık Kuramsal
Inference NetworkBelief Network
Göz-atmaFlatStructure GuidedHypertext
�ekil 6.1: Bilgi geri-getirim modellerinin sınıflandırılması. (Baeza-Yates and Ribeiro-
Neto, 1999, uyarlama).
� ekilde, öncelikle bir BGG sistemi, genel yapılanması esasında,
yani kullanıcıya verdikleri hizmetler açısından iki alt kola ayrılmı � tır:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
99
göz-atma (browsing) ve geri-getirim. Tez kapsamımızda, kullanıcı
hizmeti olarak geri-getir im ele almaktadır. Dolayısı ile, bu bölümde
sadece bu alt dalın detayları incelenmektedir.
Bir BGG sistemi, kullanıcıya sa� layaca� ı geri-getirim hizmetini
Adhoc (anlık “sorgu” ) ve Filtering (süzme, yani sabit “sorgu” ) olmak
üzere iki � ekilde gerçekle� tirebilir. Adhoc � eklinde BGG sisteminin
hedefindeki belge toplulu� u sabit, kullanıcının sisteme yöneltti � i
sorgu(lar) de� i � ken’ dir; Filtering � eklinde BGG sisteminin hedefindeki
belge toplulu� u de� i � ken (toplulu� a yeni belgeler eklenir ve bazı
belgeler çıkar), kullanıcının sisteme yöneltti � i sorgu(lar) nispeten
sabit’ dir. Tez kapsamımız içerisinde ele aldı � ımız BGG sistemleri,
kullanıcıya Adhoc � eklinde hizmet verenlerdir.
Geri-getirim hizmet � ekillerinin her ikisinde de, aynı modeller
kullanılabilir. Söz konusu modellerse, belge temsil esasında klasik
modeller ve yapısal modeller ba� lıkları altında iki guruba ayrılır. Klasik
modellerde, belge içeri � inden sadece “ indeks terimler” ile sayısal
temsil olu� turulur; yapısal modellerde ise, sayısal temsilde belge
içeri � i, “ indeks terimler” ve belgenin yapısal özellikleri ile olu� turulur.
Klasik modeller, kuramsal temelde kendi içinde de üç gruba
ayrılır: ikil sayılar (boolean), vektör uzayı (vector space) ve olasılık
(probability). � kil sayılar esasında, yani küme kuramsal ba� lı � ı altında
toplanan modellerde, belgeler ve sorgular “ indeks terim kümeleri”
� eklinde betimlenirler. Vektör uzayı esasında, yani cebirsel ba� lı � ı
altında toplanan modellerde, belgeler ve sorgular “ t-boyutlu uzayda
vektör” � eklinde betimlenirler. Olasılık esasında, yani olasılık kuramsal
ba� lı � ı altında toplanan modellerde, belgeler ve sorgular “olasılık
kuramı” gereklerine göre betimlenirler.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
100
Yapısal modeller de, kendi içinde belge yapısını temsil
noktasında ikiye ayrılırlar: Non-overlapping Lists (örtü� meyen
bölümler listesi) ve Proximal Nodes (yakınsaklık dü� ümleri, yani
bölümlerin birbirleri arasındaki mesafeler). Tez kapsamımız içerisinde
ele aldı � ımız BGG sistemleri, klasik modeller gurubunda yer alan geri-
getirim modellerini esas almaktadır. Dolayısı ile, yapısal modeller ve
gerektirdi � i sayısal belge temsil � ekli tez kapsamının dı � ındadır ve bu
bölümde tanıtımları yapılmayacaktır.
Çizelge 6.1’de geri-getirim hizmeti ve sayısal belge temsil � ekli
eksenlerinde, BGG sistemlerinde hangi yöntemlerin kullanılabilir
oldu� u listelenmi � tir.
Çizelge 6.1: Bilgi geri-getirim modellerinin geri-getirim hizmeti ve sayısal belge temsil � ekli eksenlerinde sınıflandırılması.
Tam Metin � ndeks Ter imler Tam Metin+Yapı
Küme Kuramsal Küme Kuramsal
Cebirsel CebirselOlasılık Kuramsal Olasılık Kuramsal
Sayısal Belge Temsil � ekli
Ger i-getir im Yapısal
Tez kapsamımız içerisinde yaptı � ımız çalı � malar genel anlamda,
vektör uzayı modelini esas almaktadır. BGG sistemlerinin ba� arım
ölçümünü yaptı � ımız üstel-puanlama ölçütü de vektör uzayına kar � ı bir
seçenek olan gizli anlam indeksleme modelini (latent semantic
indexing) kurgusal olarak esas almaktadır. Dolayısı ile, bu bölümde söz
konusu iki model, yani vektör uzayı ve gizli anlam indeksleme
modelleri tanıtılacaktır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
101
Söz konusu iki geri-getirim modelini tanıtmadan önce, her klasik
geri-getirim modeli için kullanılan, ortak simge sisteminin
tanıtılmasında fayda vardır.
Her hangi bir geri-getirim modeli olu� turan unsurlar, dört i � levsel
guruba ayrılabilir ve [B, Q, M, R(qi, bj)] gibi bir dörtlü simge sistemi ile
tanımlanabilir. Bu dörtlüyü olu� turan her simge ise model içinde � u
i � levlere kar � ılık gelirler:
1. B simgesi, belge uzayındaki belgelerin sayısal/mantıksal temsillerinin toplulu� undan olu� mu� kümeyi temsil eder.
2. Q simgesi, kullanıcılar tarafından enformasyon ihtiyaçlarını kar � ılamak amacı ile sisteme yönlendirilmi � “sorgu” ların sayısal/mantıksal temsillerinin toplulu� undan olu� mu� kümeyi temsil eder.
3. M simgesi, belgelerin, sorguların sayısal temsillerinin olu� turulması ve aralarındaki alakanın (e� le� tirme) ölçümü için kuramsal alt yapıyı, yani modeli temsil eder.
4. R(qi,bj) simgesi, her Qqi ∈ sorgusu ve Bb j ∈ belgesi için bir
gerçek sayı ile ili � ki de� eri belirleyen “ sıralama i � levi” ’ni temsil eder. Bu � ekildeki bir sıralama i � levi, her qi sorgusu için, belgeler üzerinde “alaka” ile do� ru orantılı bir sıralama tanımlar. Bir ba� ka söyleyi � le, örne� in belirli bir qi sorgusu ile en “alakalı” olan, yani il i � ki de� eri en büyük olan belge, birinci sırada, de� er olarak bir küçük olan belge ikinci sırada v.b. olacak � ekilde bir belge sırası tanımlar.
Her geri-getirim yöntemi, esas aldı � ı kuramsal alt yapı (M)
üzerinden, söz konusu dörtlüyü olu� turan simgelerin kar � ılık geldi � i
i � levsellik için, di � er i � levsel unsurların (B, Q, R(qi,bj)) nasıl
gerçekle� tirilece� ine dair yöntemleri veya yordamları tanımlar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
102
Tez kapsamımız dahilinde bu bölümde tanıtımını yapaca� ımız
geri-getirim modelleri, klasik modeller oldu� undan, bu yöntemlerin
ortak paydasında bulunan, genel kavramların ve kabullenmelerin de
anlatım içerisinde kullanılan � ekli ile, liste halinde verilmesinde fayda
vardır:
1. Modeller içerisinde, her belgenin sayısal/mantıksal temsili “ indeks terimlerin” toplulu� u olarak ele alınmaktadır. Ayrıca, bir belgenin sayısal temsilinde kullanılan indeks terimlerin de, birbirlerinden, olasılık/istatistik ba� lamında matematiksel esasta (yani da� ılımsal olarak), ba� ımsız oldu� u kabul edilmektedir.
2. E� er, bir belge toplulu� unda t adet farklı indeks terim oldu� u ve ki simgesinin bu indeks terimlerden belirli birini temsili etti � i kabul edilirse; K = {k1, k2, ..., kt} tüm indeks terimlerin kümesi olacaktır.
3. Belge toplulu� undaki her belge, Bb j ∈ ile, her indeks terim,
Kki ∈ terim arasında, yani her (ki, bj) ikilisi için a� ırlık olarak
adlandırılan, atanmı � bir gerçek de� er vardır. Bu a� ırlık wi,j simgesi ile temsil edilir ve her zaman sıfıra e� it veya büyük bir gerçek sayı de� erine sahiptir ( 0, ≥∀ jiw ).
4. Belge toplulu� undaki her belge, Bb j ∈ , model içinde kar � ılık gelen
bir indeks terim vektörü ile temsil edilir, ),,,( ,,2,1 jtjji kkkb �=
vardır.
5. Belge toplulu� undaki her belgenin model içindeki temsili olan
vektörler, jb üzerinde i � lem yapan ve Kki ∈ indeks terimi için
a� ırlık de� erini veren bir jiji wbg ,)( = i � levi tanımlıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
103
6.1. Vektör Uzayı Modeli
Vektör uzayı modeli, BGG sahasında en yaygın � ekilde
kullanılan geri-getirim modelidir. Bunun sebebi, modelin basitli � i ve
içerdi � i süreçlerin takip edilebilir olmasıdır. Sorgu ile belge arasında
kurulaması gereken anlamsal “alaka” yakınlı � ını, vektörlerin çok
boyutlu uzaydaki yakınlı � ı ile temsili olarak tanımlar.
Vektör uzayı modelinde sorgular da indeks terim vektörleri ile temsil edilirler. Yani, her sorgu, Qqi ∈ için, belgelerde oldu� u gibi
kar � ılık gelen bir indeks terim vektörü, ),,,( ,,2,1 itiii kkkq �= vardır.
Modelde, belgeler ile sorgular arasında anlamsal olarak belirlenmesi,
nicel olarak ölçülmesi gereken “alaka”, temsili olarak
),,,( ,,2,1 itiii kkkq �= indeks terim vektörü ile, ),,,( ,,2,1 jtjji kkkb �=
indeks terim vektörü arasındaki açısal mesafe ile hesaplanır. Dolayısı
ile anlamsal ba� lamda oldukça karma� ık ili � kilerin de� erlendirilmesi
ile karar verilebilecek “alaka” , t boyutlu bir uzayda, iki vektör
arasındaki açısal mesafenin ölçülmesi gibi, matematiksel olarak
modellenmi � , çok basit bir meseleye indirgenmi � olur. Bu model ile
belgelerin “alaka” de� eri en yüksek olanı olarak, sorgu vektörü ile en
küçük açısal mesafeye sahip olan belge vektörü kabul edilmektedir.
Model gere� i, en alakasız belge, daha do� rusu mutlak alakasız belge,
sorgu vektörü ile dik açı (radyan ölçe� inde 90o) yapan vektör ile temsil
edilendir.
Vektör uzayı modelinde, vektörler ile temsil edilen sorgu ve
belgeler arasındaki açısal mesafe benzerlik ölçütü olarak kullanılır ve
kosinüs farkı (cosine difference) veya normalle� tirilmi � kar � ılıklı-il i � ki
katsayısı (normalized correlation coefficient) ile ölçülür. Dolayısı ile,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
104
vektör uzayı modelinde, bir sorgu ile belirli bir belge arasındaki
benzerlik Denklem 6.1.1.’de verildi � i gibi hesaplanır.
�⋅
��
⋅=
⋅
•=
==
=
tk jk
tk ik
tk jkik
ji
jiji
ww
ww
bq
bqbqbenzerlik
12,1
2,
1 ,,),( (6.1.1)
Denklem 6.1.1.’de verilen ifadenin, indeks terimler uzayında
temsili betimlemesi � ekil 6.1.1.’de verilmi � tir.
b j
q i
k1
k2 �ekil 6.1.1: Bir bj belge vektörü ile, qi sorgu vektörünün, iki boyutlu indeks terim
uzayında çizgesel betimlemesi.
� ekilde, belge vektörü ve sorgu vektörü, iki boyutlu terim
uzayında aralarında, θ açısı olacak � ekilde gösterilmi � tir. Denklem
6.1.1. ile verilen benzerlik ölçüsü, bu gösterim üzerinden � öyle elde edilmektedir. Vektör uzayında iki vektörün, örne� in iq ve
jb vektörlerinin nokta çarpımı (dot product) Denklem 6.1.2.’de verilen
ifade üzerinden hesaplanır.
jtitjijiji kkkkkkbq ,,,2,2,1,1 ⋅++⋅+⋅=• � (6.1.2)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
105
Denklem 6.1.2.’de verilen nokta çarpımının bir takım cebirsel ve
yüzey-ölçüt (geometri) özellikleri vardır. Sorgu ile belge vektörü
arasındaki benzerli � in ölçülmesini sa� layan Denklem 6.1.1.’deki
ifadenin elde edili � i için bu özelliklerden incelenecek olan Denklem
6.1.3.’de verilmi � tir.
θcos⋅⋅=• jiji bqbq (6.1.3)
Denklem 6.1.3.’de verilen geometrik özelik, iki vektörün nokta
çarpımının üçgen-ölçüt (trigonometri) ifadesidir: iq ve jb terimleri,
vektörlerin, örne� in sorgu vektörü olan iq için,
2,
2,2
2,1 itiii kkkq +++= � ifadesi ile hesaplanan uzunluklarıdır.
θcos ifadesi, radyan ölçe� inde θ açısının, kosinüs i � levinden elde
edilen de� eridir.
Denklem 6.1.2.’de ve Denklem 6.1.3.’de verilen, nokta çarpım
ifadeleri e� itlenip, θcos için yeniden düzenlenirse, Denklem
6.1.4.’deki ifade elde edilir.
ji
jiji
bq
bqbqbenzerlik
⋅
•== θcos),( (6.1.4)
Denklemden de anla� ıldı � ı gibi, benzerli � in çok boyutlu uzayda
neden açısal bir ölçüt oldu� u çok açıktır.
Bir vektörün normalle� tirilmi � olması demek, uzunlu� unun bire
e� it olması demektir. Dolayısı ile, bir vektörün normal hali, vektörü
olu� turan her elemanının, vektörün uzunlu� una bölünmesi demektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
106
Denklem 6.1.1. veya Denklem 6.1.4.’de verilen benzerlik ifadelerinde
de görüldü� ü gibi, e� er sorgu ve belge vektörleri, önceden
normalle� tirilmi � olursa, benzerlik Denklem 6.1.2.’de hesap � ekli
verilen basit bir nokta çarpımı haline gelecektir. Vektör uzayı geri-
getirim modelini esas alan BGG sistemlerinde yaygın olarak
uygulanan, belge ve sorgu vektörlerinin normalle� tirilerek
kullanılmasıdır.
Vektör uzayı modelinde, indeks terimlerle belgeler arasındaki
a� ırlık hesabı da Denklem 6.1.6.’da verilen � ekilde yapılır.
ijijiji idftfbgw ×== ,, )( (6.1.6)
Denklem 6.1.6.’da, jitf , terimi, e� er jif , , jb belgesinde ik
indeks terimine ait gözlenme sıklı � ı ve jfmax , jb belgesindeki her
hangi bir indeks terime ait olabilecek en yüksek gözlenme sıklı � ı olarak kabul edilirse, jji ff max/, (normalle� tirilmi � gözlenme sıklı � ı olarak
da adlandırılır) i � leminden elde edilen sayısal de� erdir; iidf terimi,
e� er N belge toplulu� undaki toplam belge sayısı ve ni, ik indeks
teriminin gözlendi � i belge sayısı olarak kabul edilirse, )/(log10 inN
i � leminden elde edilen sayısal de� erdir. Bu a� ırlık hesaplama yöntemi
çok yaygın olarak kullanılır ve TFxIDF olarak adlandırılır. Aslen bu
adlandırma, kökü Denklem 6.1.6.’da verilen a� ılık hesabı ifadesinden
türetilmi � , bir a� ırlıklandırma denklemleri ailesinin genel adı olarak
kabul edilebilir (Salton, 1971).
Sorgu cümlesinden, sorguya ait vektörün olu � turulması için
yapılması gereken a� ırlıklandırma, belgelerde oldu� undan farklıdır.
Sorgularda uygulanması önerilen a� ırlıklandırma Denklem 6.1.7.’de
verilmi � tir (Salton and Buckley, 1988).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
107
)/log(max
5.05.0
,, i
q
qiqi nN
f
fw ⋅���
�����
⋅+= (6.1.6)
Vektör uzayı modelinin bazı olumlu ve olumsuz yönleri vardır.
Bu özellikleri maddeler halinde listeleyecek olursak:
Olumlu yönleri;
• Uygulamada basit ve hızlıdır.
• Kosinüs farklı ile benzerlik hesaplanması, sorgu için belgeler kümesi üzerinde belirlenmesi gereken R(qi,dj) i � levini de aynı anda yapmı � olur.
Olumsuz yönü;
• � ndeks terimlerin da� ılım esasında ba� ımsız kabul edilmesi.
6.2. Gizli Anlam ndeksleme Modeli
Vektör uzayı modelinde, indeks terimlerin bireysel gözlenme
sıklıkları ile a� ırlıklarının belirlendi � ini söylenmi � ti. Dolayısı ile,
vektör uzayı modeli içerisindeki a� ırlıklandırma � ekli, belge içerisinde
indeks terimlerin birlikte gözükme durumlarını göz önüne
almamaktadır. Gizli anlam indeksleme (latent semantic indexing - LSI)
modelinin kurgusu ile, birlikte gözükme durumunun ne � ekilde ele
alındı � ını takip edebilmek için, anlatıma bir örnek üzerinden devam
edece� iz.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
108
Klasik modeller içerisinde her belgeye, Bb j ∈ , kar � ılık gelen bir
indeks terim vektörü, ),,,( ,,2,1 jtjji kkkb �= ile temsil edildi � i
belirtilmi � ti. Dolayısı ile, belirli bir belge toplulu� u, satırları indeks terimler Kki ∈ , sütunları belgeler Bb j ∈ ve elemanları wi,j, yani (ki,
bj) indeks terim-belge ikilisi için atanmı � a� ırlıklardan olu� an bir terim-belge matrisi, txbA olarak temsil edilebilir (t, terim sayısı, b belge
sayısı). Hayali dört belgeden ve üç indeks terimden olu� an, örnek belge
toplulu� umuz, terim-belge matrisi olarak � ekil 6.2.1.’de verilmi � tir.
0001televizyon(k3)
0011a � (k2)
1110bilgisayar(k1)
b4b3b2b1
0001televizyon(k3)
0011a � (k2)
1110bilgisayar(k1)
b4b3b2b1
�ekil 6.2.1: Örnek belge uzayı için, terim-belge matrisi.
� ekilde verilen örnek belge toplulu� unun, terim-belge matrisinde
dört belge sütunlardadır (b1, b2, b3 ve b4), satırlarda ise üç indeks terim
görülmektedir (k1=bilgisayar, k2=a� , k3=televizyon). Belgelerden, b1 ve
b2 , k2=a� indeks terimini ortak � ekilde içermekte; b3 ve b4
içermemektedir. Bu yüzden, b1 ve b2 için bir a� ırlık de� eri, w2,1=w2,1=1
atanmı � ; ancak, b3 ve b4 belgeleri indeks terimi içermedikleri için
kar � ılık gelen a� ırlık de� erleri, sıfır olarak, w2,3 = w2,4=0, atanmı � tır. Bir
ba� ka söyleyi � le, terim-belge matrisinde, a� ırlık de� eri sıfır olan
hücrenin sütununda bulunan belgede, satırdaki indeks terim
gözlenmemi � demektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
109
Gizli anlam indeksleme yöntemi, sorgu ve belgeleri, terimlerin
birlikte gözlenmesine dayalı olarak, eksenleri “ gizli” anlamlar olan bir
uzaya yansıtır. Birlikte gözlenen terimler aynı eksenlere yansıtılırken,
birlikte gözlenmeyenler farklı eksenlere yansıtılırlar. Gizli anlam
uzayında, bir sorgu ve belge, aynı biçime sahip terimleri içermeseler
bile, e� er anlamsal benzerlikleri, birlikte gözlenme ile belirlenebildi � i
oranda, yüksek seviyelerde kosinüs benzerli � ine sahip olabilirler.
Gizli anlam uzayının boyutları, belge uzayının boyutlarından
daha azdır. Belge uzayının boyutları indeks terimlerin sayısı kadar
olabilir. Ancak, gizli anlam uzayının boyutları, belge uzayında
anlamsal olarak benzer olan boyutların birle� imi ile olu� ur. Bu yönden
açıklandı � ında, gizli anlam indeksleme bir “ boyut indirgeme”
yöntemidir. Bir boyut indirgeme yönteminin yaptı � ı � ey, çok boyutlu
bir uzayda temsil edilen nesneleri, daha küçük boyutlu bir uzaydaki,
örne� in iki boyutlu bir uzaydaki temsile yansıtmaktır. Gizli anlam
indeksleme modelinde kullanılan boyut indirgeme i � lemi, e� siz sayılara
ayrı� tırma-ESA (singular value decomposition - SVD) yöntemi ile
gerçekle� tirilir. ESA yöntemi, aslen temel bile� en analizi – TBA
(principle component analysis) yöntemi ile aynı i � i görür. Ancak, TBA
sadece kare matrislerle çalı � abilirken, ESA, mxn boyutlu tüm
matrislerle çalı � abilir. ESA yöntemi ile, çok boyutlu uzaydaki bir
nokta, daha küçük boyutlu bir uzaydaki “en iyi” kar � ılı � ına yansıtılır.
Buradaki “en iyi” , çok boyutlu uzaydaki noktanın, kendisinden küçük
boyutlu uzayda yansıtılabilecek tüm olası seçeneklerden, mesafe olarak
en yakını demektir.
Gizli anlam indeksleme modelinin, geri-getirim yöntemi olarak
terim-belge matrisi üzerinde kullanılı � ından önce, esas aldı � ı ESA yönteminin matematiksel tanımını yapmak gerekmektedir. Bir txbA
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
110
matrisinin, ESA yöntemi ile olu� turulan kar � ılı � ı Denklem 6.2.1.’de
verilen ifadedeki gibi üç matrisin çarpımı � eklindedir (n sayısı, t ve b
sayılarının en küçü� üne e� ittir).
Tbxbtxbtxttxb BSTA = (6.2.1)
�ekil 6.2.1.’de verdi � imiz örnek derlemin terim-belge matrisi için
ESA yöntemi ile elde edilen txtT , txbS ve bxbB matrisleri �ekil
6.2.2.’de verilmi � tir.
(T matrisi)
boyut-1 boyut-2 boyut-3k1 -0.789 0.577 0.211
k2 -0.577 -0.577 -0.577
k3 -0.211 -0.577 0.789 (S Matrisi)
boyut1 boyut2 boyut3 boyut4boy-1 1.932 0.000 0.000 0.000
boy-2 0.000 1.414 0.000 0.000boy-3 0.000 0.000 0.518 0.000
(B Matrisi)
boyut-1 boyut-2 boyut-3 boyut-4b1 -0.408 -0.817 0.408 0.000
b2 -0.707 0.000 -0.707 0.000
b3 -0.408 0.408 0.408 -0.707
b4 -0.408 0.408 0.408 0.707
�ekil 6.2.2: Örnek derlem terim-belge matrisi için hesaplanmı � , ESA bile� en
matrisleri.
ESA yöntemi ile �ekil 6.2.2.’de görüldü� ü gibi olu� turulan
bile� en matrislerinden, T ve B matrislerinin, sütunları dik-cepheli birim
vektörlerdir (orthonormal). Yani, her sütün ile temsil edilen vektörlerin
boyu bire e� ittir; aynı zamanda vektörlerin birbirleri arasındaki açı dik
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
111
açıdır (900). Dolayısı ile, IBBTT =⋅=⋅ −− 11 e� itli � ine sahiptir (I,
birim matrisdir).
ESA yöntemi, n-boyutlu bir uzayın döndürülmesi olarak
tanımlanabilir. Bu döndürme i � i, ilk eksenin, belgeler üzerinden elde
edilmi � olan en yüksek de� i � im yönünde, ikinci eksenin bir sonraki en
büyük de� i � im yönünde, v.b. � ekilde tüm uzayın aynı � ekilde
de� i � imler yönünde döndürülmesi ile sonlanır. T ve B matrisleri
döndürme sonrasında elde edilen yeni uzayın, indeks terim ve
belgelerini temsil ederler.
Kö � egen S matrisiyse, A matrisinin e� siz sayılarını azalan sırada
içermektedir. S matrisinin kö � egenindeki, örne� in 2. de� er, yani s2
de� eri, 2. eksende, özgün uzaydan, yeni uzaya dönü� için ne kadar de� i � im oldu� unu belirtmektedir. Söz konusu txbA matrisi i le ifade
edilen uzayın, k boyuta indirgenmi � olan ( e� er n, t ve b sayılarının en
küçü� üne e� it olarak kabul edilirse; k < n olacaktır) “en iyi”
yakınsaması, T, S ve B matrislerinin ilk k sütunu ile olu� turulacak olan matrisle elde edilecektir. Örne� in, k=2 olarak alındı � ında, txbA
matrisini, 2 boyutta “en iyi” ifade edilebilecek bile� enler, 2txT , 22xS ve
xbB2 olacaktır. Örne� imiz için bu bile� enler ve olu� turdu� u yakınsak
matris � öyle olacaktır:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
112
���
�
�
���
�
�
−−
−=
���
���
−−−−−
×
���
���
���
�
�
���
�
�
−−
−−−
=⋅⋅
17.017.029.083.0
12.012.079.012.1
96.096.008.104.0
408.0408.00817.0
408.0408.0707.0408.0
414.10
0932.1
577.0
577.0
577.0
211.0
577.0
798.0
242223Txxx BST
ESA ile bulunan yakınsama, tektir, biriciktir. Bu yakınsamanın
yapılması sırasında, benzer birlikte gözlenme desenleri gösteren
terimler aynı eksene yansıtılır, yani birbiri üzerine bindirilir. Dolayısı
ile, benzerlik için kullanılan ölçüt, anlamsal olarak benzer olan sorgu
ve belgeleri, yazıda farklı kelime biçimleri ile kar � ılansalar bile benzer
olarak belirleyecektir. Gizli anlam indekslemenin temelinde bu
kabullenme, böyle bir beklenti vardır. T matrisinin sadece iki boyutu
alınmı � � eklini inceleyecek olursak, “bilgisayar” , “a� ” ve “ televizyon”
terimlerinin birlikte gözükme açısından aynı (de� er olarak aynı) ancak,
anlamca farklı oldukları (pozitif ve negatif) gözükmektedir. Aslen,
anlamca farklı olu� un ortaya çıkmasının sebebi, “bilgisayar” teriminin
d3 ve d4 belgelerinde yalnız ba� ına kullanılıyor olması etkisiyle, yani
birlikte gözlenme olmaması sebebiyle ortaya çıkmı � tır. Tahmin
edilece� i gibi, bazı durumlarda birlikte gözükme ile, aynı konu
ba� lı � ına sahip terimlerin belirlenmesinde mesele çıkabilir. Fakat, ço� u
zaman aynı konu ba� lı � ına sahip terimler tespit edilebilmektedir.
Bu terim benzerliklerinin belge benzerliklerine farklı bir etkisi vardır. � ekil 6.2.3.’de özgün 43xA örnek matrisinin kar � ılıklı i li � ki
katsayıları, matris halinde verilmi � tir ( 43xA örnek matrisi, sütunları,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
113
yani belgeleri temsil eden vektörleri, uzunluk ile normalle� tirilmi �
durumdadır. Çünkü, kar � ılıklı ili � ki matrisi, AAE T ⋅= ile elde
edilmektedir). ESA ile k=2 için, A matrisinin yakınsaması üzerinden elde edilen kar � ılıklı ili � ki katsayı matrisi için, 4222 xx BSD ⋅=
� eklinde, B matrisinin yeni uzay için ölçeklendirilmi � hali
kullanılmaktadır, yani DDE T ⋅= (aynı � ekilde D matrisi de, sütunları
normalle� tirilmi � olarak i � leme alınır).
(a) b1 b2 b3 b4
b1 1.000
b2 0.500 1.000
b3 0.000 0.707 1.000
b4 0.000 0.707 1.000 1.000 (b)
b1 b2 b3 b4
b1 1.000
b2 0.564 1.000
b3 -0.033 0.807 1.000
b4 -0.033 0.807 1.000 1.000
�ekil 6.2.3: Belgeler arası kar � ılıklı ili � ki katsayı matrisleri. (a) Özgün örne� in terim-
belge matrisi ile olu� turulan (ATA) ve (b) k=2 için ESA yakınsaması ile olu� turulan yeni uzayda ölçeklendirilmi � belge matrisinden olu� turulan (DTD) kar � ılıklı ili � ki katsayıları matrisleri.
�ekil 6.2.3-(b).’de verilen, yeni uzay için ölçeklendirilmi � belge
matrisi için hesaplanan kar � ılıklı ili � ki katsayılarında b1 ile b3 ve b4
arasında bir ili � ki oldu� u gözükmektedir (-0.033). Özgün belgeler için
hesaplananda, yani �ekil 6.2.3-(a).’da böyle bir benzerlik yoktur.
Dikkat edilmesi gereken noktalardan bir tanesi de � udur: Özgün A
matrisine ait kar � ılıklı ili � ki katsayıları ile, ESA yöntemi ile elde edilen
S ve B matrisleri oldu� u gibi kullanılarak hesaplanacak kar � ılıklı il i � ki
katsayıları birbirine e� it olur. Yani, aslen boyutsal bir indirgeme
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
114
yapılmadı � ı takdirde, belgeler arasındaki kar � ılıklı ili � kilerde bir
de� i � iklik olmaz. Boyutsal indirgeme yapıldı � ında, birlikte gözlenme
desenlerinden elde edilen enformasyon, belgeler arasındaki benzerlik
için kullanılmaya ba� lar.
Gizli anlam indeksleme ile sorguların ne � ekilde yeni uzayda
temsil edilece� i de tanımlanınca, bu model uygulamada kullanılır hale
gelmektedir. Bir kez sorgu, yeni uzaydaki belgelerle aynı ölçe� e
alındı � ında, vektör uzayı modelindeki benzerlik ölçütü sorgu ile
belgeler arasındaki alakanın ölçümü için kullanılacaktır. Denklem
6.2.2.’de özgün terim-belge matrisinin, yeni uzaydaki yansıması
Denklem 6.2.1.’den türetilmi � tir. Sorgu da, belgelerle aynı ölçekte
olacak � ekilde, yeni uzaya yansıtılmaktadır.
qT
BSAT
BSTTAT
BSTA
T
TT
TTT
�∴
⋅=⋅⇔
⋅⋅⋅=⋅⇔
⋅⋅=
(6.2.2)
Olumlu yönleri;
• Terimler arası birlikte gözlenme enformasyonundan faydalanır. E� anlamlı, ancak farklı biçimli kelimeleri benze� tirir.
Olumsuz yönü;
• ESA yönteminin hesaplama karma� ıklı � ı çok yüksektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
115
7. � NDEKSLEME VE � NDEKS TER � MLER
Amerikan Ulusal Standartlar Enstitüsünün 1968 yılında (ANSI
1968) � ndeks kavramı için verdi � i tanım:
“ Bir ö� eler toplulu� unun içindeki bireysel ö� eler veya bu ö� elerden türetilmi � kavramlar için olu� turulmu� sistemli bir kılavuz. Bu ö� eler veya türetilmi � kavramların kılavuz içindeki temsilcileri ise bilinen veya verilen, örne� in alfabetik, tarihsel veya sayısal bir sıralama içindedirler.”
� ndeksleme için verilen tanım:
“ � ndeksleme: Bilgi kayıtlarından enformasyon muhteviyatını analiz etme; ve indeksleme sistemi’nin dili ile bu enformasyon muhteviyatını beyan etme i � lemidir. Bu i � lem sırasıyla: bir belgede indekslenebilir muhteviyatın seçilmesi ve indeksleme sisteminin dili ile bu muhteviyatın beyanının sıralı bir liste haline getirilmesi adımlarından olu� ur.”
Bir indeksleme sistemi için verilen tanım:
“ Geri-getirim veya da� ıtım, yani yayma amacıyla bilgi kayıtlarının muhteviyatını organize eden (elle veya otomatik) nizam koyucu yöntemler/yordamlar kümesi.”
Bir indeks terim ise, yukarıda verilen tanımların ı � ı � ı altında, bir
metnin içeri � inde bulunan enformasyonun (veya üst –meta-
enformasyonun) kayda de� er bir kısmını içeren ifadedir. Örne� in bir
kitap indeks’ i, o kitabın muhteviyatında bulunan önemli içerikleri, daha
do� rusu kavramları temsil eden terim’ lerden olu � ur: konular, ki � iler,
yerler gibi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
116
BGG sistemlerinde indeksleme dili, belge ve sorguları tasvir
eden, sistem içinde, içsel temsilini sa� layan dildir; söz konusu dilin
yapı ta� ları ise indeks terim’ lerdir, bir ba� ka adla anahtar kelimelerdir. �ndeksleme, insanlar tarafından elle veya bilgisayarlar tarafından
otomatik olarak yapılabilir. �ndeks terimler, aslen olu� turuldukları
metnin veya belgenin içindeki kelimelerin yazım biçimlerinden
ba� ımsızdırlar. Bu açıdan indeks terimler, olu � turuldukları metnin
yüzeysel bir özeti gibi dü� ünülebilir. Ancak, indeks terimlerin asıl
amaçları kullanıcıyı metnin içeri � inde ne oldu� u konusunda haberdar
etmektir. Bu sebeple söz konusu özet, metnin içeri � ini olu� turmada
kullanılan konuları, kavramları içerir, içeri � in bizzat kendisi de� ildir.
Tüm indeksleme i � lerinin kökeninde, kullanıcılara ihtiyaç
duydukları enformasyona ula� maları için kılavuzluk etme amacı vardır.
Ancak indeksler, bir çok tür ve detay seviyelerde olu� turulabilirler.
Farklı tür ve seviyeler ile olu� turulabilecek indeksler, a� a� ıdaki
guruplar altında sınıflandırılabilir (Cleveland and Cleveland, 1983).
1. Kelime ve isim indeksleri: Bu tür indekslerde indeks terimleri, kelimelerin metnin içinde görüldükleri � ekillerinden olu� ur ve bir kelime hazinesi sınırları yoktur.
2. Kitap indeksleri: Terimler genellikle elle olu� turulur ve metnin içinde görüldükleri yazılı � ekillerinden farklıdır. Örne� in bir indeks terimi “Dinozorlar, bkz. Dinozor” � eklinde metnin içinde geçti � i
� eklini, indeks terim olan � ekline yönlendirebilir.
3. Periyodik (süreli yayın) indeksleri: Periyodik indeksler, kapsamlarının daha geni � olmalarının haricinde, tamamen kitap indekslerinin yapısal özelliklerine sahiptirler. Periyodik indeksleme projeleri ucu açık projelerdir, hiçbir zaman sonlanmazlar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
117
4. Bilgi geri-getirim sistem indeksleri: Bu indeksleme türünün amacı, içerik belirticileri i � aretleyerek, alakalı belgelerin etkin � ekilde geri-getirimini sa� lamaktır.
Tez kapsamımızda, indeks sınıfı olarak bilgi geri-getirim sistem
indeksleri ele alınmaktadır.
BGG sistemlerinde, sayısal belge temsili için indeks terimlerin
seçimi iki yoldan yapılabilmektedir: elle veya otomatik. Elle indeks
terim seçiminde, metnin içeri � ini temsil eden terimler, bir veya birkaç
ki � i tarafından i � aretlenir ve listelenir. � kinci yöntemde ise, yani
otomatik olarak indeks terimlerin seçiminde, metnin içeri � ini temsil
eden terimlerin, bir bilgisayar yordamı ile otomatik olarak bulunması,
dolayısı ile indeks terim listesinin otomatik olu� turulması söz
konusudur. � � te, hangi kelimelerin veya kelime guruplarının metnin
içeri � ini temsil etti � ini, bilgisayar yordamları ile bulma i � ine otomatik
indeks terim seçimi denir.
7.1. Elle � ndeksleme
Bir belge toplulu� una, yeni bir belge katıldı � ı zaman,
indekslemeyi yapacak ki � i veya ki � ilerin cevaplamak zorunda oldukları
bir takım sorular vardır (Lancaster, 1991):
1. Belge ne hakkında?
2. Neden, belge toplulu� una eklenmek zorunda?
3. Kullanıcıları ilgilendiren yönleri nelerdir?
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
118
�ndekslerin, özellikleri ve kalitesi çok geni � bir yelpazede
de� i � iklik gösterir. Elle indeksleme için, indeksleme yapan ki � iye yol
göstermesi açısından yordamlar ve talimatlar olu� turulabilir. Ancak, bir
indeksleme i � lemi çok çe� itli u� ra� lardan meydana gelmektedir
(Cleveland and Cleveland, 1983):
1. �çerik analizi,
2. �çerik belirticilerin i � aretlenmesi,
3. Yer, pozisyon belirticilerin i � aretlenmesi,
4. Sonuçta olu� an kılavuzların elden geçirilmesi,
5. Son indeks � eklinin nasıl gösterilece� inin belirlenmesi.
�çerik belirticilerin tespiti, çok dikkatli bir içerik analizi
gerektirmektedir. Bu i � lem içinde, metinde geçen ba� lıklar, alt ba� lıklar
ve özet iyi birer içerik belirtecidir. Belge incelenip, içerdi � i metinlerin
konuları belirlendikten sonra, yapılması gereken, indeksleme dilinin
kontrollü kelime da� arcı � ı içinden konuların bulunmasıdır. Daha sonra,
bu kontrollü kelime da� arcı � ından elde edilmi � , terimlerin standart bir
e� anlamlılar sözlü� ünden kontrol edilerek son halini alması sa� lanır.
E� anlamlılar sözlü� üne bakılmasının sebebi, terimin tam kar � ılı � ının,
e� anlamlısının, dar anlamlısının, daha geni � anlamlısının veya ili � kili
terimlerin de tespit edilmesidir. �ndeksleme i � lemi için konulmu �
kuralların ço � unun amacı, indekslerin kalitesini arttırmaktır. Fakat söz
konusu kurallar evrensel de� ildir. Hatta, bazı indeksleme kılavuzlarında
bulunan kurallar birbirleri i le çeli � kili bile olabilir. Bu kuralların neler
olabilece� ini a� a� ıda verilen örne� i inceleyerek çıkarabiliriz (Cleveland
and Cleveland, 1983):
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
119
1. Tekil terimleri, ço� ul olanlarına yönlendir: örne� in “kitap, bkz. kitaplar.” gibi.
2. Terimin de� i � ik anlamlarını ifade etmek için, kullanıcının kastedilen anlamı kavrayabilmesi için, bir tümcede kullan: örne� in “matematik, ö� retiminde bilgisayarın kullanımı” veya “bilgisayar, matematik ö� retiminde kullanımı” gibi.
3. Yazarları, ilk adlarını dahil ederek kullan: “Dinçer, B.T.” gibi.
4. Yazar tarafından vurgulanmak, açıklanmak istenen kadar özele indirgenmi � � ekilde indeks terimler seç (E� er yazarın seçti � i terim, konu içerisinde kabul edilebilir bir seviyeye denk geliyorsa, daha üst genel hali ile indeksleme). Örne� in, yazar “F-16” uçaklarından bahsediyorsa, “F-16” olarak indeksle, daha üst genel konu ba� lı � ı olan “uça� ı” kullanma.
�ndekslemeyi yapan ki � i ayrıca, indeksin derinli � ini de, yani
kapsamı da iyi ayarlamalıdır. Bir ba� ka söyleyi � le, belge içerisinde
bahsedilen konu ba� lıkları en iyi � ekilde kapsanmalıdır. E� er, kapsam
çok yüzeysel olursa, kullanıcıların kaçırdı � ı kavramlar olabilir. E� er
çok fazla detay olursa, kullanıcı alakasız metinleri okumak zorunda
kalabilir. Özetle, kapsamı en iyi � ekilde belirleyebilmek oldukça güç ve
ciddi bir i � tir.
Bir çok kitap, isim indeksleri ile içerik indekslerini birbirinden
ayırır. �sim indeksleri metin içerisinde geçen özel isimlerin bir
listesinden olu� turulurken, içerik indeksleri metin içerisindeki konuları
kar � ılayan terimlerden olu� turulur. Borko ve Bernier (1978), daha
detaylı bir ayrım tarif etmi � lerdir:
1. Konu indeksleri: Konular, yapılan i � in bütünü ile hedef alınan � eydir, yani yazarın dikkatinin ve u� ra� ının yönlendi � i ana temadır. Bunlar, yapılan i � in özelliklerine ait çe� itli yönleri ortaya koyan özgün fikirler, açıklamalar veya tanımlamalardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
120
2. Kavram indeksleri: konular bazen di � er bazı kavramların tanıtılmasına, içinde geçen fikirlerin açıklanmasına ve örneklerle izah edilmeye ihtiyaç duyabilir. Bu tür kalemler, kavram olarak tanımlanır. Kullanılmalarındaki amaç, ana “ konu” nun anla� ılmasını sa� lamaktır, ancak kendileri “ konu” de� illerdir, dolayısı ile konu indekslerinde de� il, bu � ekilde kavram olarak indekslenmeleri gerekir.
3. Ba� lık indeksleri: Ço� u metin ba� lıklara bölünmü � tür, sıklıkla da alt ba� lıkları vardır. Bu ba� lıkları veya alt ba� lıklarını indekslemek, ba� lıklar için bir indeks olu� turacaktır. Bazı durumlarda bu ba� lıklar, “konu” olabilir, bu durumda konu indeksleri içerisinde yer almalıdır. Genellikle, konu indeksleri için çok geni � kapsamlı olurla; bazen de hedef alınan konunun tanıtımı, do� rulaması, ispatı amacı ile kullanılan kavramlardır.
4. Kelime indeksleri: kitap içerisinde geçen tüm kelimelerin birli � idir, veya kelime indeksidir. Bir konu indeksi de� ildir.
En kalabalık olan indeks kelime indeksidir. Bir sonraki kalabalık
indeks, kavram indeksi; ba� lık indeksi bir sonraki; en seyrek olan
indeks de konu indeksidir. Tez kapsamında, ele alınan indeks terimler,
kavram indeksleri ’dir. Aslen, otomatik indeksleme konusunda da
açıklanaca� ı gibi, indeks terimler, kelime indeksleri ile kavram
indeksleri arasında bir yo � unlu� a sahiptir. Sayısal belge temsili ile elde
edilen, kelime indeksleridir; otomatik indeksleme yordamından
beklenense, bu kelime indeksini mümkün oldu� unca kavram indeksine
do� ru götürmesidir.
7.2. Do� al Bir Dilde, Kelimeler in Da� ılımı.
Yazılı metinlerde bulunan simge veya simge birlikleri,
kelimeler, sayılar, çizimler v.b. insanlar tarafından anlam yüklenmi �
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
121
her türlü harf, sayı, i � aret ve bunların olu� turdu� u birliklerdir. Bir metni
olu� turan içerik, bu simge veya simge birlikleri ile kar � ılanan
anlamların bütününden olu� ur. Ancak, anlamsal-enformasyonun yazı
ile iletiminde metni olu� turan her simge veya simge birli � inin temsil
etti � i anlam, metnin içeri � ine, yani anlamlar bütününe her durumda e� it a� ırlıkta, yani aynı önemde katkıda bulunmaz veya bazıları hiç katkıda
bulunmaz. Anlamsal-enformasyon bakı � açısından, “yazılı bir metinde
kelimelerin gözlenme sıklıkları” ile “bu kelimelerin kar � ıladıkları
anlamların muhtemel enformasyonu olu� turan anlamlar bütünü içindeki
önem dereceleri” arasındaki ili � ki Luhn10 (1958) tarafından � ekil
7.2.1’deki gibi betimlenmi � tir. Luhn, yazılı metinlerde orta frekanslı
kelimelerin önemli, dü� ük ve yüksek frekanslı kelimelerin önemsiz
olduklarını söylemi � tir. Ta� ınan enformasyona katkıları açısından,
önemsiz kelimeler, dilin yazım kuralları, yani dilbilgisi içinde görevli
olan ve yüksek sıklıkta gözlenen kelimeler ile metin içinde çok az
görülen kelimeler dahil edilir. Bu tür önemsiz kelimeler i � levsel olarak
görevli veya i � lev terimler olarak adlandırılır, yani yazım veya anlatım
içinde i � levleri vardır ancak nakledilen enformasyon ile ilgili
de� illerdir.
10 Hans Peter Luhn (1896-1964). Alman uyruklu bir mühendistir. Bilgi geri-getirim’ in fikir babası olarak bilinir. � lk otomatik anahtar kelime indeksleme yöntemi olan (KWIC) ve enformasyonun seçici da� ıtımı (SDI- Selective Dissemination of Information) sistemlerini ortaya atan ki � idir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
122
Kel
imen
in ö
nem
i
Kelime frekansı
Önemliorta frekanslılarÖnemsiz
dü � ük frekanslarÖnemsiz
yüksek frekanslar
�ekil 7.2.1: Kelimelerin frekansları ile muhtemel enformasyonu temsile katkı miktarı
arasındaki ili � kinin çizgesi (Luhn, 1958, uyarlama).
Luhn çalı � masında kelimelerin ta� ıdı � ı anlamsal önemin
uygulama sahası konusunda � unları söylemi � tir:
“ ... Burada, kelimelerin bir makale içinde görülme sıklıklarının kelime öneminin ölçülmesi için kullanı � lı bir alt yapı hazırlayaca� ı önerildi. Ayrıca bir de önem de� eri atanmı � kelimelerin cümle içinde göreceli yerleri, cümlelerin öneminin belirlenmesinde kullanı� lı bir alt yapı hazırlar; Dolayısı ile bir cümlenin önem etmeni, bu iki ölçümün birle� imini esas alabilir. ...”
(Luhn, 1958)
Sinyal-enformasyon bakı � açısından (Bölüm 3.2.3), enformasyon
ile sinyal arasındaki ili � ki, anlamsal-enformasyon bakı � açısından
(Bölüm 3.2.1), enformasyon ile anlam arasındaki ili � kiden, köken
olarak farklıdır. Sinyal-enformasyon bakı � açısı içinde, gözlenme
olasılı � ı en dü� ük olan sinyal en yüksek enformasyona sahipken;
anlamsal-enformasyon bakı � açısından, Luhn tarafından tanıtılan kuram
gere� i, orta sıklıkta görülme olasılı � ına sahip kelimeler en yüksek
enformasyon de� erine sahip olmaktadır. Örne� in bir ba� lık altında
belirli bir konudan bahsederken nakledilmek istenen enformasyonu
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
123
temsil eden ve temsile yardımcı olan simge birlikleri sıkça geçer, yani
görülme olasılı � ı artar. Bu durum, söz konusu simge birliklerinin
sinyal-enformasyon de� erinin azalmasına sebep olurken; Luhn kuramı
gere� ince, belirli bir e� ik de� erinden sonra ve bir üst sınırdan önceki
aralıkta gözlenme sıklı � ına sahip olanların, anlamsal-enformasyon
de� erinin, aralı � ın dı � ında kalanlardan daha fazla olmasına sebep olur.
Luhn tarafından ortaya konan kelimelerin bir metin içindeki
gözlenme sıklıkları ile ta� ınan enformasyona katkı açısından önemleri
arasındaki ili � ki, aslında Zipf (1929; 1949) tarafından ortaya atılan ve
Asgari Gayret (Least Effort) ilkesi içerisinde geçen “birinci kanunu”
esas almaktadır (Manning and Schütze, 2003). Zipf birinci kanunu: bir
belge içindeki kelimelerin gözlenme sıklıkları büyükten küçü� e
sıralandı � ında, gözlenme sıklıkları (f) ile sıra numaraları (r) çarpılarak
elde edilecek sayısal de� erin (c), yakla� ık olarak sabit kalması olarak
tanımlanır (Çizelge 7.2.1; Denklem 7.2.1).
Çizelge 7.2.1: Zipf birinci kanunun, Tom Sawyer romanı üzerinde deneysel de� erlendirmesi (Manning and Schütze, 2003, uyarlama).
Kelime Sık ( f ) Sıra (r ) f x r Kelime Sık ( f ) Sıra (r ) f x r
the 3332 1 3332 comes 16 500 8000
and 2972 2 5944 group 13 600 7800
a 1775 3 5235 lead 11 700 7700
he 877 10 8770 friends 10 800 8000
but 410 20 8820 begin 9 900 8100
be 294 30 8820 family 8 1000 8000
there 222 40 8880 brushed 4 2000 8000
one 172 50 8600 sins 2 3000 6000
about 158 60 9480 could 2 4000 8000
more 138 70 9660 applausive 1 8000 8000
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
124
rfsabitrf
1 veya ∝≈×
(7.2.1)
Mandelbrot (Manning and Schütze, 2003) daha büyük derlemler
ile yaptı � ı çalı � malarda, Zipf tarafından verilen genellemenin aslında
detayları belirleyicilik noktasında, çok kötü oldu� unu ortaya
koymu� tur. Mandelbrot sıra ile sıklık arasındaki genel ili � kiyi
kelimelerin deneysel da� ılımına daha uygun olacak � ekildeki Denklem
7.2.2’de oldu� u � ekilde de� i � tirmi � tir.
)log(loglog veya)( ρρ +−=+•= − rBPfrPf B (7.2.2)
Denklem 7.2.2.’de P, B ve ρ metne ait parametrelerdir ve hep
birlikte metinde kullanılan kelime da� arcı � ının zenginli � ini ortaya
koyarlar. Zipf tarafından verilen özgün ili � kideki hiperbolik da� ılım
(Denklem 7.2.1), Denklem 7.2.2. için de geçerlidir. Denklem 7.2.2.
verilen ifade, logaritma ölçekli eksenler kullanılarak çizgeye
dönü� türüldü� ünde, sıralamanın (r) en yüksek de� eri için e� imi –B
olan bir do � ruya çok az hata ile uyum gösterir. E� er denklemde, B=1
ve ρ=0 alınırsa aslen, Zipf birinci kanunu için Denklem 7.2.1.’de
verilen ifadeye e� it oldu� u görülür. Mandelbrot tarafından, ifadede P =
105.4, B=1.15 ve ρ=100 parametre de� erleri için Brown külliyatı ile en
iyi uyumun yakalandı � ı belirtilmi � tir.
7.2.1. Zipf Güç Kanunları
Günümüzde, geleneksel BGG sistemlerinin, e� er hepsi de� ilse,
büyük bir kısmında, bir kelimenin metin içinde gözlenme sıklı � ı, bu
kelimenin metnin içeri � ini temsildeki önemini belirlemede en temel
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
125
özellik olarak kullanılmaktadır. Ayrıca, görülme sıklı � ı ile metin
içeri � ini temsildeki önem arasında ili � kiye ait, Luhn tarafından ortaya
atılan model de, en baskın olan, daha do� rusu tek modeldir. Bu
modelin kuramsal alt yapısı Zipf (1929; 1949) tarafından ortaya atılan
birinci güç kanunudur. Zipf birinci kanunu, Denklem 7.2.1.1.’de bir
do� ru denklemi � eklinde betimlenmi � tir.
)log()log( rBHf NNr −= (7.2.1.1)
Denklem 7.2.1.1.’de fr kelimenin gözlenme sıklı � ını (bazı
makalelerde fr göreceli frekans, yani kelimenin gözlenme olasılı � ı
olarak da yorumlanmaktadır. Bu anlamda iki yorum arasında ilke
açısından bir farklılık olmaz.), r sıra numarasını, HN ise bir sayısal
sabiti temsil etmektedir. HN derlem büyüklü� üne (N) ba� ımlı, ancak
sıra numarasından (r) ba� ımsız bir sabittir. Ayrıca, büyüklü� ü artarak
sonsuza giden bir derlem için, bu do � ru uydurulmaya çalı � ılırsa, BN
de� eri de derlem büyüklü� üne ba� ımlı olacaktır. Denklemden de
anla� ıldı � ı gibi, Zipf, kelimelerin gözlenme sıklıklarının logaritması ile
bu kelimelerin gözlenme sıklıkları sıralandı � ı zaman ortaya çıkan sıra
numaralarının logaritmaları arasında do� rusal ili � ki oldu� unu belirtir.
Bu do � rusal ili � ki, negatif bir e� imine, -BN sahiptir, yani sıklık ile sıra
numarası arasında ters orantı vardır. Aslen Zipf, bu kanunları ortaya
koyarken, kelimelerin kar � ıladı � ı anlamların görüldükleri metnin
içeri � ini olu� turmada önemleri konusuna, do� rudan model olduklarını
belirtmemi � tir. Bu konu Luhn (1958; 1960) tarafından, Zipf
kanunlarının bir uzantısı olarak ortaya konmu� tur. Luhn, içeri � i
olu� turan kelimelerin sıklıklarının, metnin içinde orta seviyeli
oldu� unu, çok yüksek ve çok dü� ük frekanslara sahip kelimelerin içerik
için önemli olmadı � ını söylemi � tir. Bu iddia, halen BGG sahasında
geçerlidir ve yaygın � ekilde de kullanılır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
126
Zipf tarafından ortaya atılan kuram üzerinde çok tartı � ılan bir
konu olmu� tur (Herdan, 1960; Mandelbrot 1952, 1959; Simon, 1955)
ve halen tartı � ılmaktadır (Baayen 1996, 2001; Kornai, 2002; Powers,
1998; Samuelsson, 1996; Turner, 1997). Bazı yazarlar “Zipf kanunu”
kelimesini sadece Denklem 7.2.1.1.’deki ili � kide e� imin bir oldu� u,
yani BN=1 oldu� u durum için kullanmaktadırlar. Çünkü, e� imin birden
büyük olması (B >1), derlem için, açık kelime da� arcı � ı; e� imin birden
küçük olması (B < 1) ise kapalı kelime da� arcı � ı anlamına gelmektedir.
Zipf tarafından ortaya konan ilk kanun ile yakından alakalı, bir
ikinci Zipf kanunu daha vardır ve Zipf ikinci kanunu olarak adlandırılır.
E� er V(i,N), i kere rastlanan farklı kelime � ekli/biçimi sayısı olarak
kabul edilirse, i kere rastlanan farklı kelime � ekli sayısı ile sıra
numaraları arasındaki ili � kiyi betimleyen, Zipf ikinci kanunu Denklem
7.2.1.2.’de verildi � i gibi olacaktır. Denklemde verilen Zipf ikinci
kanunu ile birinci kanununun yorumlanması benzer � ekildedir.
)),(log()log( NiVDKi NN −= (7.2.1.2)
Hesaplamalı dilbilim sahasında Zipf kanunlarına atıfta
bulunuldu� unda, genellikle inceledi � imiz birinci ve nadiren de ikinci
kanun kastedilir. Ancak, Zipf “en az gayret ilkesi” çerçevesinde ba� ka
kanunlarda ortaya atmı � tır. Bunlardan biri, kelimelerin anlamlarının,
gözlenme sıklıkları ile ili � kili oldu� udur. Bir ba� ka söyleyi � le, Zipf, bir
konu� macının anlatmak istedi � ini, tüm anlamları kar � ılayan tek bir
kelime ile yapmayı tercih edece� ini; ancak, dinleyicinin her anlam için
tek bir kelime duymak isteyece� ini belirtmi � tir. Bu öyküde, tarafların
e� it etkilerinin oldu� u kabul edilince, Zipf, bir kelimenin farklı anlam
sayısının ϖ , frekansının karekökü ile do � ru orantılı oldu� unu, dolayısı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
127
ile bir kelimenin farklı anlam sayısının, sıra numarası ile ters orantılı
olup, r/1=ϖ denkleminden elde edilece� ini söylemi � tir.
Zipf tarafından verilen bir di � er kanun da, içeri � i olu� turan
kelimeleri, metin içinde bazı yerlerde yı � ılım gösterece� idir. E� er bir
derlemde, her kelimenin metin içinde gözlendi � i yerlerin araları satır
veya sayfa sayıları cinsinden sıklık, F olarak ölçülürse; Zipf, belirli bir
uzunlu� un, I’ nın derlem içinde gözlenme sıklı � ı i le ters orantılı
oldu� unu belirtmi � tir: pIF −α (Zipf � ngilizce için gözlenme sıklı � ı en
fazla 24 olan kelimeler için 260,000 kelimelik bir derlemde yaptı � ı
çalı � mada p de� erinin 1 ile 1.3 arasında de� i � ti � i saptanmı � tır). Bir
ba� ka söyleyi � le, Zipf içerik kelimelerin metin içinde gözlemlendi � i
yerin ço� unlukla bir di � er gözlemlendi � i yerle yakın oldu� unu
belirtmektedir. Bu olay, bilgi geri-getirim sahasında ta� ma (burstness)
olarak adlandırılır. � çerik kelimelerin belirlenmesinde kullanılan bir
özelliktir. Uygulama sahasında, çe� itl i yöntemlerle icra edilmektedir.
Zaten, geleneksel geri-getirim yöntemleri içinde en yaygın olan,
TFxIDF yöntemindeki IDF (Inverse Document Frequency – Devrik
Belge Frekansı) etmeninin esas aldı � ı kuramsal fikir de budur: bir
kelime, bir belge toplulu� u içinde ne kadar az belgede gözleniyorsa, o
belge toplulu� unda o kadar içerik kelime olma özelli � i ta� ıyor
demektir.
Mandelbrot (1952), klasik “ maymun ve daktilograf” öyküsü
üzerinden, Zipf birinci kanunu sınamı � tır. Söz konusu öyküde
kelimeler, daktilonun tu� larındaki sembollerden birisi kelime sınırı
olacak � ekilde, elde edilecek en uzun sembol birli � i olarak kabul
edilmektedir. Mandelbrot, e� er bu öyküde, yeni sembollerin rastsal
olarak üretildi � i kabul edilirse, Zipf birinci kanunu ifadesine ait e� imin
birden büyük oldu� u durumda, (B > 1) uyumun sa� lanabildi � ini
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
128
ispatlamı � tır. Ayrıca, Zipf birinci kanunun, derlemdeki detayları çok iyi
modelleyemedi � ini, sıra numarasının küçük de� erleri için yukarıda, sıra
numarasının büyük de� erleri için de a� a� ıda kaldı � ını belirterek, bu
özellikleri daha iyi temsil eden, Zipf birinci kanunun bir türevi olan bir
ba� ka denklem ortaya koymu� tur (Denklem 7.2.1.3.).
)log()log()1()1log()log( WrBWBBf r +−−+−= (7.2.1.3)
Mandelbrot, Zipf birinci kanununa yeni bir W>0 parametresi
katmı � tır. Bu parametrenin amacı, e� imin birden büyük olması
durumunda (B>1), göreceli frekansların toplamının bire e� it olmasını
sa� layarak, gerçek bir olasılık da� ılımını korumaktır (Aslen bu
denklem, B>1 kabullenmesi ile geçerli olmaktadır). Bu düzeltme ile,
kelimelere atanacak göreceli frekansların toplamı Denklem 7.2.1.4.’de
verildi � i � ekilde bire e� itlenmektedir.
1)1( )1(0 =
�−≈
� ∞ −−∞=
W
BBr r dxxWBf (7.2.1.4)
Denklem 7.2.1.3.’de W parametresi sabit olarak alınsa dahi,
do� runun )(NVr > oldu� u alan üzerine, BBN /)1( − kadar bir olasılık
yo � unlu� u da� ıtılacaktır. Ancak bu hata, derlem büyüklü� ü (N)
sonsuza giderken sıfıra e� it olaca� ından, büyük derlemler üzerinde
yapılan çalı � malarda W parametresi belirli sabit olarak
alınabilmektedir. Dolayısı ile, Mandelbrot denkleminin uygulamaya
daha yatkın bir biçimi, Denklem 7.2.1.5.’de verildi � i � ekilde
tanımlanabilir.
)log()log()log( WrBPf NNr +−= (7.2.1.5)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
129
7.3. Otomatik � ndeksleme
Bir indeks terimin anlamla ili � kili iki i � levi vardır: temsil ve ayırt
etme. Temsil i � levi ile, indeks terimin belge içeri � ini olu� turan
muhtemel enformasyonu kar � ılaması zorunlulu� u � eklinde tarif edilir
(anma i � levi). Ayırt etme i � levi de, belge uzayındaki belgelerin
birbirlerinden ayırt edilebilmesini mümkün kılmasıdır (duyarlılık
i � levi).
Temsil ile ayırt etme arasında bir rekabet söz konusudur. Bir
ba� ka söyleyi � le, e� er bir terimin ayırt edicilik de� eri dü� ükse, belge
toplulu� undan çok sayıda belge sonuç olarak döndürülecektir, dolayısı
ile sorgu ile alakalı belge veya belgeler alakasız belgelerin kalabalı � ına
gömülecektir. Aynı, � ekilde e� er bir indeks terimin ayırt edicili � i çok
yüksekse, sorgu ile direk alakalı olmayıp, ancak çok yakın ili � kide olan
belgeler sonuç kümesinde yer almayacaktır. Uygulamada, otomatik
indeksleme ile amaçlanan bu iki i � levin, yani temsil ve ayırt etmenin,
rekabeti içindeki en yüksek de� erlere ula� maktır. Temsil ve ayırt etme
de� erlerini, rekabet içerisinde söz konusu en uygun de� erlere çekmeyi
hedefleyen pek çok indeks terim a� ırlıklandırma yöntemi
geli � tirilmi � tir (Manning and Schütze, 2003).
Temsil i � levi için, a� ırlıklandırma yöntemlerinde yaygın olarak
esas alınan indeks terim özelli � i, indeks terimin gözlenme sıklı � ıdır,
yani frekanstır. Ayırt etme için çe� itli yöntemler önerilmi � tir: ters belge
frekansı (inverse document frequency-idf), sinyal-gürültü oranı (signal-
noise ratio) ve terim ayırt etme de� eri (term discrimination value) bu
yöntemlere verilebilecek yaygın kullanımı olan örneklerdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
130
Ters belge frekansı (idf) ile belge ayırt etme i � levinin
a� ırlıklandırma için kullanımı, Bölüm 6.1.’de, yani vektör uzayı geri-
getirim modeli incelenirken gösterilmi � ti. Bu ayırt etme yönteminin
esas aldı � ı fikir: bir terimin, derlem içinde gözlendi � i belge sayısı
azaldıkça, gözlendi � i belgeler açısından ayırt edicili � inin artaca� ı
� eklindedir. Bir indeks terim, k için, ters belge frekansı de� erinin
hesaplanmasına yönelik Sparck Jones (1972) tarafından önerilen ifade,
Denklem 7.3.1.’de gösterilmi � tir.
kk
k nnn
nidf 222 loglog1log1 −+=+= (7.3.1)
“ idf” için verilen denklemde n, derlemdeki toplam belge sayısı,
nk ise, k indeks teriminin gözlendi � i belge sayısıdır. Ters belge frekansı
ölçü olarak bir indeks terimin tüm a� ırlı � ı olarak kullanılmaz. Bunun
sebebi, örne� in belge sayısı olarak sıklıkları aynı olan terimlerin
tamamı, idf de� eri olarak e� itlenir. Ancak, terimlerin her biri, her
belgede aynı sıklıkta gözlenmezler. Dolayısı ile, terimlerin belge içinde
gözlenme sıklılıkları ile ters belge frekansları birlikte kullanılır. Bu
birlikte kullanım TFxIDF olarak adlandırılır ve Denklem 7.3.2.’de
verilmi � tir.
IDFTFnntfw kkiki ×=−+×= ]loglog1[ 22,, (7.3.2)
Robertson ve Sparck Jones (1997), TFxIDF a� ırlıklandırma
� emasında belgelerin uzunluklarını da hesaba katan bir geli � tirme
önermi � leridir. Bu a� ırlıklandırma � emasında, üç enformasyon kayna� ı
kullanılmı � tır: derlem frekansı (IDF), terim frekansı (TF) ve belge
uzunlu� u. Bu indeks terim a� ırlıklandırma � emasında, farklı olarak
belge uzunlu� unu kullanımının arkasındaki fikir, uzun ve kısa belgeler
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
131
arasında, terimlerin gözlenme frekansları arasındaki farkın, terimin
“önem” ba� lamına etkisinin olmadı � ı, dolayısı ile uzun belgelerle, kısa
belgeler arasında bir aynı ölçekte ölçüm alınması için frekansların
normalle� tirilmesidir. Belge uzunlukları, içerdikleri terim sayısı
cinsinden ölçülmektedir. Dolayısı ile, i belgesindeki toplam terim
sayısı, BUi ile temsil edildi � inde, bu i belgesi için normalle� tirilmi �
belge uzunlu� u, “ NBUi = BUi / (ortalama belge uzunlu� u)” � eklinde
hesaplanmaktadır. Normalle� tirilmi � belge uzunlu� unun da hesaba
katıldı � ı a� ırlıklandırma � eması, k terimi için, Denklem 7.3.3.’de
verilmi � tir.
kii
kkiki tfNBUbbK
Kidftfw
,
,, ))(1(1
)11(
+⋅+−⋅+⋅⋅
= (7.3.3)
Denklemde, K1 ve b uyarlama sabitleridir. K1 sabiti i le terim
frekansının etkisi geni � letilir. Bu sabitin, en iyi de� eri belirlenmi � bir
derlem üzerinde yapılan denemelerle tespit edilir. TREC (Text
Retrieval Conferences) çalı � maları sırasında, K1=2 de� erinin etkin bir
de� er oldu� u tespit edilmi � tir. Uyarlama sabitlerinden ikincisi olan b
ise, belge uzunlu� unun etkisini ayarlamaktadır. Bu sabit 0 ile 1
arasında de� i � mektedir. E� er, b=0 olursa, belgelerin birden fazla konu
ba� lı � ı içermesi dolayısı uzun oldu� u kabul edilir. E� er, b=1 olursa,
belgelerin tekrarlar yüzünden uzun oldu� u kabul edilmi � olur. TREC
çalı � malarında b=0,75, en uygun de� er olarak saptanmı � tır.
Buckley (1996) ve arkada� ları tarafından, TREC-4 çalı � malarında
tanıtılan bir di � er indeks terim a� ırlıklandırma yöntemi de ltu � emasıdır
(Denklem 7.3.4.).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
132
NBU
idftfw
i
kkiki ⋅+
⋅+=
2.08.0
)1)(log( ,, (7.3.4)
Bir di � er TFxIDF türevi a� ırlıklandırma � eması da, Okapi olarak
adlandırılandır (Robertson and Walker, 2000). Okapi, kuram olarak
Poisson da� ılımını esas almaktadır, daha do� rusu 2-Poisson olarak
adlandırılan terim da� ılım yakla� ımına dayanmaktadır (Van Rijsbergen,
1979). Okapi a� ırlıklandırma � eması ile, bir terimin bir belge için
a� ırlı � ı Denklem 7.3.5.’de verilmi � tir.
idf
idfN
tfNBU
tfw
k
k
kii
kiki )
5.0
5.0log(
5.15.0 ,
,, +
+−+⋅+
(7.3.5)
Sinyal-gürültü oranı, sinyal-enformasyon kuramını esas alır
(Bölüm 3.2.3). Sinyal-enformasyon fikrinde, bir kelimenin gözlenmesi
olasılı � ı arttıkça, ta� ıdı � ı, yani kar � ıladı � ı enformasyon de� eri dü� er.
Sinyal-enformasyon fikri ile benzer � ekilde, bir terime k, ait gürültü de
hesaplanabilir (Denklem 7.3.4).
Gürültük
ki
kn
i k
ki
tf
F
F
tf
,2
1
, log�==
(7.3.4)
Denklem 7.3.4.’deki ifadede, Fk, k teriminin derlem içindeki
toplam gözlenme sıklı � ı, tfi,k ise i belgesinde k teriminin gözlenme
sıklı � ıdır. Derlemdeki toplam belge sayısı n ile temsil edilmi � tir. Bir
içeri � i temsil etmeyen, yani i � levsel olan kelimeler derlem içerisinde
daha yaygın gözlenece� i için, sahip oldukları gürültü de� eri de yüksek
olacaktır. Dolayısı ile bir k terimin sinyal de� eri hesaplanırken,
gürültünün tersi, yani tamlayanı kullanılabilir (Denklem 7.3.5.).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
133
Sinyalk −= kF2log Gürültük (7.3.5)
E � er, bir belgenin indeks terimlerine ait sinyal de� erleri büyükten
küçü� e sıralanırsa, belge uzayında çok az belgede gözlenen ve sıralama
yapılan belgeyi ayırt edenlerinin çok yüksek sinyal de� erlerine sahip
oldu� u görülür. Temsil i le ayırt etmenin enformasyonunu birlikte
kullanmak için sinyal de� eri, terimin frekansı ile çarpılır (Denklem
7.3.6.).
wi ,k = tfi ,kxSinyalk (7.3.6)
Terim ayırt etme de� eri, belirl i bir terimin, bir belgeyi di � erinden
ayırt etmek için ne kadar enformasyon sa� ladı � ının bir ölçüsüdür. Bir
terimin k, ayırt etme de� eri, ADk, iki belgenin benzerli � ini içerdikleri
terimler üzerinden hesaplanması ile elde edilen benzerlik de� eri, BD
ile, k terimi belgelerden çıkarıldıktan sonra hesaplanan benzerlik
de� eri, BDk, kar � ıla� tırılarak hesaplanabilir (Denklem 7.3.7.).
ADk = BDk - BD (7.3.7)
Ayırt etme de� erleri hesaplanan terimler, daha sonra üç gurup
altında toplanır:
1. Ayırt edicilik de� eri pozitif olan terimler. Bu terimler, güçlü indeks terimlerdir.
2. Ayırt edicilik de� eri sıfır olan terimler. Bu terimlerin indeks terimler listesinden çıkartılması veya bırakılması belgeler arası benzerli � i etkilemez.
3. Ayırt edicilik de� eri negatif olan terimler. Bu terimler, zayıf indeks terimlerdir ve çıkartılmaları belgelerin benzerli � ine katkıda bulunmaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
134
Terim ayırt etme de� eri de, öncekilerde oldu� u gibi yine
terimlerin frekansı ile çarpılarak indeks terim a� ılı � ı olarak
kullanılabilir (Denklem 7.3.8.).
wi ,k = tfi ,k x ADk (7.3.8)
7.3.1. � ndekslemenin Kapsamı ve Ter im Öznelli � i.
Geleneksel olarak, bir indeksleme sisteminin ba� arımının iki
etmene ba� lı oldu� u dü� ünülür: indekslemenin kapsamı ve terim
öznelli � i. Kapsamlı bir indeks, çok sayıda indeks terim içerir, fakat
kapsamı dar olan bir indeks, sadece en önemli konuları, kavramları
kar � ılayan indeks terimleri içerir. Daha kapsamlı bir indeks demek,
daha fazla belgenin geri-getirilece� i anlamına gelir ve anma de� eri
yükselir. Aynı zamanda, geri-getirilen belgeler arasındaki alakasız
belgelerin oranı da artar, dolayısı ile duyarlılık azalır. Anma ve
duyarlılık arasındaki rekabet bu ba� lamda ortaya çıkar.
Di � er taraftan, terim öznelli � i, indeks terimlerin konu ve
ba� lıkları kesinlik içerisinde kar � ılayabilmeleri ile alakalıdır. E � er
indeks terimler çok yüksek de� erlerde öznelli � e sahiplerse, bu
duyarlılı � ı arttırabilir, yani çok az sayıda belge geri-getirilece� i için
ço� u sorgu ile alakalı olacaktır. Geni � anlam içeren terimler, dar anlam
kar � ılayan terimlerde oldu� u � ekilde alakalı dokümanlarla, alakasızlar
birbirinden ayırt etmekte kullanılamazlar. Dar ve öznel terimlerin
kullanılması anmaya etki eder, bunun sebebi ise, alakasız belgelerle
birlikte bir çok alakalı belgenin de geri-getirilmemesidir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
135
Ayırt edicilik de� eri sıfıra yakın, dü� ük frekanslı, dar anlamlı
kelimeleri, e� anlamlı kelimeler sözlü� ü kullanarak daha geni � bir
gurup altında toplamak mümkündür. Aynı � ekilde, ayırt edicilik de� eri
negatif olan, yüksek frekanslı, geni � terimleri de, bir araya getirerek,
yani kelime gurubu olarak de� erlendirerek kullanmak mümkündür.
Örne� in, “ i � ” ve “ güç” kelimelerini tek ba� larına dü� ündü� ümüzde,
kavram olarak çok geni � tirler. Ancak “ i � gücü” � eklinde ele
alındı � ında, ekonomide kullanılan bir kavramı kar � ılarlar ve tekil
oldukları durumdan daha dar bir terimsel anlam kar � ılarlar.
7.3.2. Kelime Gurupları ile � ndeksleme
Tek kelimeden ibaret indeks terimler yerine, iki veya daha fazla
kelimeden olu� mu� , kelime gurupları ile indeks terim olu� turmak, geri-
getirim duyarlılı � ını artırıcı bir etki yaratır. Tekil kelimelerden indeks
terimler yaratmak iki çe� it meseleyi gündeme getirmektedir (Zhai et al.,
1997):
1. Tek kelimeden olu� an indeks terimler yanıltıcı olabilir. Sözcüksel atom11 ba� lamında, örne� in “ hot dog” (sosisli sandviç), kelime gurubunu olu� turan bireysel kelimeler birlikte kar � ıladıkları anlamı ta� ımamaktadır ve bireysel olarak indeks terim olarak kullanılırlarsa, çok yanıltıcı olurlar.
11 Zhai ve Evans, “sözcüksel atom” terimini, anlamca tutarlı kelime gurubu olarak tanımlamaktadır. Sözcüksel atomlar, özel isimlerde, deyimlerde ve bir çok isim tamlamasında bulunabilmektedir. Sözcüksel atomu olu� turan kelimelerin, tekil anlamları ile, birlikte ifade ettikleri anlam arasında bir ili � ki yoktur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
136
2. Çok genel olabilirler. Örne� in, bireysel kelime olarak “ junior” (çömez) ve “college” (yüksekokul) kelimeleri, “college junior” (yüksekokul çömezi, yani yüksekokulda yeni olan, tecrübesiz) kelime gurubunu, “ junior college” (yüksekokul, yani üniversitenin ilk iki yıllık e� itimini veren yer) kelime gurubundan ayırt etmek için çok genel kalmaktadır.
Zhai ve arkada� ları, yukarıdaki tespitlerin ardından, iki hipotez
öne sürmü� lerdir:
1. Sözcüksel atom ba� lamındaki kelime guruplarının, onları olu� turan bireysel kelimeleri yerine indekslenmesi, hem duyarlılı � ı hem de anmayı arttırır.
2. Bireysel kelimeleri desteklemek için, sözdizimsel kelime guruplarını kullanmak, örne� in “ junior college” , anmaya bir ters etkide bulunmadan, duyarlılı � ı arttıracaktır. Bu � ekildeki kelime guruplarının sayısını arttırmak, duyarlılıktaki ilerlemeyi arttıracaktır.
Bu hipotezler, TREC-5 çalı � malarının do � al dil i � leme aya� ında,
Zhai ve arkada� ları tarafından test edilmi � tir (CLARITTM takımı12).
Sonuçlar göstermi � tir ki, bireysel kelimeler yerine sözcüksel atomların
kullanılması, ortalama duyarlılıkta az da olsa tutarlı bir artı � ın oldu� unu
göstermi � tir. Di � er taraftan, bireysel kelimelerin, sözdizimsel kelime
gurupları ile desteklemesi, geri-getirim ba� arımında tutarlı ve anlamlı
bir artı � ortaya koymu � tur. Ancak, kelime guruplarının eklenmesi bazı
sorguların lehine olurken, bazı sorguların aleyhine sonuçlar vermi � tir. Kelime guruplarının faydasının en yüksek oldu� u durumlar, aynı
12 CLARIT, CLARITECH firmasının kayıtlı ticari markasıdır ve Computational-Linguistic Approaches to Retrieval and Indexing of Text için akronomidir. Bu sistem Carnegie Mellon Üniversitesinde geli � tirilmi � tir (Laboratory of Computational Linguistics, CMU Pittsburgh).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
137
kelime gurubunun hem sorguda hem de belgede gözlendi � i zamanlar
olmu� tur.
Bilgi geri-getirim sistemlerinin ço� u tekil kelimeleri indeksleme
için kullanır. Ancak, sıklıkla indekslere, basit istatistiksel yöntemlerle
tespit edilmi � kelime gurupları da destek olmak amacıyla alınır.
Dilbilimsel yöntemlerle tespit edilecek kelime guruplarının, geri-
getirim ba� arımı üzerinde daha etkili sonuçlar verece� i dü� ünülebilir.
Fakat, TREC çalı � malarında, dilbil imsel yöntemler, istatistiksel
yöntemlerden anlamlı � ekilde farklılık yaratamamı � tır.
Basit ve klasik kelime gurubu olu� turma yöntemlerinden biri,
SMART sistemi içinde kullanılan yöntem olan, gövdelenmi �
kelimelerin yan yana getirilmesidir. � ndeksleme için kullanılacak olan
kelime gurupları, gözlenme sıklı � ı yüksek olanlardan seçilmekte ve
daha sonra, bireysel kelimelerin, indeks terim olarak a� ırlıklandırılması
ile aynı � ekilde a� ırlık hesaplanmaktadır (Buckley et al., 1995). Xerox
takımı bu basit SMART yöntemi ile hafif ayrı � tırma (light parsing)
yöntemini TREC-5 çalı � masında kar � ıla� tırmı � tır. Sonuç olarak,
öni � lem a� amasında çok zaman harcama pahasına, hafif ayrı � tırmanın,
basit SMART yöntemine göre nispeten daha iyi oldu� u bulunmu � tur.
Hull ve arkada� ları (1997) � u sonuçlara varmı � lardır:
“ Her � eye ra� men, bir çok sebepten ötürü, bu yakla� ımın uzun vadede kullanı� lı olaca� ı konusunda iyimseriz: 1-) � ngilizce dı� ındaki bir çok dilde, Bilgi geri-getirim sahasından daha yo� un bir � ekilde, dilbilim sahasında çalı � malar yapılmaktadır. Bu diller için geli � tirilen biçimbirimsel analiz yordamları, basit gövdeleme yordamlarını, � ngilizce için geli � tir ilmi � gövdeleme yordamları kadar ya� lanınca, ba� arım olarak geçeceklerdir. 2-) Bilgisayarlar daha güçlü hale geldikçe, i � lem zamanları dü� meye devam edecek, dolayısı ile karma� ık metin analizlerini ekonomik olarak mümkün hale getirecektir.”
(Hull et al., 1997)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
138
7.4. Hesaplamalı Dilbilim Yöntemler i.
Son yıllarda, çok farklı bilgi geri-getirim teknikleri, TREC (Text
REtrieval Conferences) çalı � maları içerisinde sınandı ve kar � ıla� tırıldı.
Örne� in, 1997 yılında düzenlenen TREC-6 çalı � masına, 12 ülke ve 21
firmadan 51 ki � i katılmı � tır (Voorhees and Harman, 1998). Tüm
katılımda bulunan takımlar, aynı talim ve test malzemelerini
kullanmı � lardır. Böylece, sonuçlar birbiri ile kar � ıla� tırılabilmi � tir.
Sparck Jones (1995), a� a� ıdaki noktalara de� inerek TREC
deneylerinin sonuçlarını vermi � tir:
1. Model ile ilgil i sorular.
1.1. Dilbilimsel esasa dayalı modeller, istatistik esasındaki modellerden daha iyi midir? CMU’nun çalı � ması (CLARIT), dilbilimsel yöntemlerinde iyi ba� arım de� erlerine ula� tı � ını göstermi � tir, ancak istatistiksel yöntemlerden daha iyi de� ildir.
1.2. Dilbilimsel esasa dayalı kelime gurupları, e� le� tirme ile olu� turulanlardan daha de� erli midir? Dilbilimsel esasa dayalı kelime guruplarının kullanımı, yan yana olma ile belirlenen kelime guruplarının kar � ısında bir kazanç sa� lamamı � tır
2. Kelime da� arcı � ı ile ilgil i sorular.
2.1. Bireysel kelimelerle indeks terim olu� turma kar � ısında, kelimeleri de� i � ik biçimlerde indeksleme fayda getirir mi? Bazı çalı � malarda az da olsa ba� arım artırımı sa� lanmı � tır, ancak bireysel kelime indekslemeden anlamlı � ekilde farklılık ortaya konmamı � tır.
2.2. Dilbilimsel bilginin artırımı gerekli midir? Elle olu� turulan e� anlamlılar sözlü� ü, anlamlı bir ba� arım artırımı sa� layamamı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
139
3. Tanımlama ile ilgili sorular.
3.1. Dilbilgisine dayalı indeksleme yöntemleri, istatistik esaslı indeksleme yöntemleri kar � ısında daha etkili midir? Belge terimlerinin seçiminde kullanılan yöntem içinde, dilbilgisi özellikleri açık bir kazanç sa� lamamı � tır.
3.2. � statistiksel veya dilbilimsel kelime gurupları, bireysel kelimelere göre daha iyi midir? Bireysel kelimelere nazaran, kelime guruplarının kullanımı az da olsa lehte sonuçlar vermi � tir.
Strzalkowski ve arkada� ları (1998), do � al dil bilgi geri-getirim
için düzenlenen TREC-6 çalı � masının sonuçlarını � öyle özetlemektedir:
“ Çalı � malardan edindi � imiz temel tespit, do� al dil i � leme tekniklerinin, daha iyi indeksleme, sorgulara ait terimlerin daha iyi temsil edilmesi gibi beklentilerimizin çok uza� ında sonuçlar vermemi � oldu� udur. Dilbilimsel birliklerin kullanılması, örne� in kelime gurupları, ba� -niteleyen çiftleri ve isimler geri-getirim duyarlı� ının geli � tir ilmesine yardımcı olmu� tur, ancak kazanım çok az düzeylerdedir.”
(Strzalkowski et al., 1998)
Yukarıdaki alıntılar, do� al dil i � leme veya di � er adıyla
hesaplamalı dilbilim yöntemlerinin, bilgi geri-getirim içerisindeki
durumunu özetlemektedir. TREC ba� lamındaki çalı � malardan elde
edilen sonuçlar, hesaplamalı dilbilim yöntemlerinin etkileri konusunda
sonuçsuz kalmaktadır. Ancak, bu durum hesaplamalı dilbilim esasında
bilgi geri-getirim çalı � malarının faydasız veya nafile u� ra� lar oldu� u
anlamına gelmemektedir. TREC içerisindeki en iyi sistem bile,
öngörülen ula� ılabilir ba� arım seviyesine varmamı � tır. Dolayısı ile,
geri-getirim tekniklerinin geli � tirilmesine olan ihtiyaç ilk zamanlardaki
kadar kuvvetlidir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
140
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
141
8. BA � ARIM ÖLÇÜTLER �
Bilgi geri-getirim sistemlerinin ana hedefi kullanıcının, yani
insanların enformasyon ihtiyaçlarını kar � ılamaktır. Bir insanın kendi
ihtiyaçları ile alakalı buldu� u enformasyon, bir ba� ka kullanıcı için pek
o kadar da alakalı olmayabilir. Hatta, insanlar sıklıkla verilen bir sorgu
ile geri-getirilen belgelerin alakalı oldukları konusunda anla� mazlık
gösterirler (Hersh et al., 1995). � nsanlar arasındaki anla� mazlı � ın ortaya
çıkması ihtimali, belgeler ile sorgular arasındaki alakanın mutlaklıktan,
bir derece alakalı olu� a do� ru gidi � i yönünde artı � gösterir. Ayrıca,
alaka sadece sorgu ve eldeki belge toplulu� una ba� lı da de� ildir,
alakaya karar veren ki � inin o anki istekleri, yani ihtiyaç ba� lamı ile de
yakından ili � kilidir. Belirtildi � i gibi, “BGG sistemlerinin hedefinde
insanların enformasyon ihtiyacını kar � ılamak” oldu� u için, öznellikten
kurtulmanın bir yolu da yoktur. Bu yüzden, bilgi geri-getirim
sistemlerinin ba� arımlarının ölçülmesi kendi do � asında içinde, sorunlu
bir durum te� kil eder.
8.1. Anma ve Duyar lılık Esasında Ölçüt Tür ler i.
BGG sistemlerinin, ba� arımlarının de� erlendirilmesinde yaygın
olarak kullanılan yöntemler, anma (recall) ve duyarlılık (precision)
fikrini esas almaktadır (Baeza-Yates and Ribeiro-Neto, 1999). Bu
yüzden, BGG sistemlerinin ba� arım ölçütlerini vermeden önce, anma
ve duyarlılık fikrinin tanıtılmaya ihtiyacı vardır. BGG u� ra� sahasında
geri-getirim meselesi, � u � ekilde kurgulanabilir: bir sorgu kar � ısında,
eldeki belge uzayı içinde alakalı olan belgeler toplulu� unu hedef
kümesi olarak; sistemin, belge toplulu� undan seçerek kullanıcıya
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
142
döndürdü� ü belge toplulu� unu da, seçim kümesi olarak
adlandırdı � ımızı kabul edelim. Söz konusu durum, � ekil 8.1.1.’de
gösterildi � i gibi çizge olarak betimlenebilir. Belge toplulu� u içindeki
her belge için, sistem tarafından seçilmi � “ olma” ve “olmama” ile sorgu
ile alaka açısından, hedefte “ olma” (alakalılar) ve “ olmama”
(alakasızlar) durumları birbirinden ba� ımsız olarak geçerlidir. E � er
seçim (S) ve hedef (H) ile yapılan sınıflandırmayı iki olasılık de� i � keni
olarak tanımlarsak, bu iki olasılık de� i � keninin, belge uzayı üzerindeki
birle� ik da� ılımları bir 2x2 ihtimal tablosu � eklinde özetlenebilir
(Çizelge 8.1.1.).
Belge Uzayı (B)
Hedef BelgeToplulu � u� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
Seçilen BelgeToplulu � u
dp yn
dn
yp
�ekil 8.1.1. Anma ve duyarlılık ölçümlerini betimleyen çizge. Seçilen = yp + dp;
Hedef = dp + yn; dn = B - (Seçilen+Hedef).
Seçim, S de� i � keni belge uzayını seçilmi � ve seçilmemi � olmak
üzere iki parçaya ayırır. Hedef, H de� i � keni de, belge uzayını, gerçekte
sorgu ile alakalı olanlar ve olmayanlar diye iki parçaya ayırır. Dolayısı
ile, belgelerin her biri için seçilmi � olma/olmama ve hedefte
olma/olmama � eklinde ikili bir sınıflandırma, yani dört guruptan birine
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
143
ait olma durumu söz konusu olur. Bu guruplar: seçilmi � ancak gerçekte
alakasız olan belgeler, yani yanlı � -pozitifler (yp); seçilmi � ve gerçekte
de alakalı olan belgeler, yani do� ru-pozitifler (dp); seçilmemi � ancak
gerçekte alakalı olan belgeler, yani yanlı � -negatifler (yn); seçilmemi �
ve gerçekte de alakasız olan belgeler, yani do � ru-negatiflerdir (dn).
Çizelge 8.1.1: Seçilmi � (S) ve hedef (H) olasılık de� i � kenlerinin birle� ik da� ılımının 2x2 olasılık tablosu olarak gösterimi.
Sistem Alakalı (h) Alakasız (~h) Toplam
Seçilmi � dp yp dp+ypSeçilmemi � yn dn yn+dn
Toplam dp+yn yp+dn
Gerçek
Duyarlılık (D), bir sistemin seçti � i, gerçekte alakalı belge
sayısının (dp), toplam seçilmi � belge sayısına (dp+yp) oranı � eklinde
tanımlanır:
ypdp
dpD
+= (8.1.1)
Anma (A), bir sistemin seçti � i, gerçekte alakalı belge sayısının
(dp), toplam hedef belge sayısına, yani gerçekte alakalı olan toplam
belge sayısına (dp+yn) oranı � eklinde tanımlanır:
yndp
dpA
+= (8.1.2)
Sistemlerin ba� arımı, anma ve duyarlılık ile de� erlendirilirken,
genellikle iki ölçüt birbiri ile rekabet içinde kullanılır, yani bir sistemde
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
144
her ölçütünde en iyi de� erleri yakalanmaya çalı � ılır (Belge uzayındaki
tüm belgeleri geri-getiren (seçen) bir sistem çok yüksek bir anma
de� erine sahip olur, ama çok dü� ük bir duyarlılı � ı olacaktır.). Bir
sistem için iki ölçütün söz konusu rekabeti, temsili olarak � ekil
8.1.2.’de betimlenen çizgeye benzer � ekilde olacaktır.
1
10
D
A
�ekil 8.1.2. Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki rekabetin
temsili çizgesi.
Anma ve duyarlılık ölçülerini, iki ayrı ölçüt olarak ele alıp, bir
sistemin ba� arımını aralarındaki rekabet ile izah etmenin yanında, iki
ölçütü birle� ik olarak, yani tek bir ölçüt � eklinde tanımlamak ve
kullanmak mümkündür. Bunun bir yolu, van Rijsbergen (1979)
tarafından tanıtılan E-ölçüsünden türetilmi � F-ölçüsünü ( F = 1 – E )
kullanmaktır:
AD
F1
)1(1
1
αα −+=
(8.1.3)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
145
Denklem 8.1.3’de, α ile gösterilen de� er, anma (A) ve duyarlılık
(D) ölçütlerinin, F-ölçütüne katkılarının a� ırlı � ıdır. A � ırlı � ın, yani α
de� erinin 0.5 seçilmesinin anlamı A ve D ölçütlerinin katkısını
e� itlemek demektir. A � ırlıkları e� itlenmi � , A ve D ölçütleri ile F-ölçütü’ nün sadele� tirilmi � hali )/(2 NAAN + biçiminde olur.
Yukarıda bahsi geçen ölçütlerin dı � ında, � ekil 9.1.1. ile
betimlenen anma ve duyarlılık çizgesinden, ba� ka ba� arım ölçütleri
türetmek de mümkündür. Do� ruluk (accuracy) ve hata (error) oranları
türetilebilecek ölçütlerden ikisidir. Do� ruluk oranı (DO), belirli bir
sistemin, toplam do � ru seçiminin (dp+dn), belge uzayındaki toplam
belge sayısına (B) oranıdır:
ynypdndp
dndpDO
++++= (8.1.4)
Hata oranı (H), söz konusu sistemin toplam yanlı � seçiminin (yp
+ yn), belge uzayındaki toplam belge sayısına oranıdır:
ynypdndp
ynypHO
++++= (8.1.5)
Ancak do� ruluk ve hata oranlarının, ba� arım ölçüsü olarak
kullanılmasında sakıncalar vardır. Söz konusu ölçütlerde, dn içindeki
belge sayısının, yani hem seçim kümesinde, hem de hedef kümesinde
yer almayan belgelerin sayısının, di � er de� erlere nazaran çok büyük
olması, ölçütün sonuç de� erlerinin çok küçük olmasına sebep olur.
Anma ve duyarlılık ölçütlerinin, do� ruluk ve hata ölçütleri yerine BGG
sistemlerinin ba� arım ölçüsü olarak kullanılmasının faydaları � öyledir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
146
• BGG sistemleri açısından önemli olan dp, yp ve yn de� erleri sayısal olarak küçüktür; Do� ruluk oranı, küçük sayısal de� er de� i � imlerine çok fazla duyarlı de� ildir, fakat duyarlılık ve anma bu konuda hassastır.
• Di � er durumlar e� itken, F-ölçütü daha çok do� ru seçilmi � gerçekte alakalı, yani pozitif hedef belgesi oldu� u durumları gözetir. Buna kar � ın, do� ruluk oranı sadece hatalara kar � ı hassasiyet gösterir. Ancak, BGG sistemlerinde amaçlanan sorgu ile alakasız belgelerin seçim kümesine alınmı � olması pahasına, alakalı belgelerin seçim kümesinde olmasıdır. Bir ba� ka söyleyi � le, seçim kümesine hiçbir belgeyi almayan bir BGG sisteminin, do� ruluk oranı %100 olacaktır, ancak hiçbir belgenin seçilmemesi istenen bir durum de� ildir.
• Duyarlılık ve anma ölçütlerinin kullanımı, BGG sistemlerinin de� erlendirilmesinde, seçilmemi � alakalı belgelerin de maliyet cinsinden de� erlendirmeye katılabilmesine imkan tanımaktadır.
Çizelge 9.1.2.’de anma (A), duyarlılık (D), F-ölçütü (α=0.5) ve
do� ruluk (DO) oranının 1000 belgelik örnek bir belge uzayı için
hesaplamaları listelenmi � tir (Manning and Schütze, 2003).
Anma ve duyarlılık fikrini esas alan, ancak nadir kullanılan bir
sistem ba� arım ölçütü de, seçilenlerden gerçekte alakasız olan
belgelerin sayısının (yp), tüm alakalı, yani hedef kümesinde olan
belgelerin sayısına (yp+dn) oranı ile hesaplanan yanlı � a dü� me (Y:
fallout) ölçütüdür:
ypdn
ypY
+= (8.1.6)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
147
Çizelge 9.1.2: 1000 belgelik örnek bir belge uzayı için anma (A), duyarlılık (D), F-ölçütü (α=0.5) ve do� ruluk (DO) oranı ölçüm listesi. Üstteki, (a) listede artan F-ölçütü kar � ısında dü � en do� ruluk oranı, alttaki, (b) listesinde e� it do� ruluk oranı varken artan F-ölçütü verilmi � tir. F-ölçütü “seçilmi � alakalı belgelerin”, (dp) ço� almasına duyarlı iken, do� ruluk oranının, sadece sınıflandırma hatasına duyarlılık göstermektedir.
(a)
dp yp yn dn D A F DO
25 0 125 850 1.000 0.167 0.286 0.875
50 100 100 750 0.333 0.333 0.333 0.800
75 150 75 700 0.333 0.500 0.400 0.775
125 225 25 625 0.357 0.833 0.500 0.750150 275 0 575 0.353 1.000 0.522 0.700
(b)
dp yp yn dn D A F DO50 0 100 850 1.000 0.333 0.500 0.90075 25 75 825 0.750 0.500 0.600 0.900100 50 50 800 0.667 0.667 0.667 0.900150 100 0 750 0.600 1.000 0.750 0.900
Yanlı � a dü� me (Y) ölçütü, bazı durumlarda, seçilmi � ancak
gerçekte alakasız belge sayısı küçük, yani yp de� eri dü� ük olan bir
sistemin, gerçekle� tirilmesinin ne kadar güç oldu� unu göstermek için
de kullanılır. E� er, hedef kümesinde yer almayan belgelerin sayısı
(dn+yp) çok büyükse, yn de� erinin dü� üklü� ünden, yani seçilmemi �
ancak alakalı olan belge sayısının azlı � ından kaynaklanan, dü� ük anma
de� eri kaçınılmaz olur. Bir ba� ka söyleyi � le, arka plandaki, hedef küme
dı � ında kalan belge yı � ının çok büyük olması sebebiyle, bazı belgelerin
yanlı � sınıflandırılması kaçınılmaz olur.
Anma (A) ve duyarlılık (D) ölçütleri rekabetine benzer � ekilde,
yanlı� a dü� me (Y) ve anma (A) ölçütlerinin de rekabeti ile sistem
ba� arımlarını de� erlendirmek mümkündür. Söz konusu ölçütlerle
yapılan de� erlendirme, de� i � ik yanlı � a dü� me (Y) de� erlerinin, anma
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
148
(A) de� eri üzerindeki etkisini ortaya koyacaktır. Bu durum, öncül
etmenlere (örne� in öncül sarsıntılar, vb.), duyarlılı � ı sabitlenebilen bir
deprem tahmin edicisi üzerinden örneklenebilir. Belirli bir öncül etmen
duyarlılık ayarında, verilen bir yanlı � a dü� me (Y) de� erine kar � ılık
gelen anma (A) de� eri, deprem tahmin edicisinin tespit etmesi
beklenen ortalama do � ru deprem sayısını, oran olarak temsil eder.
Yani, belirli bir öncül etmen duyarlılık ayarında, yanlı� a dü� me de� eri
100 deprem alarmında 1 tane olan bir deprem tahmin edicisi için,
herhangi bir ki � i, kar � ılık gelen anma de� erine göre, örne� in 0.05
olsun, alarmlardan %95’ inin gerçek deprem alarmı, %5’ inin yanlı � deprem alarmı olmasını bekleyecektir. Yanlı � a dü� me (Y) ölçütü bir
sistemin hedef kümesi dı � ındaki belgeleri, reddetmede ne kadar ba� arılı
oldu� unun bir ölçütü olarak da yorumlanabilir (Blair, 1990).
8.2. Anma ve Duyar lılık Esasında Ba� ar ımın Ölçümü.
BGG sistemlerinin ba� arımı, geri-getirilen (seçim kümesi)
belgeler kümesinin, kullanıcıya sıralı bir liste � eklinde çıktı olarak
sunulması a� amasında, sorgu ile alakalı belgelerin alakasız belgelerden
ne kadar önce sıralamaya alındı � ı esasına dayalı olarak ölçülür. Bir
ba� ka söyleyi � le, BGG sistemlerinin ba� arımı, geri-getirilen belgeler
kümesindeki belgelerin kendi içlerinde ne � ekilde sıralandı � ı esasına
dayanan ölçütlerle de� erlendirilir, yani sıralama esaslı ölçütlerdir.
Çizelge 9.2.1.’de BGG sistemleri için sıralamanın neden önemli oldu� u
ba� arım ölçümleri üzerinden örneklenmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
149
Çizelge 9.2.1: BGG sistemlerinin sıralama esasına dayalı de� erlendirme örne� i. Sütunlarda belgelerin farklı üç sıralaması bulunmaktadır: √ simgesi belgenin alakalı oldu� unu, × simgesi alakasız oldu� unu göstermektedir.
Sıra_1 Sıra_2 Sıra_3d1: √ d10: × d6: ×d2: √ d9: × d1: √d3: √ d8: × d2: √d4: √ d7: × d10: ×d5: √ d6: × d9: ×d6: × d1: √ d3: √d7: × d2: √ d5: √d8: × d3: √ d4: √d9: × d4: √ d7: ×d10: × d5: √ d8: ×
5 belgede duyarlılık 1 0 0.410 belgede duyarlılık 0.5 0.5 0.5ara-de� er-tahminsiz ortalama duyarlılıkara-de� er-tahminli
ort. duyar. (11-nokta)e� it-ölçek sıralaması 1 0 0.56
De� erlendirme Ölçütü
1 0.3544 0.5726
1 0.5 0.644
Çizelge 9.2.1.’de sıralamalar 5 ayrı ölçüte göre
de� erlendirilmi � tir: 5 belge de duyarlılık, 10 belgede duyarlılık, ara-
de� er-tahminsiz ortalama duyarlılık, ara-de� er-tahminli ortalama
duyarlılık (11-nokta) ve e� it-ölçek sıralaması. Örnek verilen 10 belgeyi
sadece yalın duyarlılık (%50) ile ölçtü� ümüzde, geri-getirim
kümesinde (seçim) 5 alakalı ve 5 alakasız belge oldu� undan, üç
sıralama da birbirinden farksız çıkıyor. Ancak, geri-getirilen belgelerin
sonuç listesi oldu� u dü� ünüldü� ünde, sıralanı � ları ile paralel olarak
yukarıdan a� a� ıya do� ru göz-atan bir kullanıcı için, 1. sıralamanın, 2.
sıralamadan daha iyi oldu� u çok açıktır. Bu durum, herhangi bir
kullanıcının, örne� in Web sayfalarını tararken sıklıkla yaptı � ı göz-atma
� eklidir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
150
BGG sistemlerinin ba� arım ölçümü için tanıtaca� ımız ölçütlerden
ilki, belirli bir kesme (cutoff) de� erine kadar olan belgeler üzerinden
duyarlılık hesaplanmasıdır. Çizelge 9.2.1.’de 5 ve 10 kesme de� erleri
için duyarlılık hesaplanmı � tır (di � er kullanımı yaygın kesme de� erleri
20 ve 100 belgedir.). Bu ölçütle, bir sistemin geri-getirim sonuç
kümesinde yaptı � ı sıralamanın, birçok farklı uzunluktaki ba� langıç
parçasına bakarak, sistemin alakalı belgeleri alakasız belgelerden önce
ne derece bir ba� arımla sıraladı � ı konusunda fikir sahibi olunur.
Ara-de� er-tahminsiz ortalama duyarlılık (uninterpolated average
precision), bir çok duyarlılık de� erini tek bir sınama de� erine
kümelemektedir: sıralamanın ba� ından itibaren, her alakalı belgenin
oldu� u nokta için duyarlılık hesaplanarak, bu de� erlerin ortalaması
bulunur. Örnek olarak, Çizelge 9.2.1’deki 1. sıralama için duyarlılık
de� eri 1.0’dır. Çünkü, son alakalı belge olan d5’ dir ve bu belgeye
gelene kadar gözüken d1, d2, d3 ve d4 belgelerinin tamamı alakalıdır.
Dolayısı ile, ortamla duyarlılık 1.0’dır. Ancak, örne� in 3. sıralamada,
alakalı belgeler için hesaplanan duyarlılık de� erleri � öyledir: 1/2 (d1),
2/3 (d2), 3/6 (d3), 4/7 (d5) ve 5/8 (d4); dolayısı ile ara-de� er-tahminsiz
ortalama duyarlılık de� eri, be� duyarlılık de� erinin ortalaması olan
0.5726’dır. E� er, geri-getirilen belgeler içinde, ba� ka alakalı belgelerde
varsa, hesaplama söz konusu belgelere do� ru geni � letilmelidir. Ara-
de� er-tahminsiz ortalama duyarlılık hesabında, alakalı olup, geri-
getirilen seçim kümesinde olmayan belgelerin duyarlılı � ı 0 (sıfır)
olarak kabul edilir. Bu yüzden söz konusu ortalama duyarlılık, dolaylı
olarak anma’yı da hesaplar, yani geri-getirilen sonuç kümesinde alakalı
olan belgelerin yüzdesidir (bu durum, seçim kümesinde yer almayan
hedef belgelerin, yani gerçekte alakalı olup seçilmemi � belgelerin (yn)
duyarlılı � ının 0 olarak, ortalama duyarlılık hesabına katıldı � ı fikrinden
kaynaklanır.).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
151
Ara-de� er-tahminli ortalama duyarlılık (interpolated average
precision) ölçütü anma ölçümünü esas alır. Duyarlılık de� erleri, çe� itli anma de� er seviyelerinde hesaplanır; örne� in 11-nokta ortalama
duyarlılık hesabında %0, %10, %20, %30, %40, %50, %60, %70, %80,
%90 ve %100 anma de� er seviyeleri için duyarlılık hesaplanarak
bulunur (bu en yaygın kullanılan � eklidir). Anma’ nın α de� eri için,
duyarlılı � ın sayısal de� eri olan β, sıralanmı � listedeki alakalı belge
oranının, α de� erine e� it oldu� u noktada hesaplanır. Listede a� a� ı
do� ru inerken, bir α de� erine kar � ılık gelen belgeye kadar hesaplanan
duyarlılık de� erinde artı � varsa, artı � boyunca belgeler için hesaplanan
en yüksek duyarlılık de� eri söz konusu anma düzeyinin duyarlılık
de� eri olarak alınır. Örne� in, 3. sıralamada %60 anma düzeyinde,
hesaplanan ara-de� er-tahminli duyarlılık 4/7 de� ildir (yani d5
belgesindeki duyarlılık de� eri), çünkü %60 anma de� erine son belgede,
yani d8 belgesinde ula� ılır (geri-getirilen 5 alakalı belgenin belge
uzayındaki tüm alakalı belgeler oldu� u kabul edilerek). Bu noktadaki
duyarlılık de� eri 5/8 oldu� undan ve 4/7 de� eri bu de� erden küçük
oldu� u için, %60 anma de� erine kar � ılık gelen ara-de� er-tahminli
ortalama duyarlılık 5/8 olacaktır. Buradaki bakı � açısı, kullanıcının
duyarlılık arttıkça, listeden a� a� ı do � ru göz atmayı sürdürece� i
varsayımını esas almaktadır. � ekil 9.2.1’de, 3. sıralama için verilen iki
grafik sırasıyla, ara-de� er-tahminsiz ve 11-nokta ara-de� er-tahminli,
anma-duyarlılık e� rilerini göstermektedir (precision-recall curves).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
152
1
0
D
1A (a)
1
0
D
1A (b)
�ekil 9.2.1: Anma-duyarlılık e� risinin iki örne� i. � ki örnek de, Çizelge 9.2.1’de
verilen 3. sıralamaya aittir: (a) ara-de� er-tahminsiz; (b) ara-de� er-tahminli.
BGG sistemlerinin ba� arım de� erlendirmesi için, Çizelge 9.2.1.’de verilen e� it-ölçekli sıralama ( normR ), de� erlendirme altındaki
sıralamaları birbirleri ile nicel olarak kar � ıla� tırılmasını sa� lar, yani 0
(sıfır) ile 1 (bir) arasında bir gerçek sayıya indirger (Yao, 1995):
���
�
�−+= +
−+
max
12
1
R
RRRnorm (8.2.1)
Denklem 8.2.1.’de verilen e� it-ölçek sıralama denkleminde: +R
simgesi ile, sıralama içinde alakalı olan her belgeden sonra gelen
alakasız belge sayıları toplamı; −R simgesi ile, sıralama içindeki her
alakasız belgeden sonra gelen alakalı belge sayıları toplamı; +maxR
simgesi ile +R ’ ın ve −R ’ in alabilece� i en büyük de� er ifade edilmektedir ( }max{}max{max
−++ == RRR ). Örne� in Çizelge
9.2.1.’deki 3. sıralama için, +R de� eri: 4 alakasız (d1), 4 alakasız (d2),
2 alakasız (d3), 2 alakasız (d5), ve 2 alakasız (d4) belge sayılarının,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
153
toplamı olan 14’ tür. +maxR de� eri ise, e� er geri-getirim kümesinin belge
sayısını en çok 10 olarak kabul edersek, 5 alakalı ve 5 alakasız belgenin
1. sıralamada oldu� u gibi dizilmesi ile elde edilen, 25’e e� it olacaktır.
BGG sistemlerinin ba� arımlarının ölçülmesinde, kapsam (K) ve
özgünlük (Ö) olarak tanımlanan, iki ölçüt de kullanılmaktadır
(Korfhage, 1997). Bu ölçütlere ait e� itlikler biçimsel olarak Denklem
8.2.2. ve 8.2.3.’de verilmi � tir.
URK k /= (8.2.2)
ku
u
RR
RÖ
+= (8.2.3)
Denklem 8.2.2. ve 8.2.3.’de, U kullanıcı tarafından daha önceden
belge uzayında oldu� u bilinen alakalı belgeler kümesidir. Denklemde
kR simgesi ile, sistemin sonuç, yani geri-getirim kümesinde,
kullanıcının daha önceden alakalı oldu� unu bildi � i belgelerden olu� an kısmı; uR simgesi ile de, daha önceden alakalı oldu� unu bilmedi � i
belgelerden olu� an kısım temsil edilmektedir.
Yukarıda açıklanan, anma ve duyarlılık fikri esasına dayalı
ölçütlerden her biri, BGG sistemlerinin ba� arımını ölçmek için
kullanılabilir. Farklı kurgulara sahip, birden fazla sistemin
kar � ıla� tırılmasında kabul gören yakla� ımlardan bir tanesi, sistemleri
aynı derlem ve sorgu kümesi ile çalı � tırmak, kullanılan ba� arım
ölçütünün, tüm sorgular için elde edilen ölçümlerinin ortalamasını
almaktır. E� er kar � ıla� tırılan sistemlerden, örne� in 1. sistemin
ortalaması, 2. sistemin ortalamasından iyi ise, bu durum 1. sistemin
ba� arımının 2. sistemin ba� arımına göre daha iyi oldu� una delil olarak
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
154
kabul edilir. Belirli bir sistemin, birden fazla sorgu için geri-getirim
ba� arım ortalamasının bulunması ile ilgili iki yakla� ım söz konusu
olabilir: mikro ve makro ortalamalar. Bir sistem için, iki yakla� ımın,
yani mikro ve makro ortalamaların farklı de� erlere sahip olması
durumuna, söz konusu sistemin sorgular kar � ısında geri-getirim
kümesini olu� turan belge sayılarının farklı olması sebep olur. Herhangi
bir sistemin ortalama ba� arımı: Makro yakla� ımda, tüm sorgular için
geri-getirilen toplam alakalı belge sayısının, her sorgu için geri-
getirilmi � belge kümelerinin toplam eleman sayısına bölünmesi ile
bulunur; Mikro yakla� ımda ise, önce her sorgu için geri-getirilmi �
alakalı belge sayısı, sorgunun kendi geri-getirim kümesinin eleman
sayısına bölünerek ara ortalama de� erleri hesaplanır, daha sonra bu ara
ortalama de� erleri toplanarak, toplam sorgu sayısına bölür ve sistemin
ortalama ba� arım de� eri elde edilir. Makro ortalama yakla� ımı sistemin
ba� arımını belge esasına dayalı olarak ölçerken, mikro ortalama
yakla� ımı sorguları esas alan bir ölçüm ortaya koyar.
BGG sistemlerinin sonuç kümesindeki belgelerin, bir sıralama
ile kullanıcıya sunulması, kullanıcının anma ve duyarlılık ölçütlerinin
rekabetini istekleri do � rultusunda kullanmasına imkan tanır. Örne� in,
e� er sıralı sonuç listesinin ilk sayfasında, anma dü� ük ve istenen
enformasyon bulunamamı � sa, kullanıcı bir sonraki sayfaya
yönlenecektir (ço� u durumda sonraki sayfalarda anma yükselecektir). �� te bu kullanıcı davranı � ı, Olasılık sıralama ilkesi (probability ranking
principle) ile izah edilmekte ve BGG sistemlerinin sıralama esasına
dayalı kurgularının altındaki kabullenmeleri açık bir � ekilde ortaya
koymaktadır (van Rijsbergen, 1979).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
155
Tanım 8.2.1: Olasılık Sıralama (OS) � lkesi (Probability Ranking Principle): Belgeleri, alakalı olma olasılıklarına göre büyükten küçü� e do� ru sıralamak, sistemin sonuç kümesi için en iyi l isteleme � eklidir.
Tanımdaki ana fikir, geri-getirim i � inin bir arama i � lemi olarak
dü� ünülmesi ve sistemin, zamanın istenen her hangi bir anında, sürecin
ilerledi � i noktaya kadar olan kısım içindeki en yüksek alaka “de� erine”
sahip belgeyi belirleyebilmesidir. Söz konusu aramada, zamanın
herhangi bir anında en yüksek “de� ere” sahip olacak bir d belgesi,
sürecin ilerledi � i noktaya kadar olan kısımdaki belgeler içinde, beklenen alakalı olma ihtimali en yüksek belge olacaktır, yani )( dRP
olasılık de� eri en yüksek olan olacaktır (daha tüm belgelerin
de� erlendirmeye girmedi � ini dü� ünüyoruz). Aynı � ekilde, silsile
halinde birden çok zaman kesiti için, en yüksek “de� ere” sahip olan
belgelerin belirlenmesi ile elde edilecek bir liste, aynı zamanda tanımda
verilen alakalı olmanın dü� en olasılık de� erlerine göre sıralanmı � belge
listesi de olacaktır.
BGG sistemlerinin ço� u OS ilkesini esas alırlar. O yüzden, bu
ilke ile, hangi kabullenmelerin yapıldı � ının tanımlanması da
gerekmektedir:
1. � lk kabullenme, belgelerin ba� ımsız oldu� udur. Bu kabullenmenin en açık � ekilde ihlali, aynı belgenin belge uzayında tekrarlanmasıdır. E� er bir belgeden iki tane varsa, örne� in d1 ve d2 olsun, d1 belgesi listelendikten sonra d2 belgesine ait tahmini alaka ihtimali de� i � meyecektir. Fakat d2 belgesi kullanıcıya yeni bir enformasyon sunmayacaktır. Açıkçası, iyi bir kurgu içinde, böyle çift belgelerden sadece birinin listeye alınması gerekir, fakat bu durum, aynı zamanda OS ilkesinin ihlali de demektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
156
2. Kullanıcı tarafından, sisteme yönlendirilmi � enformasyon ihtiyacı bir bütündür. Ancak, OS ilkesini esas alarak olu� turulan bir sonuç listesinde, söz konusu ihtiyaç, küçük ve yalıtılmı � sorgucuklar
� eklinde ele alınır ve bu sorgucukların her biri için en yüksek “de� ere” sahip belgelerin tespiti yapılır. Fakat, belge uzayındaki her hangi bir belge, kullanıcının sisteme yönlendirdi � i, enformasyon ihtiyaç bütünü ile çok alakalı olmasına ra� men, OS ilkesi gere� i yapılan arama sürecinin ara adımlarında, en yüksek “de� ere” sahip olarak belirlenmeyebilir. Örne� in, bir kullanıcının Murat kelimesini sorgu olarak yönlendirmesi halinde, ideal bir BGG sisteminin, kelimenin araba adı, ki � i adı ve istek/dilek anlamlarından hangisine ihtiyaç duyuldu� unu belirlemesi gerekir. Fakat OS ilkesini esas almı � bir sistem, eldeki belge uzayı içinde, en yüksek alaka gösteren bu anlamlardan ilk bulunana göre, sonuç listesini sıralayacaktır.
3. OS ilkesi esasına göre hesaplanan, alakalı olmanın olasılı � ı sadece tahminidir. Bir BGG sisteminin kurgusu içinde, bir çok basitle� tirici tanımın kabul edilmesinden dolayı, yapılan olasılık tahminleri de tamamen güvenilir olmayacaktır. Söz konusu durumun en büyük yan etkisi � udur: BGG sistemleri kar � ıla� tırılırken, alakalı olmanın olasılık tahminleri arasındaki de� i � ime (variance) bakılmaktadır; dolayısı ile olasılık tahminlerinin güvenilir olmaması, kar � ıla� tırmaların da güvenilir olmaması sonucunu do� uracaktır.
Daha önce bahsedildi � i gibi, BGG sistemlerinin ba� arımlarının
ölçülmesi için kurgulanmı � , sorgulardan elde edilen sonuçların
ortalamasına dayalı bu deneysel düzenek, aslen bir çok tartı � malı
mesele içermektedir. Ortalamalar arasındaki fark, � ans eseri de olu� mu�
olabilir. Örne� in, 1. sistemde, sadece tek bir sorgunun, 2. sistemdeki
sorgulardan çok büyük bir farkla iyi olması neticesinde (di � er
sorguların ba� arımları e� it olacak � ekilde) ortalama farklı da çıkmı �
olabilir. Aslen, sistemler arasında anlamlı bir farklılık olup olmadı � ına
bakılması için, böyle basit tanımlayıcı istatistikler yerine, uygun � ekilde
geli � tirilecek istatistiksel yöntemlerin kullanımı, daha güvenilir bir yol
olacaktır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
157
8.3. Anma ve Duyar lılı � ı Esas Almayan Ba� ar ım Ölçütü.
Bu tezde, ba� arım ölçütü olarak kullanaca� ımız yöntem olan
üstel-puanlama (meta-scoring), matematiksel/istatistiksel yöntemler
sınıfına girmektedir (Jin, 2001). Carnegie Mellon üniversitesinde, dil-
bilim teknoloj ileri enstitüsü ve bilgisayar bilimleri bölümünün ortak
çalı � ması ile geli � tirilen bu yöntem, anma ve duyarlılık ölçütlerinin tüm
olumsuz yönlerinden arındırılmı � tır. Yöntem gizli anlam indeksleme
(Bölüm 6.2.) geri-getirim modelinin esas aldı � ı, matematiksel kurguya
göre biçimlendirilmi � tir. Yöntemde, belgeler ve sorgular bazı yönlerden
de� i � ik, bazı yönlerden gizli anlam indeksleme ile benzer � ekilde
yorumlanmaktadır. Belgeler, bir vektör olarak kabul edilir. Bu vektörün
elemanları, bir geri-getirim yöntemi ile hesaplanmı � sayısal
a� ırlıklardır. Belge uzayındaki belgelerde bulunan, tüm içerikler, yani
konular bir içerik toplulu� u olarak kabul edilir (Buraya kadar tüm
vektör uzayı modelini esas alan yöntemler, aynı � ekilde yorumlara
sahiptir). Yöntemde, belge vektörlerini içine alan çok boyutlu uzayın
öz-vektörleri (eigen-vectors), gerçek belge içeriklerini olu� turan,
birbirinden ba� ımsız, birim “ içerik” ler toplulu� u olarak kabul edilir.
Böylece her belge, bu ba� ımsız “ içerik” lerin bir kümesi ile ifade
edilebilir olmaktadır. Belirli bir geri-getirim yöntemi ile, bir belge için
sayısal belge temsili olu� turuldu� unu kabul edersek (yani belge
vektörü), bu sayısal belge temsilinde, birim “ içerik” lerden ne miktarda
bulundu� u, belge vektörünün “ içeri � ini” olu� turan öz-vektörler
üzerindeki iz-dü� ümü ile ölçülecektir. Dolayısı ile, asıl belgelerin
içerikleri, öz-vektörler ile temsil edilen bir nevi a� ırlıklandırılmı �
“ içerik” toplulu� u olacaktır. Yöntemde, bir de temsili “belge içeri � i”
vardır. Bu temsili “belge içeri � i” , öz-vektörler kümesinden herhangi bir
elemana e� it olabilir. Ancak, tüm öz-vektörler “belge içeri � i” olma
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
158
açısından e� it ihtimale sahip de� ildir. Bir öz-vektörün, temsili “belge
içeri � i” olma ihtimali, öz-vektöre kar � ılık gelen öz-de� er (eigen-values)
ile do� ru orantılı olarak hesaplanmaktadır.
Bir geri-getirim yönteminin üstel-puanı, temsili “ belge içeri � i” ile
asıl belge için olu� turulmu� a� ırlık vektörü arasındaki kar � ılıklı-
enformasyon (mutual information) miktarına e� ittir (Bölüm 4.3). E� er
iki geri-getirim yöntemi birbiri ile kıyaslanacaksa, her ikisi için de
üstel-puan hesaplanır ve de� er olarak büyük olanı daha iyidir denir. Jin
ve arkada� ları (2001), yöntem ile hesapladıkları üstel-puanın, derlemin
ortalama-duyarlılı� ı ile tutarlı oldu� unu, yani do � ru orantılı oldu� unu
bildirmi � lerdir. Dolayısı ile, tezin sonuçlarındaki üstel-puanlar, orantılı
ortalama-duyarlılık � eklinde de yorumlanabilir.
�ki olasılık de� i � keni, D ve C için kar � ılıklı-enformasyon’un
I(C;D), biçimsel ifadesi, Denklem 8.3.1.’de verilmi � tir.
)()();( DCHCHDCI −= (8.3.1)
Denklem 8.3.1.’de verilen kar � ılıklı-enformasyon, I(C;D)
e� itli � indeki H(C) simgesi ile, C olasılık de� i � keninin düzensizli � i, yani
sinyal-enformasyon de� eri temsil edilmektedir; H(C|D) simgesi ile,
aynı C olasılık de� i � keninin, D olasılık de� i � keninin de� eri bilinirken
hesaplanan düzensizlik de� eridir. Dolayısı ile, C ve D olasılık
de� i � kenlerine ait kar � ılıklı-enformasyon de� eri, D olasılık de� i � kenine
ait de� erin bilinmesinden kaynaklı, C olasılık de� i � keninin
düzensizli � inde olu� an de� i � im miktarı olarak sözle ifade edilebilir. Bir
ba� ka söyleyi � le, kar � ılıklı-enformasyon iki olasılık de� i � keninin
birlikte ta� ıdı � ı, ortak sinyal-enformasyon miktarıdır. Söz konusu iki
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
159
olasılık de� i � keni ba� ımsızsa, ta� ıdıkları kar � ılıklı-enformasyon miktarı
da 0 (sıfır) olacaktır.
Üstel-puan ölçütünün, kar � ılıklı-enformasyon I(C;D), esasında
tanımlanmasında, C olasılık de� i � keninin örneklem kümesini, “belge
içerik” leri kümesidir; D olasılık de� i � keninin örneklem kümesi de,
indeks terimler ve bir belge için hesaplanan a� ırlıklarından olu� an
çiftler toplulu� udur. Böylece, H(C) de� eri, “belge içerik” lerinin yalın
olarak ta� ıdı � ı sinyal-enformasyon miktarını; H(C|D) de� eri de, D
belgesinin “ içerik” vektörü bilinirken “belge içerik” lerinin ta� ıdı � ı
ba� ıl sinyal-enformasyon miktarını temsil eder. Dolayısı ile, kar � ılıklı-
enformasyon miktarı, iki sinyal-enformasyon de� erinin farkından, yani
“belge içerik” lerinin yalın olarak ta� ıdı � ı sinyal-enformasyon
de� erinden H(C), “ içerik” vektörü D verilmi � ken “belge içerik” lerinin
ta� ıdı � ı ba� ıl sinyal-enformasyon de� erinin H(C|D), çıkartılması ile
elde edilir.
BGG sistemlerinin hedefinde bulunan belge uzayı, belge-terim
matrisi M, olarak temsil edilebilir. Olu� turulan söz konusu matrisin
satırlarında belgeler, sütunlarında terimler ve M i j hücresinde, ise söz
konusu yöntemin j. terime, i. belge için atadı � ı hesaplanmı � a� ırlık
de� eri bulunmaktadır. Gizli anlam indeksleme modelinde, M matrisinin
belge vektörlerini içine alan uzayının öz-vektörleri (eigen-vectors), yani
dikey birim vektörleri (eksenleri), birbirinden ba� ımsız “ içerik” ler
olarak kabul edilir. Her belge, bir “ içerik” vektörü olarak temsil
edildi � i için, herhangi bir belgede, bir “ içeri � in” önemi, “ içeri � i” temsil
eden öz-vektör üzerine, söz konusu belge vektörünün iz dü� ümü ile
ölçülür. Üstel-puan ölçütündeki olasılık de� i � keni, C için, örneklem
kümesi, e� er bir “ içerik” toplulu� u olarak dü� ünülürse, gizli anlam
indeksleme yönteminde öz-vektörler ile olu� turulan “ içerik” uzayı, C
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
160
ile temsil edilen “belge içeri � i” kavramı için kullanılabilir. Jin ve
arkada� ları (2001), C olasılık de� i � kene ait olasılık da� ılımının
hesaplanabilmesi için, M matrisinin öz-vektörleri ile e� le� en öz-
de� erlerin (eigen-values), bu öz-vektörlerin önemini betimledi � ini,
dolayısı ile “ içerik” lerin öneminin, söz konusu öz-de� erlerin genli � i
(miktarı) ile orantılı oldu� unu öne sürmü� lerdir.
Bir BGG sisteminin hedef belge uzayındaki, belge sayısı n olarak
kabul edilirse: terim uzayındaki belge vektörleri nbbb ���� ,,, 21 olacaktır.
Terim uzayındaki belge vektörleri, M belge-terim matrisini de
olu� tururlar. Üstel-puan ölçütünün, bir geri-getirim yöntemi için
kullanılmasında, belge-belge matrisine ihtiyaç vardır. Belge-belge
matrisine D dersek, M belge-terim matrisi kullanılarak � u � ekilde
olu� turulur:
Tnttnnn MMD ××× ⋅= (8.3.2)
Denklem 8.3.2. ile elde edilen belge-belge, kısaca D belge matrisine ait, nλλλ ,,, 21 � öz-de� erler (eigen-values) ve nvvv ���� ,,, 21
öz-vektörler (eigen-vectors) için, tanım gere� i, � u ko � ul sa� lanır:
njvvD jjj ≤≤=• 1;��
λ (8.3.3)
C olasılık de� i � keni, yani “belge içerik” leri, bir “ içerik” toplulu� u
olarak kabul edildi � i ve her “ içerik” de, D matrisinin bir öz-vektörüne
kar � ılık geldi � i için, C olasılık de� i � keninin örneklem kümesi, yani alabilece� i de� erler kümesi, öz-vektörler toplulu� u },,,{ 21 nvvv olur.
Jin ve arkada� larının (2001) kabullenmesinde, her jv� öz-vektörünün
önemi, bu vektöre kar � ılık gelen öz-de� erle jλ , ölçülmektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
161
Dolayısı ile, C olasılık de� i � keninin, jv� öz-vektörüne e� it olması
olasılı � ı )( jvCP �= , jλ öz-de� eri ile orantılı olacaktır:
njvCPn
kk
jj ≤≤�==
=
1;)(
1λ
λ�
(8.3.4)
Olasılık de� i � keni D, belge vektörlerini temsil etmektedir. D
olasılık de� i � keninin, alabilece� i de� erler kümesi, belge vektörleri toplulu� u, yani },,,{ 21 nbbb ���� olacaktır. BGG sisteminin hedefindeki
belge uzayında, her belge e� it önemdedir. Dolayısı ile, D olasılık de� i � keninin herhangi bir ib� belge vektörüne e� it olması olasılı � ı,
)( ibDP = sabittir:
nin
bDP i ≤≤== 1;1
)( (8.3.5)
D olasılık de� i � kenin de� eri, ib� belge vektörü olarak
verilmi � ken, C olasılık de� i � keninin herhangi bir, jv� öz-vektörüne e� it olmasının, ko � ullu olasılı � ı, )( ij bDvCP �� == ise, ib� belge
vektörünün, jv� öz-vektörü üzerindeki iz-dü� ümünün, ib belge
vektörünün, tüm öz-vektörler nkvk ≤≤1,�
üzerindeki iz-dü� ümleri
toplamı içindeki a� ırlı � ı ile orantılı olacaktır:
nkvb
vbbDvCP
n
kk
Ti
jT
i
ij ≤≤�•
•===
=
1;)(
1
��
����
(8.3.6)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
162
Denklem 8.3.6.’da, ib� belge vektörünün, jv�
öz-vektörü üzerine
iz-dü� üm de� eri jT
i vd �� • , mutlak olarak alınmı � tır. Bunun sebebi, iz-
dü� üm de� erlerinin, negatif olabilmesidir; ancak olasılık de� erleri
negatif olamazlar.
Bu � ekilde hesaplanarak, BGG sistemlerinin ba� arımlarının
kar � ıla� tırılmasında kullanılabilecek üstel-puan yöntemi, aslen kendi
türünün içinde, yani anma ve duyarlılık ölçütleri dı � ındaki ba� arım
ölçütlerine tek örnektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
163
9. TEZ KAPSAMINDA GEL ��� T � R � LM ��� YÖNTEMLER
Bu tez, bilgi geri-getirim sistemlerinin, yazılı Türkçe’nin
dilbilgisi kullanılarak, Türkçe için ba� arımlarının arttırılmasını hedef
almaktadır. Dolayısı ile, yazılı Türkçe belgelerin çok dilli bir belge
toplulu� undan, örne� in � nternet ortamından tespit edilmesi gibi bir
meseleyi de içermektedir. Son yıllarda çok dilli uygulamalar, daha
do� rusu çok dilli bilgi geri-getirim, � nternet ortamının do � al bir sonucu
olarak u� ra� sahası haline de gelmi � tir. Ancak, tez kapsamımızda,
hedef aldı � ımız asıl mesele, yazılı metnin hangi dilde oldu� undan çok,
Türkçe olan metnin otomatik olarak tespit edilmesidir. Tez içerisinde
geli � tirilen di � er yöntemlerin uygulanabilirli � i için, asgari ve yeter � art
budur.
Hesaplamalı dilbilim sahasında, bilgi geri-getirim sahasında ve
bir çok yazılı dil hedefli, hesaplamaya dayalı u� ra� lar içerisinde
geli � tirilen yöntemler, öncelikle yazılı metnin belirli biçime
getirilmesine ihtiyaç duyarlar. Bu ortak biçime getirme, yazılı metni
hesaplanabilir birimlerine ayrı � tırma i � ine, genel adıyla metin
normalle� tirme denir. Aslen, bilgi geri-getirim sahasında ihtiyaç
duyulan nitelikleri ile metin normalle� tirme, sayısal belge temsil
yordamının (Bölüm 5.3.) ilk alt sürecinde belirtildi � i � ekli ile yer
almaktadır ve en basit halindedir. Kelime sınırlarının belirlenmesi ve
kelime dı � ı unsurların metinden ayıklanması, bilgi geri-getirim
sistemleri için yeterli metin normalle� tirme nitelikleridir. Ancak,
hesaplamalı dilbilim sahasında, metin normalle� tirme, bilgi geri-getirim
sahasında oldu� u gibi, asgari nitelikler ta� ımaz. Metin içindeki
kelimelerin belirlenmesi gerekir, ancak kelime dı � ındaki unsurların
ayıklanması de� il, ne olduklarının i � aretlenmesi, yani o unsurların da
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
164
belirlenmesi söz konusudur. Ayrıca, hesaplamalı dil bilim sahasında,
dilbilgisi özelliklerinin tespit edilmesi hedefindeki yöntemlerin hemen
hepsi, cümle sonu ve ba� ının belirli olmasını da ön � art olarak
istemektedirler. Cümle sonlarının belirlenmesi meselesi, her ne kadar
hesaplamalı dilbilim içerisinde önemsenen bir konu olarak belirtilmese
de, mesele yaratan bir durumdur. Cümle sonu belirlemede en büyük
sorun, “nokta”nın, her zaman cümle sonu belirlemiyor olmasıdır.
Nokta, bazen cümle sonu, bazen bir kısaltmanın sonu veya bazen her
ikisi de olabilir. Tez hedefimizde, bilgi geri-getirim sahasında, dilbilgisi
özelliklerinin kullanılması söz konusu oldu� u için, cümle sonun
belirlenmesi meselesine, yani nokta üzerindeki belirsizli � in
kaldırılmasına dönük bir çözüm de geli � tirilmi � tir.
Hesaplamalı dilbilim sahasında, yazılı metinlerdeki dilbilgisi
özelliklerinin belirlenmesine dönük geli � tirilmi � yöntemler, temelde iki
gurupta toplanmaktadır: kural tabanlı yöntemler ve istatisti � i/olasılı � ı
esas alan yöntemler. Her iki guruptaki yöntemler de, kurguları
açısından çok büyük farklara sahip de� i llerdir; temel birkaç ortak
unsuru yapı ta� ı olarak kullanırlar. Aralarındaki fark, olasılık
kuramından ibarettir. Kural tabanlılar, kuralları, olasılık kuramı yerine
kullanırlar. Fakat, her iki gurubun melezi olan, yani hem kural tabanlı
hem de olasılık kuramını kullanan yöntemler de vardır. E� er n-gram dil
modelleri tartı � manın dı � ında tutulacak olursa, yani hesaplama birimi
olarak kelimenin esas alındı � ı di � er yöntemlerin tamamı için, ortak
yapı ta� ı, dile ait kelimelerin ve kelimelere ait çe� itli kapsam ve
derinlikte özelliklerin içerildi � i bir sözlük’ tür. Yöntemlerin
kurgularında yer alan bu sözlükler, yazı içinde geçen kelimeleri
e� le� tirme ile belirlemek ve daha önceden kaydedilmi � olan
özelliklerine eri � mek için kullanılır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
165
Sözlük kullanımının mümkün olması için kuramsal bir
kabullenme de yapılmaktadır. Bu kabullenme, dillerin kapalı kelime
da� arcı � ına (yazımda farklı � ekle sahip harf birli � i, kelime biçimleri
toplulu� u) sahip oldu� udur. Kabullenmenin do � ru olup olmadı � ı, daha
do� rusu hangi � artlar altında geçerli oldu� u, tüm diller için halen sıcak
bir tartı � ma konusudur. Kuramsal olarak, bir dilde yazılabilecek, olası
tüm metinlerin toplulu� una ula� tı � ımızda, kelime da� arcı � ı, bütün
metinler elimizde oldu� u için, kapalı olacaktır, yani farklı � ekilde
söylenebilecek her � ey söylenmi � , yazılabilecek her � ey yazılmı �
olacaktır. Uygulamada, bu ideal durum yakalanamadı � ı için,
kar � ıla� ılmı � ve kar � ıla� ılacak metinler � eklinde iki durum söz konusu
olmaktadır. Kar � ıla� ılmı � metinlerden, farklı kelime biçimleri tespit
edilmekte ve kelime da� arcı � ı bu kelime biçimleri toplulu� u ile
olu� turulmaktadır. Mesele, bu kelime da� arcı � ının, kar � ıla� ılacak
metinlerde yer alan kelime biçimlerinin tamamını, her zaman kapsayıp
kapsamayaca� ıdır. Kapalı kelime da� arcı � ı kabullenmesi, telafi
edilebilir büyüklükte, belirli bir hata payı ile her zaman kapsanaca� ını;
açık kelime da� arcı � ı ise, bu hata payının her zaman çok büyük
olaca� ını ve kelime da� arcı � ının oransal olarak telafi edilemez
boyutlarında gerçekle� ece� ini öngörmektedir. Türkçe için kelime
da� arcı � ının açık ve kapalı olu� u meselesi, Bölüm 10.’da Zipf
kanunları çerçevesinde istatistiksel olarak, deneysel derlemler
üzerinden tartı � ılmı � tır.
Hesaplamalı dilbilim yöntemlerin kurgularında sözlük
kullanılması, bu günün teknolojisi açısından, hesaplama karma� ıklı � ını
arttırıcı bir unsurdur. Dolayısı ile, geleneksel bilgi geri-getirim
sistemlerinin ön i � lem a� amalarında, ba� arıma olan katkısı anlamlı dahi
olsa, maliyetleri sebebi ile kullanımlarından ço� unlukla kaçınılır.
Yapılan ara� tırmaların sonuçlarından da, anlamlı bir ba� arım artı � ının
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
166
tutarlı � ekilde elde edilememesi, kullanılmalarıyla kazanılacak
ba� arımdan feragat edilir hale gelmelerine sebep olur.
Hesaplamalı dilbilim yöntemlerinin, özellikle kural tabanlı
olanlarında, hesaplama karma� ıklı � ını arttırıcı tek etken de, sözlük
kullanımı de� ildir. Kural tabanlı sistemler, örne� in gövdeleme için
Türkçe gibi sondan ekli, eklemeli dillerde, sonlu durum makinelerini
esas alırlar ve hesaplama karma� ıklıkları, günümüz bilgisayar
teknolojisi ile do� rusal zamanda, çözümü bulunamaz bir hale gelebilir
(NP-Complete). Pratikte, durum bu kadar içinden çıkılmaz halde
de� ildir, ancak do� rusal olmaktan da çok uzaktır (Bölüm 5.3). Dolayısı
ile, bilgi geri-getirim sahasında kullanılacakları zaman, hesaplamalı
dilbilim yöntemleri oldu� u gibi alınmazlar, uygun � ekilde hesaplama
açısından hafifletilmi � uyarlamaları tercih edilir.
Hesaplamalı dilbilim sahasında, istatistik/olasılık esasına dayanan
yöntemlerde, hesaplama karma� ıklı � ı açısından kural tabanlı
e� leniklerinden pek farklı de� illerdir. Aslen, her iki gurubun da
hesaplama karma� ıklı � ının kökeninde olan � ey, dilin anlamsal
çözümlemesinin, günümüz bilgisayar teknolojisinin mümkün kıldı � ı
hesaplama yöntemlerinin bakı � açısından, çok hacimli, detaylı ve derin
bir mesele haline gelmesidir. � nsanlar, ana dillerini, kurallarına ve
yapılarına özel bir dikkat sarf etmeden kullanmaktadırlar, zaten di � er
halde, anlatılmak istenen duygu veya dü� ünceye odaklanmak zor bir
hale gelirdi. Bu ba� lamda belirtilmesi gereken di � er bir mesele de, dili
ileti � im için kullanmakla, onu nasıl kullandı � ımızı, tekrar edilebilir
� ekilde tarif etme (bilimsel) arasında, zorluk açısından büyük bir fark
oldu� u gerçe� idir. � statistik/olasılık esasında yöntemler de kendi içinde
kullandıkları dil modelleri açısından üçe ayrılabilir: n-gram dil modeli,
gizli Markov zinciri dil modeli ve en-yüksek düzensizlik (maximum
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
167
entropy) modeli. Bu dil modelleri ise, kelime esasında hesaplama
yapıyorlarsa, sözlük kullanırlar. Hesaplama birimi olarak, kelimenin
alternatifini, n-gramlar te� kil eder. Di � er modeller, n-gramları
hesaplama birimi olarak da kullanmaktadır; n-gramlar tek ba� larına
kullanıldıklarında, olasılık kuramı esas alınmaktadır. Aslen,
hesaplamalı dilbilim içinde çözümleme düzeyi olarak, biçimbirimsel
seviyenin (sözlük, söz-dizim, anlam, v.b.) üzerindeki düzeylerde,
yaygın � ekilde kullanılan model gizli Markov zinciri dil modelidir.
Biçimbirimsel seviyede de, kural tabanlı yöntemler a� ırlıklı olarak
kullanılmaktadır.
Tez kapsamı içersinde, hesaplamalı dilbilimde iki çözümleme
seviyesi için, bilgi geri-getirim sistemlerinde kullanılmak üzere
uyarlanmı � iki yöntem geli � tirilmi � tir: gövdeleme (biçimbirimsel
seviye) ve sözcük türü tespiti (sözlük seviyesi). Her iki yöntem de,
sözlük kullanmamaktadır, istatistik/olasılık esaslıdır ve hesaplama
birimi olarak kelime yerine n-gram kullanmaktadır. Dilbilim özelli � inin
çözümlenmesi için esas aldıkları fikirler açısından, yani gövdeleme ve
sözcük türü tespiti için, kelimeden gerekli enformasyonun elde edili � i açısından, yöntemler özgündür.
Özetle, bu bölümde tanıtılacak, tez kapsamında geli � tirilmi � dört
özgün yöntem bulunmaktadır. Yöntemler, tanıtım sırasıyla � öyledir:
Türkçe yazılı belgelerin tespiti; Türkçe metinlerin, cümle sonu
tespitleri, yani normalle� tirilmesi; Türkçe için istatistik/olasılık
esasında gövdeleme; Türkçe kelimelerin, istatistik/olasılık esasında
sözcük türü tespiti.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
168
9.1. Türkçe Yazılı Belgeler in Tespiti
Genel anlamda, yazılı metinlerde dilin tespiti, � nternet üzerinde
arama motorlarının, kullanıcıların enformasyon ihtiyaçlarını kar � ılamak
için, dil tespitine gereksinim duyması ile giderek artan bir ihtiyaç
olmaktadır. Bu gereksinimin ötesinde, otomatik çeviri programları,
uygulama olarak kullanılmaya da ba� lamı � tır. Dolayısı ile, çok dilli
ortamlarda, yazılı metnin hangi dilde yazılmı � oldu� u giderek artan bir
ihtiyaç halini almaktadır (Lins and Gonçalves, 2004).
Web, Internet üzerinde en büyük yazılı belge kayna� ını olu� turan
servis olarak, çok dilli derlem kapsamında kar � ımıza çıkmaktadır. Web
servisi sa� layan sunucularda, dil olarak � ngilizce a� ırlıklı olmasına
ra� men, Babel13 tarafından, Web ortamındaki çok dillilik üzerine
yapılan ara� tırma, 1997 haziran’ ı itibari ile 14 farklı dile yayılmı � , 63,000 � ngilizce dı � ında, sunucu oldu� u tahmin edilmi � tir. Ayrıca,
Babel tarafından yapılan ara� tırmanın dı � ında kalmı � , Katalanca, Çince,
Macarca, � zlandaca ve Arapça dilinde sunucuların da sayısı artmaktadır
(Resnik, 1999). Çok dilli � in yanında, Web ortamı, dinamik içeri � e de
sahiptir. Bu özelli � i, kelime da� arcı � ı konusu ile, çok yakından
alakalıdır. Diekema ve arkada� ları, TREC-7 çalı � malarında, WordNet
1.5., kelime a� ına dayalı olan çalı � malarının ba� arımının, “Bosnia-
Bosnie” , gibi çok yüksek düzeyde konu ile alakalı kelimelerde olu� an
sözlüksel gediklerden, çok fazla yara aldı � ını belirtmi � lerdir (Voorhees
and Harman, 1998b). Yine TREC-7 çalı � malarında, çeviri esasına
dayalı çapraz-dil bilgi geri-getirimi üzerine ara� tırma yürüten Gey ve
arkada� ları, “acupuncture-Akupunktur” kelimesi ile örneklendirdikleri,
13 http://www.isoc.org
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
169
sözlüksel gedi � in, bireysel sorgular esasında, ba� arımı, duyarlılık
ölçüsünde 0,08 ile 0,83 arasında de� i � tirdi � ini belirtmi � lerdir!
Aslen, çok dilli belge uzayı olarak Web ortamında dil tespiti,
bahsedilen boyutları dı � ında, ayrıca yazılı metnin sayısal ortama alını � ı ba� lamında (elle yazılarak, fiziksel ortamlardan taranarak) ve dil
tespitinin kuramsal alt yapısı içinde karma� ıklık derecesi gibi
meseleleri de vardır. Kuramsal ba� lamda, hem karma� ıklık kuramı
(complexity theory) hem de özyineleme kuramı (recursion theory)
içerisinde, indirgeme temeline dayanan bir inceleme için, Jain ve
Sharma (1994) tarafından yapılan çalı � ma güzel bir örnektir. Yazılı
metnin, sayısal ortama alını � ı açısından, Web ortamında elle
yazılmanın dı � ında, ço� u belgenin özgün fiziksel ortamından (ka� ıt
v.b.) taranarak sayısal ortama alınması da söz konusudur. Bu yöntemle,
sayısal ortama alınan belgelerde, ek olarak yazılı karakterin tanınması
(character recognition) a� amasında meydana gelen, ek hatalarla da
u� ra� mak gerekmektedir (Sibun and Spitz, 1994). Sibun ve Spitz, resim
olarak taranan yazılı belgelerden, karakter ve kelimelerin, hesaplamalı
dilbilim için yeterli oldu� unu dü� ündükleri simgesel kar � ılıklara
atanması � eklinde bir yöntem önermi � lerdir.
9.1.1. Önceki Çalı � malar
Çok dilli belge uzayında, belgelerin hangi dillerde yazılmı �
oldu� unun tespitine yönelik yöntemler, a� ılıklı olarak istatistik/olasılık
kuramını esas alırlar. Olasılık esasındaki yöntemlerin, kural tabanlı en
iyi sistemle e� it veya ondan daha ba� arılı olaca� ı, Jain ve Sharma
(1993) tarafından do� rulandıktan sonra, tüm çalı � malar
istatistik/olasılık esasında do � al olarak yo � unla� mı � tır. Olasılık
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
170
esasında yöntemlere yönelimde, dilbilimsel yöntemlerin geli � tiri ldikleri
dile has kalmaları da önemli rol oynamaktadır.
Lins and Gonçalves (2004), Fransızca, � spanyolca, � ngilizce ve
Portekizce dillerinde yazılmı � , Web ortamındaki belgeleri birbirinden
ayırt etmeye çalı � mı � lardır. Yöntemlerinde, zarf, tanımlık (articles),
ba� laç, ünlem, sayı (kelime), edat ve özel isim sözcük türlerine giren
kelimeler üzerinden bir kurgu yapmı � lardır. Bu sözcük türlerindeki
kelimelerin, de� i � imlerinin ya olmadı � ını veya di � er sözcük türlerine
nazaran de� i � imlerinin ihmal edilebilir düzeylerde olmasında ötürü,
kapalı kelime da� arcı � ı ihtiyacını kar � ıladı � ını belirtmi � lerdir. Di � er
sözcük türlerine ait kelimelerin ayrıca, zaman ve depolama
karma� ıklı � ının yüksek oldu� unu, bunun sebebinin, dillerin kullanımı
ve geli � imi içerisinde söz konusu sözcük türlerine ait kelime
da� arcıklarının çok hızlı büyüdü� ünü, dolayısı ile de� erlendirmeden
çıkarttıklarını kaydetmi � lerdir. Kar � ıla� tırdıkları diller için,
kullandıkları her sözcük türüne ait kelimeleri, incelenen metnin
içerisinde arayarak, dili tespit etmeye çalı � mı � lardır. Çizelge 9.1.1.1.’de
ara� tırmanın sonucu, kullandıkları sözcük türlerinin, belirli dillerde
yazıldı � ı bilinen metinlerde, ortak olarak içerilmesi durumları � eklinde,
verilmi � tir. Önerilen yöntem ile, sonuç olarak Web için %80 do � ruluk,
düz metinler için %90 do� ruluk elde edildi � i belirti lmi � tir.
Tanıtaca� ımız ikinci yöntem, n-gram dil modelini esas almaktadır
(Suzuki et al, 2002). Yöntem, Web sayfalarının yazıldı � ı dil, yazı � ekli
(script) ve çözümleme � eması (encoding scheme) olmak üzere üç
özelli � ini belirlemek üzere tasarlanmı � tır. Yazar, � ngilizce’nin sayısal
dünyada standartla� mı � olması dolayısı ile, baskınlı � ından bahsetmekte
ve anadili veya yabancı dili olarak, 10 milyonun üzerinde ki � i tarafından konu� ulan 82 farklı dil oldu� undan bahsederek, bu dillerin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
171
sayısal dünyada temsil edilmemesi ile ortaya çıkan, “sayısal
bölünmenin” (digital divide), olumsuz sonuçlarını ortaya da koymu� tur.
Çizelge 9.1.1.1: Fransızca, � spanyolca, � ngilizce ve Portekizce için yazılı metinden dil tespit sonuçları (Lins and Gonçalves, 2004).
# % # % # % # % # % # %Yok 1 0.11 0 0.00 0 0.00 1 0.18 3 1.89 2 1.92Bilinmiyor 61 6.64 31 4.78 12 1.93 27 4.73 141 88.68 85 81.73Portekizce 27 2.94 0 0.00 2 0.32 539 94.40 0 0.00 0 0.00�ngilizce 13 1.42 5 0.78 609 97.75 2 0.35 14 8.81 9 8.65�spanyolca 815 88.78 1 0.16 0 0.00 2 0.35 0 0.00 8 7.69
Fransızca 1 0.11 600 94.19 0 0.00 0 0.00 1 0.63 0 0.00
Almanca�talyanca
�spanyolca Fransızca
�ngilizce Portekizce
Suzuki ve arkada� ları (2002) tarafından geli � tirilen yöntem, di � er
n-gram dil modeli esasındaki yöntemlerden ayrılmaktadır. Yöntemde,
Web sayfasının de� erlendirmesi için hesaplama birimi olarak, bayt
(sekiz ikil) kullanılmakta, bilgisayar ortamında son yıllarda tüm yaygın
dilleri içine alan Unicode (UCS, ISO/IEC10646) standardı da
hesaplama içinde de� erlendirilmektedir. Dolayısı ile, karakter esaslı
olmayan Asya dilleri de, tespit edilmekte ve birbirlerinden
ayrılabilmektedir. Di � er yöntemlerde ise, karakter veya kelime esasında
çalı � ılmaktadır. Ancak, bu yöntemin taranmı � belgeler üzerinde, di � er
karakter esasındaki n-gram yöntemleriyle aynı akıbeti payla� tı � ı da
unutulmamalıdır. Yöntemde, özgün metne ait bayt akı � ı, 3 bayt
uzunlu� unda ve “shift-codon” (“codon” terimi genetik sahasından
gelmektedir ve DNA zincirini olu� turan genetik kodun temel birimidir)
olarak adlandırılan hesaplama birliklerine çevrilmektedir. Daha sonra,
yazılı metinlerin bayt akı � ı içinde, bu hesaplama birliklerinin, n-gram
olarak istatistikleri çıkartılarak, diller birbirinden ayırt edilmeye
çalı � ılmaktadır. Örne� in, 184 KB büyüklü� ünde, Almanca yazılı bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
172
metinden, çıkartılan farklı “shift codon” sayısı 10,422 olarak; 177 KB
büyüklü� ünde � ngilizce bir metinden çıkartılan farklı “ shift codon”
sayısının 8,897 oldu� u belirtilmi � tir (Bilgimiz dahilinde, Türkçe için
“shift codon” sayısının belirlendi � i bir çalı � ma yoktur). Çalı � mada,
� spanyolca, Portekizce, Almanca, Romanca ve � ngilizce için belirleme
yapılmı � , sadece Portekizce için az bir kayıp ya� andı � ı, di � er dillerin
tam do � rulukla tespit edildi � i belirtilmi � tir. Yöntemin aleyhte yönü
olarak, bir arama motoruna çevrim-içi olacak � ekilde yüklenememesi
gösterilmi � tir. Sebep olarak da, yöntem de kullanılan “shift codon”
sayısının çok büyük boyutlarda olması verilmi � tir.
Dil tespiti üzerine, n-gram dil modelini esas alan tanıtaca� ımız
çalı � ma, Cavnar ve Trenkle (1994) tarafından önerilen yöntemdir.
Yöntemde, n-gram dil modeli, yazılı dildeki harfleri hesaplama birimi
olarak kullanılmaktadır. Ancak, n-gram olarak çıkartılan harf birlikleri
kelime sınırları içerinde kalmakta, kelimeden kelimeye atlamamaktadır.
Dolayısı ile, bu yöntem için yazılı metnin önce simgele� tirilmesi, yani
normalle� tirilmesi yapılmaktadır. Daha sonra, bir alı � tırma derleminden
en yüksek gözlenme sıklı � ına sahip, n-gramlar belirlenmektedir.
De� erlendirme altındaki tüm diller için, aynı � ekilde n-gram
istatistikleri çıkartılmaktadır. Çalı � mada ele alınan altı dil için (Datca
(Hollanda’da konu� ulan Almanca’nın türevi bir dil), Fransızca,
Almanca, � talyanca, Lehçe/Polca , Portekizce ve � spanyolca), metin
büyüklü� ünün, 22KB ile 150KB arasında de� i � en büyüklerinde rapor
edilen sonuçlara göre, söz konusu dilleri tam do � rulukla ayırt
etmektedir. Metin büyüklü� ü açısından alt sınır olarak, � ngilizce ile
� spanyolca arasında yakalanmı � olan 4 Kbayt (yakla� ık 700 kelime)
verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
173
Olasılık/ � statistiksel yöntemlere son örne� imiz, gizli Markov
zincirleri dil modelini esas alan ve Dunning (1994) tarafından önerilen
yöntemdir. Yöntemde, yine harfler hesaplama birimi olarak alınmı � (n-
gram), ancak, kelimeler arası geçi � mümkün kılınmı � tır, daha do� rusu,
yazılı metinden, harf dı � ında tüm simgeler atılmı � ve metin uzun bir
harf dizisi haline getirilmi � tir. Dolayısı ile, kelime sınırları ortadan
kalkmı � tır. Olasılık/ � statistik modeli olarak birinci dereceden, gizli
Markov zinciri kullanılmı � tır. Çalı � manın sonucu olarak, 50KB
alı � tırma derlemi ile, 20 bayt uzunlu� undaki deneme metinlerde %92
do� rulu� a ula� ıldı � ı; deneme metni, 500 bayt oldu� unda %99
do� rulu� a ula� ıldı � ı; deneme metni, 500 bayt iken, alı � tırma derlemi,
5KB oldu� unda %97 do� rulu� a ula� ıldı � ı rapor edilmi � tir. � statistiksel
anlamlılık ba� lamında, deneme metni 100 bayt ve üzeri, alı � tırma
derlemi de 50KB ve üzerinde oldu� u durumlarda, do� rulu� un %99’dan
büyük olması ihtimali %90 olarak verilmi � tir.
Yazılı belgelerden, Türkçe’nin tespitine yönelik çalı � malara,
bilgimiz dahilinde verebilece� imiz tek çalı � ma Dalkılıç ve Dalkılıç
(2002) tarafında, yazılı Türkçe’nin n-gram istatistikleri ile ilgili
yaptıkları çalı � mada ortaya konan önerilerdir. Önerilerden ilki,
� ngilizce ve Türkçe ayrımı için, kelime uzunluklarının enformasyon
olarak kullanılabilece� idir. Bu önermenin temelinde, Türkçe ve
� ngilizce’de de� i � ik kelime uzunlukları için, metinlerde görülme sıklı � ı
oranlarının, yani kelime uzunlu� u da� ılımlarının farkıdır. � kinci öneri,
kelime sonundaki harfin sesli veya sessiz olu� una göre karar
verilebilece� idir: � ngilizce’de sadece kelimelerin %28’ i sesli harfle
biterken, Türkçe’de kelimelerin yakla� ık %50’si sesli ile bitmektedir.
Son öneri, Türkçe kelimelerin ba� langıcında ve biti � inde iki sessiz
harfin yan yana gelmedi � idir. � ngilizce’de ise, bu durum, 26 en çok
gözlenen desen içinde 6 desende gözlenmi � tir. Önerilerinde, örne� in
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
174
100 kelime içerisinde %5’ in üzerinde ba� langıcı veya biti � i iki sessiz
harf olan varsa, metnin yüksek olasılıkla � ngilizce olaca� ıdır.
Dalkılıç ve Dalkılıç tarafından yapılan çalı � mada yer alan
önermeler, mevcut kurgular içinde n-gram esasına dayanan
çalı � maların içeri � i i le örtü� mektedir. Zaten, özgün çalı � manın
hedefindeki konu da, Türkçe’nin n-gram istatistiklerini çıkarmaktır.
Ancak, mevcut yöntemlerle birlikte de� erlendirildi � inde, özellikle
Cavnar ve Trenkle (1994) tarafından yapılan çalı � mada kelime
sınırlarında kalınması durumu hakkında, Dunning (1994) tarafından
yapılan çalı � mada, ortaya konan ele� tirinin ne kadar haklı oldu� u
ortaya çıkmaktadır. Dunning, çalı � masında kelime sınırında
kalınmasının, çok ciddi enformasyon kaybı meydana getirmesi
ihtimalinden bahsetmektedir. Kelimelerin dizili � inin de, enformasyon
ta� ıyaca� ı konusuna de� inmektedir. Dalkılıç ve Dalkılıç’ ın ikinci
önerisine bakıldı � ında, yani Türkçe kelimelerin ilk ve son harfleri
arasındaki gözlenme sıklı � ı ile, dil ayrımı yapılabilece� i önerisine
bakılınca, kelimeden kelimeye geçi � in önemi daha da netle� mektedir.
Son öneride de, not edilmesi gereken bir nokta vardır. Türkçe’de en çok
gözlenen 26 sesli-sessiz harf desenleri içinde, kelime sonunda iki sessiz
bulunmayabilir, ancak, Türkçe’nin altı hecesinden biri olan, sessiz-
sesli-sessiz-sessiz deseni, öneriyi varlı � ı ile zayıflattı � ı da bir gerçektir.
Dolayısı ile, bu önerme uygulamada kullanılırken söz konusu durumun
göz önünde bulundurulması gerekir. Aslen, önermenin ilk kısmını
olu� turan, kelime ba� ında sessiz-sessiz deseni bulunmaması, bu tür bir
ihlali içermedi � inden, tek ba� ına kullanılmasının dü� ünülmesinde fayda
vardır: Tabii, ba� langıçta ve sonda gözlenmemenin, hangi oranda aynı
kelimelere denk geldi � i ile paralel büyüklükte güçlenerek. E� er,
ba� langıçta ve sonda gözlenmeme, tamamen farklı kelimelerde
meydana geliyorsa, her iki öneri de birlikte kullanılmalıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
175
9.1.2. Öner ilen Yöntem
Türkçe yazılı metinlerin, çok dilli bir belge uzayından
belirlenmesi amacıyla, bu tez ile önerilen Türkçe hecelemenin (Bölüm
2) ayrımda belirleyici olaca� ıdır. Önermenin biçimsel hali � öyledir:
Önerme 9.1.2.1: Çok dilli bir belge uzayında, içerdi � i kelimeleri belirli bir oranın üzerinde, Türkçe alfabe ile yazılmı � ve belirlenen kurallar çerçevesinde (sesbilim özellikleri de dahil) hecelenebilen metinler Türkçe’dir.
9.1.3. Deneysel Sonuçlar
Önermemizi, elimizde olan � ngilizce üç farklı derlem ve bir
Türkçe derlem üzerinden sınadık. Derlemler, özellikleri ile birlikte,
Çizelge 9.1.3.1.’de verilmi � tir.
Çizelge 9.1.3.1: Türkçe belgelerin tespitine ait deneysel sonuçlar.
Der lem Kelime Farklı Hece ~Hece OranTime 249,493 20,856 102,776 146,717 0.412Cranfield 249,824 8,189 94,322 155,502 0.378Medalars 155,411 12,609 61,450 93,961 0.395Türkçe 635,158 88,375 610,717 24,441 0.962
Çizelgede verilen sonuçlarda, “Oran” sütunu, toplan kelimelerden
hecelenebilenlerin sayısını oran olarak göstermektedir. “Kelime”
sütunundaki sıklık de� erleri sadece harf birlikleri içindir; rakamlar,
noktalama i � aretleri dahil de� ildir. “Farklı” sütununda ise, kelime
da� arcı � ının büyüklü� ü, yani farklı biçime sahip kelime, harf birli � i
sayısı verilmi � tir. “Hece” sütununda, hecelenebilmi � kelime sayısı,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
176
“~Hece” sütununda da, hecelenemeyen kelime sayısı verilmi � tir. Görüldü� ü gibi, � ngilizce derlemlerin üçü de yakla� ık %40’ ın altında
bir heceleme oranına sahipken, Türkçe derlemdeki hecelenebilme oranı
%96’dır.
Uygulamada, örne� in bir metinde %70 hecelemenin üzerine
çıkılmı � sa, o metin Türkçe olarak kabul edilmektedir.
9.2. Türkçe Metinler in Normalle� tir ilmesi
9.2.1. Önceki Çalı � malar
Hesaplamalı dilbilim sahasında, genel anlamda metin
normalle� tirme, özelde cümle sonlarının tespiti, meselesi için
geli � tirilen çözümler, esas aldıkları yakla� ımlar açısından iki ba� lık
altında toplanabilir: kural tabanlı ve makine ö� renimi (machine
learning). Kural tabanlı bir cümle sonu tespit yordamının iki yapısal
unsuru bulunmaktadır. Birinci unsur, genellikle düzenli deyim dilbilgisi
(regular expression grammar) � eklinde kodlanan, elle olu� turulmu �
veya bir talim derleminden özümsenerek elde edilmi � kurallardır. � kinci
unsursa, tasarlanmı � yordamın ihtiyaçlarına göre � ekillendirilmi � , bir
listedir. Listede, kelimeler, kısaltmalar v.b. anlamsal birlikler ve bu
anlamsal birliklere ait yordamın ihtiyaç duydu� u özellikler kümesi
bulunur. Örne� in, Aberdeen ve arkada� ları (1995), Alembic çalı � ması
için altyapı hazırlarken, 100 düzenli deyim kuralından olu� mu� bir
yöntem kurgulamı � ve uygulamı � tır. Aslen, kural tabanlı sistemlerin iki
açmazı vardır. Birincisi, düzenli deyimler � eklinde en iyi kural
kümesini olu� turma i � i belirsizdir. Kuralları tanımlamak için bir
standart yoktur. � kincisi, yordamı için olu� turulan tasarımların, talim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
177
için kullanılan derleme çok fazla ba� ımlı olması, dolayısı ile, di � er
derlemlere genellenememesi.
Cümle sonu tespiti için, makine ö� renimi esasında geli � tirilmi �
pek çok yöntem bulunmaktadır. Bu çalı � malara verilebilecek örnekler:
Reynar and Ratnaparki (1997) tarafından, en yüksek düzensizlik
yakla� ımı esasında geli � tirilmi � olan; Riley (1989) tarafından, karar
a� acı ile sınıflandırma esasında geli � tirilmi � olan; Palmer and Hearst
(1997) tarafında, yapay sinir a� ları esasında geli � tirilmi � olandır.
Ayrıca, iki yakla� ımında melezi olan, Mikheev (1997) tarafından
geli � tirilmi � olan yöntemin örnek verilebilece� i çalı � malarda vardır.
Mikheev çalı � masında, önce gizli Markov zinciri dil modelini esas alan
bir yordamla sözcük türlerini tespit etmi � . Sonrasında bu sözcük türü
enformasyonunu da kullanarak, en yüksek düzensizlik esasında cümle
sonu tespiti yapmı � tır.
Türkçe tarafında cümle sonu tespiti çalı � maları için verilebilecek
ilk örnek Tür (2000) tarafından, doktora çalı � masında geli � tirdi � i
yöntemdir. Yöntem için, %95,66 do� ruluk de� eri rapor edilmi � tir. Tür,
çalı � masında hesaplama birimi olarak kelimeleri esas alan bir gizli
Markov zinciri dil modeli kullanmı � tır. Ayrıca, kelimelere ait biçimsel
çözümlemeler, do � rusal interpolasyon ile modelin olasılık da� ılımına
katılmı � tır. Dolayısı ile, önerilen yöntem, bir sözlük kullanmaktadır ve
biçimbirimsel analiz yapılmamı � bir derlem için yöntem
kullanılamamaktadır. Kullanılan biçimbirimsel analiz yöntemi, Oflazer
(1993) tarafından geli � tirilmi � olandır.
Di � er çalı � malar, Oflazer ve arkada� ları (2003) tarafından
yapılmı � olan ve Ziegenhain ve arkada� ları (2003) tarafından Siemens
firması deste� inde yürütülmü� LC-STAR adlı bir ticari çalı � mada,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
178
Türkçe için de kullanılan kural tabanlı yöntemdir (Bu projenin Türkçe
konusundaki çalı � maları, Kemal Oflazer tarafından yapılmı � tır.).
9.2.2. Öner ilen Yöntem
Türkçe cümle sonu tespiti için, bu tezde önerilen yöntem,
“Türkçe yazılı belgelerin tespiti” için önerilen yöntemdir, yani
hecelemedir. Kullanılan yordam için, yazılı metindeki birliklerin
tespitine, yani simgele� tirmeye ve birliklere ait bazı biçimsel özelliklere
(büyük/küçük harf, rakam, noktalama i � areti) ihtiyaç vardır.
Önerme 9.2.2.1: Türkçe yazılmı � metinde, “nokta”dan önce gelen harf birli � i heceleniyorsa, söz konusu “nokta”nın cümle sonu olması ihtimali, cümle sonu olmaması ihtimalinden yüksektir.
Önerme 9.2.2.1.’de verilen karar verme � ekli, yöntem içinde
belirli bir yordam, olu� turulmu� bir kurgu içinde belirsizli � in en yüksek
düzeyinde kullanılmaktadır. Dolayısı ile, önermemiz her “nokta”
gözlenen yerde kullanılarak cümle sonu tespitine gidilmemi � tir. Ayrıca
geli � tirilmi � olan bir cümle sonu tespit yordamı içinde, belirsizli � in
yüksek oldu� u bir durumu çözümleme a� amasında kullanılmı � tır. Söz
konusu cümle sonu tespit yordamını tanımlamak için bir simge sistemi
olu� turulmu� tur. Öncelikle bu simge sisteminin tanıtılmaya ihtiyacı
vardır. Sonrasında, yordam simge sistemi kullanılarak verilecektir.
Cümle sonu tespit için, tez kapsamımızda kullandı � ımız simge
sistemi Çizelge 9.2.2.1.’de liste halinde verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
179
Çizelge 9.2.2.1: Cümle sonu yordamını tanımlamada kullanılan simge sistemi.
Simge Anlamı
w Ba� langıcında küçük harf bulunan tüm harf birlikleri.
W Ba� langıcında büyük harf bulunan tüm harf birlikleri.
# Tüm rakam birlikleri. (Gerçek sayı, tam sayılar rakamla veya yazı ile, tarih, saat, telefon numaraları, v.b.)
T Kesme/Tırnak (‘ )
TT Çift tırmak (“ )
K Tire (-)
V Virgül (,)
( Parantez açma i � areti
) Parantez kapama i � areti
: � ki nokta üst üste
; Noktalı virgül
P Tüm noktalama i � aretleri ve di � er simgeler ( %, &, $, v.b.)
EOS Cümle sonu
~EOS Cümle sonu de� il
∞ Tanımlanabilecek tüm yazım birlikleri (w, W, #, T, TT, K, V, “ (“ , “)” , P)
Çizelge 9.2.2.1.’de verilen simge sistemi ile, cümle sonu tespit
yordamında kullandı � ımız hesaplama birimi, bir üçlü � eklinde
tanımlanabilmektedir. Yordamda kullanılan hesaplama birimi, “nokta”
ve etrafındaki iki birliktir. Örne� in, [w * W] � eklinde, noktadan önce
ba� langıcı küçük olan bir harf birli � i, noktayı (* i � aret nokta için
kullanılmakta) ve noktadan sonra ba� langıcında büyük harf olan bir
harf birli � i, üçlü olarak temsil edilmektedir. Cümle sonu tespit
yordamının karar verme a� amalarında, talim derleminde kar � ıla� ılan
her durum, bu biçimde üçlü � eklinde cümle sonu olma veya olmama
açısından de� erlendirilmektedir.
Cümle sonu tespiti için kullandı � ımız yordam, simge sistemi
üzerinden tanımlanan tüm durumlar için alınabilecek üç karardan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
180
olu� maktadır, yani her durum için “ cümle sonu” , “cümle sonu de� il” ve
“belirsiz” � eklinde bir karar vermektedir:
• E� er üçlü ile temsil edilen durum listelenenlerden biriyse, “ nokta”yı, “ cümle sonu” olarak i � aretle: [w*W] , [w* #] , [w*P] , [W*#] , [W*TT] , [W* ( ] , [W* )] , [W* K] , [P*∞] .
• E� er üçlü ile temsil edilen durum listelenenlerden biriyse, “ nokta”yı, “cümle sonu de� i l” olarak i � aretle: [W*w] , [W*V] , [#* w] , [#*W] , [#*#]
• Di � er durumlarda “belirsiz” olarak i � aretle ve detaylı incelemeye al.
Yordam ile “belirsiz” olarak i � aretlenen durumlar çalı � mamızın
ve önermemizin hedefinde bulunmaktadır. Dolayısı ile, deneysel
çalı � ma ile önermemiz bu “belirsiz” durumlar için sınamayı
içermektedir.
9.2.3. Deneysel Sonuçlar
Tanımlanan yordamın, karar verme a� amalarında kullanılan üçlü
birliklerin her durumu için Çizelge 9.2.3.1.’de özellikleri verilen
deneysel bir derlem kullanılmı � tır. Aslen, bu deneysel derlem BilTD
derleminde seçilmi � bir bölümdür ve cümle sonları kontrol edilmi � ve
bulunan hatalar elle düzeltilmi � tir.
Çizelge 9.2.3.1: Cümle sonu tespiti için kullanılan Türkçe derlemin belirli özellikleri.
Bir lik ~EOS EOS Toplam
168,375 674 12,026 12,700
Nokta sayısı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
181
Deneysel derlemde, her nokta cümle sonu olup, olmaması
açısından belirlenmi � ve noktanın önündeki ve ardındaki birlikler
belirlenerek karar vermede kullanılacak her bir durum tespit edilmi � tir. Yapılan çalı � manın sonuçları Çizelge 9.2.3.2.’de tablo halinde
verilmi � tir. Çizelgeden [ P * ∞] üçlüsü çıkarılmı � tır. Bunun sebebi, bu
üçlü birli � i tüm durumlarının, yani gözlenen 495 durumun hepsinin
cümle sonu olmasıdır.
Deneysel derlemden çıkartılan durumları, belirsizli � i en yüksek
olandan dü� ü� e do� ru inceleyerek, cümle sonu tespiti yordamımızda,
“belirsiz” olarak i � aretlenecek üçlü birlikleri listelemi � olaca� ız.
Sonrasında, her belirsiz durumun çözümü verilerek yordamın
tanımlaması tamamlanacaktır.
Çizelge 9.2.3.2: Cümle sonu tespit yordamında kullanılan ve üçlü birlikle temsil edilen durumlar için Türkçe derlemden çıkartılan istatistikler.
Durum EOS ~EOS Durum EOS ~EOS Durum EOS ~EOS
[w * w] 8 10 [W * w] 0 10 [# * w] 0 267
[w * W] 9395 1 [W * W] 739 183 [# * W] 36 106
[w * #] 320 2 [W * #] 44 1 [# * #] 1 27
[w * T] 41 1 [W * T] 3 5 [# * T] 0 1
[w * TT] 601 0 [W * TT] 41 1 [# * TT] 0 16
[w * ( ] 57 0 [W * ( ] 9 0 [# * ( ] 0 1
[w * ) ] 19 0 [W * ) ] 3 0 [# * ) ] 1 3
[w * K] 174 0 [W * K ] 38 0 [# * K] 0 8
[ w * / ] 1 0 [W * V] 0 3 [# * V] 0 28
Toplam 10616 14 877 203 38 457
Deneysel derlemde kar � ıla� ılan durumların, cümle sonu olu�
açısından belirsizli � i en yüksek olandan, en dü� ük olana do� ru
sıralanmı � � eklideki � öyledir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
182
1. [w*w] : ba� langıcında küçük harf olan bir harf birli � i, nokta ve ba� langıcından yine küçük harf olan bir harf birli � i. Bu sınıftaki durumlar, gözlenme sıklı � ı açısından az olmasına ra� men, derlemimizde oransal olarak en büyük belirsizli � e sahip olandır. Bu durumun tamamını ~EOS, yani “cümle sonu de� i l” olarak i � aretlemek en uygun karar olacaktır. Çünkü, kar � ıla� ılmı � 10 EOS durumunun tamamı, :“ … yapıldı. c-) Ba� kanlıklar ….” biçiminde madde imleridir. Ayrıca, madde imi belirleme meselesi, rahatlıkla simgele� tirmeye dahil edilip halledilebilecek bir konudur. Dolayısı ile, bu belirsizlik cümle sonu tespit a� amasına da dahil olmayacaktır.
2. [W*W] : ba� langıcında büyük harf olan bir harf birli � i, nokta ve ba� langıcından yine büyük harf olan bir harf birli � i. Bu sınıftaki durumlar, gözlenme sıklı � ı açısında, belirsiz durumlar içerisinde en yüksek de� ere sahip olandır. Bu durum genellikle unvan (“Prof. Dr. Mustafa …” ) ve özel isim kısaltmaları (“ … küçük A. H. yalnız …” ) gibi yazım biçimleri içinde gözlenmektedir.
3. [#*W] : noktadan önce bir rakam birli � i, nokta ve sonrasında ba� langıcı büyük harf olan bir harf birli � i. Bu sınıftaki durumlar da, yüksek gözlenme sıklı � ına sahiptir, ancak ~EOS, yani cümle sonu olmama, EOS, yani cümle sonu olmasına göre daha baskındır. Cümle sonu olmadı � ı durumlar, genellikle “… 2. Tümen ...” gibi “ inci” anlamında, sıralama amacıyla kullanılmaktadır. Cümle sonu oldu� u durumlar da, “… ölenlerin sayısı en az 28. Fransa’da 10 …” örne� inde oldu� u gibi sayısal de� er belirtmektedir.
4. [#*P] : noktadan önce bir rakam birli � i, nokta ve sonrasında bir noktalama i � areti. Bu durumun baskın � ekli, “ … 2.’ lik için mücadele …” örne� inde oldu� u gibi, ~EOS, yani cümle sonu olmamadır. Ancak, “ … (…kitabı sf. 27.). …” örne� inde oldu� u gibi, EOS, yani cümle sonu olması da söz konusudur. Aslen, cümle sonu olu� durumu, toplam 50 durum içinde, 1 kere gözlenmektedir. Dolayısı ile, bu durumun tamamını, “cümle sonu de� i l” � eklinde kabul etmek, hesaplama açısında daha avantajlıdır. Derlem açısından, bu kararın toplamda ortaya çıkardı � ı hata, 1/12700 gibi çok küçük bir de� erdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
183
5. [W * TT] and [w * TT] : noktandan önce ba� langıcı küçük harf veya büyük harf olan bir harf birli � i, nokta ve sonrasında çift tırnak. Bu duruma uygun örneklerin, derlemde baskın olan gözlem � ekil EOS, yani cümle sonu olmadır. Bilindi � i gibi, çift tırnak, genellikler yazıyı hazırlayan yazarın, ba� ka yazarlardan alıntıların ve konu� maların aktarılması için kullanılır. Ancak, günümüz yazım
� eklinde, özellikle gazete ve dergi haberlerinde, çift tırna� ın “… yerine “ Gelme” nin …” örne� indeki gibi, kesme i � aretini de kar � ılar halde kullanıldı � ı görülmektedir. Bu durum, ayrıca dikkat edilmesi gerek bir meseledir. Çünkü, kural de� il, istisnanın yaygınla� masıdır.
Derlemden tespit edilen ve yukarıda listelenen belirsiz durumlar,
toplam 310 belirsiz durumun, 303’ ünü kapsar.
Cümle sonu tespit yordamını ve önermemizi de� erlendirirken,
yordam tarafından “belirsiz” olarak i � aretlenmi � olan 310 durumu da,
EOS, yani cümle sonu olarak kabul edersek, yalın olarak ba� arım
%94,69 do� ruluk de� erine sahip olur. Bu de� er, yalın olarak yordam
kullanıldı � ında elde edilecek e� ik do� ruluk de� eridir. Amacımız,
heceleme esasına dayanan önermemizle, do� rulu� u ne kadar
arttırabilece� imizi tespit etmektir. Çözümlerimizle ula� tı � ımız en
yüksek ba� arım de� eri %96,24’dir.
[W * W] belirsizli � inin çözümü. E� er bu durum için gözlenen
739 örnek, e� ik de� erin kabullenmesindeki gibi EOS, yani cümle sonu
olarak kabul edilirse, geriye kalan 183 ~EOS gözlemi hata olacaktır.
Dolayısı ile, durumun kendi içinde %19,84 (183/922) de� erinde bir
hata, derlem genelinde de %1,44 (183/12700) de� erinde hata meydana
gelecektir. Yani, derlem genelinde, e� ik ba� arımın ötesini olu� turan
%5,31 de� erindeki hatanın, 1,44’ü sadece bu durumdan
kaynaklanmaktadır. Derlemde yapılan incelemede, gözlemlerin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
184
genellikle, kısaltmalar v.b. örneklerden olu� tu� unu belirtmi � tik.
Heceleme esasındaki önermemiz ile bu durumda meydana getirdi � imiz
iyile� tirme, Çizelge 9.2.3.3.’de tablo biçiminde verilmi � tir. � lk
de� erlendirmede, heceleme ile bu durum için toplam hata oranı, kendi
içinde %6,8 de� erine inmi � tir (27+36/922), dolayısı ile özgün de� er
olan %19,84 de� erinden, yakla� ık %65 indirgemeye kar � ılık
gelmektedir. Söz konusu ba� arım artı � ı i le, derleme yansıyan hata
oranında, yani %1,44 de� erinde da, %0,5 bir indirgeme meydana
gelmektedir. Ayrıca, heceleme ile olu� mu� olan “ yanlı � alarm”
durumları detaylı olarak incelendi � inde, 27 yanlı � alarmdan, 18
tanesinin tek sesli harften olu� an heceler oldu� u tespit edilmi � tir. Ancak, Türkçe’de tek sesli harften olu� an kelime sadece, “ o” ve
nadiren “a” (ünlem edatı) kelimeleridir. Dolayısı ile, yanlı � alarmlardan
18 tanesi de kontrol altına alındı � ında, kendi içinde hata oranı %4,8
de� erine inmekte, derlem genelinde yaratılan toplam hata de� erinden,
yakla� ık %0,35 dü� ü� meydana gelmektedir. Özetle, heceleme
esasındaki önermemizle, toplam e� ik ba� arım de� eri, %94,69’den
%95,78’e çıkmaktadır (94,69 + 1,09).
Çizelge 9.2.3.3: Cümle sonu tespitinde, [W* W] durumu için, heceleme önermesi ile meydana gelen hata oranları.
Hece ~Hece Toplam
EOS 703 36 (hata) 739
~EOS 27 (yanlı � alarm) 156 183
[# * W] belirsizli � inin çözümü. E� er bu durum için gözlenen 36
örnek, e� ik de� erin kabullenmesindeki gibi EOS, yani cümle sonu
olarak kabul edilirse, geriye kalan 106 ~EOS gözlemi hata olacaktır.
Derleme yansıyan toplam 5,31 puanlık hatanın, 0,83 (106/12700) puanı
bu durumdan kaynaklanır. Dolayısı ilk yapılacak � ey, durumu ~EOS
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
185
olarak almaktır. Böylece, derleme yansıyan hata, puan olarak 0,28’e
inecektir. Genel ba� arım, %95,78’den, %96,06’ya çıkacaktır (0,83-
0,28). Bu 36 hatadan 5’ i, “… 3.’ lük Aydın, …” örne� indeki gibi, içinde
kesme ile ayrılmı � harf birli � i içerenlerdir. Kullandı � ımız
simgele� tirme yönteminde, “ 3.’ lük” gibi karma birlikler rakam birli � i
olarak belirlenmektedir. Cümle sonu tespitinde kullanılan yordam da,
noktayı aramaktadır. Nokta birinci birlik içinde kalmaktadır ancak, hem
bu durum hem de [#*T] durumu tetiklenmektedir. Bu hata,
simgele� tirme yordamının genele hitap etmesinden, cümle sonu tespiti
için uyarlanmamasından kaynaklanır. Sadece cümle sonu tespitinde
kullanılacak bir simgele� tirme tasarlanarak hata olu� madan da
önlenebilir. Ayrıca 5’ i de, “… suare 18:30. Harbiye …” örne� indeki
gibi, içinde iki nokta üst üste i � areti bulunduranlardır. Geriye kalan 26
hata ise, “… Zafer yılı : 1996. Fenerbahçe …” ve “… kazanan ilk üç
numara 7 4 6. …” gibi örnekleri olanlarla, “ Tel: 0312 555 55 55. …”
örne� indeki gibi telefon numarası içeren durumlardan meydana
gelmektedir. � lk 10 hata yaratan EOS, aslen içerdikleri enformasyon ile,
belirsizli � e yol açmadan EOS olarak belirlenebilir. Dolayısı ile,
toplamda geriye hata olan ve belirsiz olarak i � aretlenmi � 26 durum
kalır. Ancak, bu durumlarda detaylı incelendi � inde, 13 durumun
tamamında, sayı, numara, rakam, yıl, sene, tarih kelimelerinden biri
kullanılmı � tır . Dolayısı ile, geriye ~EOS olarak belirlenmi � 23, belirsiz
olan 13 durum kalır. Özetle, genel ba� arım %94,69’dan %96,24’e çıkar
(0,28 – 0,18).
9.3. Gövdeleme
Gövdeleme i � leminin tanımı � öyledir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
186
“ Aynı gövdeye sahip tüm kelimelerin, genel olarak, yapım ve çekim eklerinin atılması ile, ortak bir biçime getirilmesi için kullanılan bir yordamdır.”
(Lovins, 1968)
Bilgi geri-getirim sahasında ve hesaplamalı dilbilim sahasında �ngilizce a� ırlıklı olmak üzere, analitik diller için pek çok gövdeleme
yöntemi geli � tirilmi � tir. Analitik diller, biçimbirimsel üretkenlik
açısından, Türkçe gibi biti � ken dillere nazaran daha takip edilebilir
niteliktedir. Ek sistemleri, örne� in Türkçe’de oldu� u gibi, kelimelere
ait dilbilgisi özelliklerinin tamamını kar � ılamak üzere kullanılmaz.
Sadece belirli ve basit dilbilgisi özellikleri için kullanılır (bazı
kelimeler için ön-ek ile olumlu olumsuz hal üretme, kelimelerin ço� ul
hallerini yapma v.b.). Dolayısı ile, gövdeleme i � lemi, nispeten kolay bir
i � tir. Tüm gövdeleri tespit edebilmek için sadece 1200 biçimbirimsel
de� i � ikli � i üretebilen bir düzenli deyim sistemi kullanımı bile
yetebilmektedir (Porter, 1980).
Türkçe gibi biti � ken dillerde, kelime üretimi ve kelimelerin
dilbilgisi özellikleri ek sistemi kullanılarak sa� lanır. Türkçe’de yapım
ve çekim eklerinin kurallarına ba� lı kalarak kullanımı ile, üretilebilecek
anlamlı gövde sayısı, sadece tek bir kelime için dahi milyonun üzerinde
olabilmektedir (Hankamer, 1984). Dolayısı ile, hesaplamalı dilbilim
sahasında kullanılacak, Türkçe için bir gövdeleme yordamı, analitik
dillerde oldu� u kadar basit � ekilde kurgulanamaz. Ancak, bilgi geri-
getirim sahasında, gövdeleme yordamından beklenen, hesaplamalı
dilbilim sahasındaki ile bire bir örtü� mez.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
187
9.3.1. Önceki Çalı � malar
Bilgi geri-getirim sahasında, � ngilizce gibi analitik diller ve
Fransızca, Almaca gibi orta-Avrupa dilleri için kullanılan gövdeleme
yöntemleri 4 ba� lık altında toplanabilir: tablodan arama (table lookup),
takibin de� i � imi (successor variety), n-gram ve ek-atma.
Tablodan bakma yöntemlerinde, adından da anla� ılaca� ı gibi,
kelimelerin yazım biçimleri ve yazım biçimlerine ait gövdeler bir tablo
halinde tutulur. Yazımda kar � ıla� ılan harf birli � i bu tabloda yazım
biçimleri içinden aranır, bulunursa, kar � ılık gelen gövde seçilir. Ancak,
pratikte ne analitik diller için, ne de biti � ken diller için böyle genel bir
tablo yoktur. Sadece, kısıtlı konu ba� lıkları için böyle bir tablo
olu� turulabilir. Ayrıca, depolama da mesele yaratan bir konudur.
Takibin de� i � imi yönteminde, kelime veya biçimbirim
sınırlarının tespiti için, sesbirimlerinin (Türkçe için harfler olmakta)
büyük derlemlerden elde edilen deneysel da� ılımlarından yararlanılır.
Belirli bir kelime için, takibin de� i � imi kelime ba� ından sonuna do� ru
uygulanır, yani Türkçe’de ba� tan sonu do � ru her seferinde bir harf
ilerlenir. Bir kelime için takibin de� i � iminin de� eri, hesaba daha fazla
harf katıldıkça, yani ba� tan sona ilerlendikçe azalır.
Bir n-gram esaslı gövdeleme yönteminde, sorgu ve belge
birlikleri arasındaki benzerlik ölçülür. Boyu m karakterden olu� an bir
birlikten, m-n+1 adet n-gram çıkar. Benzerli � i ölçülecek bir birlik çifti
için Dice katsayısı (Dice’s coefficient : Denklem 9.3.1.1.) hesaplanır ve
n-gramların kar � ılıklı de� erleri bir matris haline getirilir. Daha sonra,
her birlik çifti için olu� turulan matrisler kullanılarak, terimler tekil-ba�
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
188
kümeleme yöntemi kullanılarak öbekler haline getirilirler, dolayısı ile
her öbek bir gövde, yöntemde bir anlamda gövdeleme olur.
)/(2 BACS += (9.3.1.1)
Denklem 9.3.1.1.’de, C terimi, iki birlik tarafından ortak olarak
içerilen farklı n-gram sayısını temsil eder. A ve B terimleri de,
kar � ıla� tırılan iki birlikten her birinde içerilen farklı n-gram sayılarını
temsil eder.
Ek atma yöntemleri, yine adında da anla� ılaca� ı gibi, kelimelerin
yazıda geçen biçimlerinden, ön-eklerin ve son-eklerin atılması ile
kelime gövdesini olu� tururlar. Porter (1980) tarafından kural tabanlı
olarak geli � tirilen yordam, bu sınıftaki gövdeleme yöntemlerine güzel
bir örnektir.
Türkçe için geli � tirilmi � olan birkaç gövdeleme yöntemi
bulunmaktadır ve gövdeleme hem hesaplamalı dilbilim hem de bilgi
geri-getirim sahasında çalı � ılmı � bir konu olarak, kelime dilbilgisi
özelikleri içerisinde en çok incelenen konu olmu� tur. Bunun haklı
sebepleri vardır. Gövdeleme bilgi geri-getirim sahasında bir çok
çalı � ma ile geri-getirim ba� arımını tutarlı � ekilde arttırıcı bir unsur
olarak rapor edilmi � tir. Ayrıca, bilgisayar ortamında kelimelerin yazım
� ekillerinin do � rudan depolanması da, yer açısından oldukça maliyetli
bir durum meydana getirmektedir.
Türkçe için geli � tirilmi � olan ilk gövdeleme yöntemi, L-M
(Longest Match) veya en uzun e� le� me adıyla Kut ve arkada� ları
(1995) tarafından yapılan çalı � mada ortaya konmu� tur. Yöntemde,
kelime gövdelerinin ve olası biçimlerinin yer aldı � ı bir sözlük
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
189
bulunmaktadır. Belge ve sorgulardaki birlikler bu sözlükte yer alan
kelimelerle harf esasında ba� tan itibaren e� le� tirilmekte ve en uzun
e� le� menin yakalandı � ı kelime, birli � in gövdesi olarak alınmaktadır.
�kinci yöntem, Solak ve Can (1994) tarafından, gövdeleme
yapmanın, bilgi geri-getirimi üzerindeki ba� arım etkilerinin
ölçülmesine dair bir çalı � mada ortaya konandır. A-F adıyla anılan
yöntemde, güncel kullanımda olan Türkçe gövdelerin ve her gövde
için, gövde üretme yordamını destekleyen 64 özelli � in içerildi � i bir
sözlük kullanılmı � tır. Belge ve sorgudaki bir birlik için, her seferinde
ba� tan bir harf hesaba katılarak sa� a do� ru ilerlerken, sözlükten
e� le� tirme yapılmaktadır. E� er e� le� en bir kelime kökü bulunursa, olası
gövdeleri türetilmekte ve birlikle tam örtü� en bir türeyi � olması
halinde, söz konusu türetim, birlik için olası bir gövde olarak
belirlenmektedir. Bu yöntemle, bir birlik için olası birkaç gövde
belirlenebilmektedir. Çalı � mada, bir Türkçe birli � in, yani bir kelimenin
yazımdaki biçimi için ortalama 1,2 adet gövde oldu� u bildirilmi � tir (90.912 farklı birlik için, 111.092 gövde üretilmi � tir). Solak ve Can
tarafından geli � tiri len bu gövdeleme yöntemi, aslen Oflazer (1993)
tarafından geli � tirilmi � olan biçimbirimsel analiz yordamının, bilgi
geri-getirim sahasında kullanılabilecek bir uyarlamasıdır. Aynı kural
kümesi, iki-seviyeli dil modeli yerine, daha hızlı çalı � acak � ekilde
tasarlanmı � tır.
Türkçe için verece� imiz son yöntem, Sever ve Bitirim (2003),
tarafından geli � tirilmi � olan FindStem adlı gövdeleme yordamıdır. Bu
yöntem üç alt yordamdan meydana getirilmi � tir: Kökün bulunması,
biçimbirimsel analiz ve gövdenin belirlenmesi. Yordamlara destek
olarak, güncel Türkçe kelime kökleri, kelime köklerine ait
biçimbirimsel analizde kullanılacak özelikler, kelimenin olası sözcük
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
190
türleri ve kelime türetme için gerekli dizim kurallarının içerildi � i bir
sözlük de olu� turulmu � tur.
FindStem yönteminin, kökün bulunması alt yordamında,
incelenen birlik için olası tüm kelime kökleri tespit edilmektedir. Olası
kelime kökleri bulunurken, sözlükte kodlanmı � olan biçimbirimsel
özellikler de (son harf de� i � imi “ara-arıyor” ; sondaki sedasız sessizin
sedalıla� ması “kitap-kitabı” ; orta hece seslisinin dü� mesi “ o� ul-
o� lum” ) hesaba katılarak kökler belirlenmektedir. Biçimbirimsel analiz
alt yordamında, yapım ekleri ve çekim ekleri ayrı olarak ele alınmakta
ve incelenmektedir. Yapım ekleri kendi içinde, fiil kökünden türemi � isim gövdeleri ve isim kökünden türemi � isim gövdeleri ayrımı
gözetilerek atılmaktadır. Gövdenin tespiti alt yordamında, e� er önceki
iki alt yordam tarafından tespit edilebilmi � bir gövde veya kelime kökü
yoksa, bu a� amada birlik oldu� u gibi bırakılmakta ve bir kayıt
dosyasına konmaktadır. Çalı � mada bu kayıt dosyasına atılmı � olan
kelime daha sonra incelenip, sözlü� e eklendi � i belirtilmektedir. Kayıt
dosyasına atılan birliklerin ço� unlu� unun, yabancı kelimeler oldu� u ve
Türkçe’ye uyarlanarak alındı � ı belirtilmi � tir.
Sever ve Bitirim (2003), FindStem yöntemini hem L-M hem de
A-F yöntemi ile kar � ıla� tırmı � lardır. Yöntem, gövdeleme olarak da,
bilgi geri-getirim ba� arımına etki olarak iki yöntemden üstün sonuçlar
vermi � tir. Yazarların çalı � malarında belirttikleri husus, Türkçe gibi
biti � ken dillerde, biçimbirimsel analiz yapılmadan gövdeleme
yapmanın hatalara sebep oldu� udur. Örnek olarak “edebilecek”
birli � inin, olası kelime gövdelerinin “edebi” , “edep” ve “ede” � eklinde
oldu� u, biçimbirimsel analiz yapılmadan, en uzun e� le� me fikri
esasında gerçek gövdenin tespit edilemeyece� i belirtilmi � tir. Ayrıca,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
191
sözlük kullanmanın da gereklil i � i, lehte fikirler sunularak üzerinde
durulmu� bir meseledir.
9.3.2. Öner ilen Yöntem
Bilgi geri-getirim için uyarlanacak her dilbilimsel yöntem için
olması gerekti � ini söyledi � imiz � artlar, yani sözlüksüz çalı � ma ve
hesaplama karma� ıklı � ının dü� ürülmesi, önerdi � imiz gövdeleme
yöntemi için de geçerlidir. Yöntem kurgusal olarak, istatistik/olasılık
esasına dayanmaktadır. Yöntemi vermeden önce, kullanılacak simge
sisteminin tanıtılmaya ihtiyacı vardır. Dolayısı ile, tanıtımımız simge
sistemi ile ba� lamaktadır.
9.3.2.1 Simge Sistemi
Belge veya sorgudaki, yazım biçimi olarak belirli bir birlik, yöntem anlatımı içinde, nn hhhs �21= � eklinde bir harf silsilesi olarak
temsil edilmektedir. Temsilde, her harfi belirten ih ( ni ,,2,1 �= )
simgesi, tanımlanmı � olan bir Türkçe alfabenin (A) elemanıdır ve n
indisi kelimenin harf olarak uzunlu� unun sayısal de� erine e� ittir. Yöntemde kullanılmak üzere tanımlanmı � Türkçe alfabe, geçerli
alfabenin 29 harfi ve ek olarak bir de “_” (alt tire, kelime sonunu
belirtmek için, yani bo � luk yerine kullanılmaktadır) simgesini
içermektedir:
{ }_'',,,,,,,,,,,,,,,,,,,,,,,,,,,,, zyvüut�srpöonmlkjiıh�
gfedçcbaA = (9.3.2.1.1)
Birlik temsili için kullandı � ımız, ns harf silsilesinin, herhangi bir
kısmi harf silsilesi de, ( nji ≤≤≤1 ), [ ] jiin hhhjis �1: += ,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
192
[ ] jn hhhjs �21: = ve [ ] nin hhis �=: � ekilde üç biçimde temsil
edilebilmektedir. Bu kısmi harf silsileleri içerisinde, [ ] 11: +=+ iin hhiis
ile temsil edilen ve iki harften olu� an çift (2-gram) hesaplama birimi olarak kullanıldı � ından dolayı, ihh ),( 21 � eklinde özel bir biçimsel
temsile daha sahiptir ( ni ,...,2,1= ). Kullanılan indis, i,
Ahhhh ii ∈== +121 , olacak � ekilde, çifte ait ilk harfin gerçek silsile
içindeki sıra numarasıdır. ni = durumunda, çiftin son harfi için sıra
numarası, görüldü� ü gibi birli � in boyunu a� maktadır. Bu durumda, çift,
ilk harfi silsilenin son harfi ve ikinci harfi “ _” olarak alınıp,
ninh =)_'',( � eklinde meydana getirilmektedir.
Belirli bir harf çifti için, jhh ),( 21 ( max1 nj ≤≤ , maxn simgesi
Türkçe kelimelerin olası en uzun harf sayısıdır14.) bu çiftin verilen bir
birlik temsili içinde bulundu� unu, yani bu iki harfi aynı sıralama ile içerdi � ini belirtmek üzere, nj shh ∈),( 21 ifadesi kullanılacaktır. Bu
ifade, ihh ),( 21 çifti ile belirti len ve ns birlik temsilinde, i
pozisyonunda bulunan belirli bir çift için, ji hhhh ),(),( 2121 =
durumunu ancak i=j ise sa� lanacaktır. Yani, hem harfler e� le� ecek hem
de j indisi silsile içindeki yeri de belirtecek. Harfler silsile içinde e� le� iyor olsa bile, j indisi ile belirtilen yerde de� illerse, jhh ),( 21 çifti
ns birlik temsilinin elemanı olarak sayılmayacaktır ( nj shh ∉),( 21 ).
Son olarak, [ ]msg nm := ve [ ]:11 +=+ mse nm � eklinde iki temsil
daha tanımlayarak simge sistemimizi belirlemi � oluyoruz ( nm≤≤1 ).
Bu iki kısmi temsil ile, belirli bir birli � i, ardı � ık iki parçadan olu� an bir
harf silsileleri çifti � eklinde, yani ),( 1+= mmmn egs biçiminde de temsil
edebilmek için tanımlıyoruz.
14 Deneysel derlemimizde, rastlanan en uzun birlik 23 harften olu� maktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
193
9.3.2.2 Sıralı Çiftler ve Örneklem Kümesi
E� er L kümesini, max,...,2,1 ni = olacak � ekilde, Türkçe yazılı
birliklerde gözlemlenebilecek tüm olası ihh ),( 21 sıralı çiftlerinin
toplulu� u olarak tanımlarsak; L kümesi, ihh ),( 21 sıralı çiftleri için
örneklem kümesi olur ve Denklem 9.3.2.2.1.’de verildi � i � ekilde
biçimsel olarak temsil edilebilir.
{ } 1 , ),( max2121 ni�
hhhhL i ≤≤∧∈=
Ayrıca, LTEG kkk ⊂,, olacak � ekilde, kG , kE ve kT
kümelerini, ihh ),( 21 çiftleri için olay kümesi olarak kabul edersek
( max1 nk ≤≤ ).
{ } m1 ),( ),( max2121 nghhkihhG miik ≤≤∧∈∧==
{ }max2121 m1 ),( ),( nehhkihhE miik ≤≤∧∈∧==
��� ��
� ���
≤≤++=∧=
=== +
max
12121
1
; ]1:1[ ]:[
;
),(
ni
mmehmmgh
mki
hhT mmik
kG olay kümesi, gövde içinde gözlenen çiftleri; kE olay kümesi,
ek silsilesi içerisinde gözlenen çiftleri; kT olay kümesi de, bir birlik
içerisinde, gövde ve ek birle� iminde yer alan çiftleri, yani birinci harfi
gövde kısmının sonunda kalan harfi, ikinci harfi de ek kısmının
ba� langıcında olan çiftleri içermektedir.
Tanımlanan, L örneklem kümesi ve kG , kE ve kT olay kümeleri
sayesinde, verilen bir nn hhhs 21= birlik temsilinde, ni ,...,2,1=
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
194
sırasındaki herhangi bir ihh ),( 21 çift için, gövdenin bir parçası olma
olasılı � ı, ek sisteminin bir parçası olma olasılı � ı ve gövde ile ek
sisteminin geçi � inde olma olasılı � ı hesaplanabilir.
[ ]( ) ( ) ( )iiiin hhGhhGiis ),(P ),(Pr1:Pr 21G21 =∈=∈+ (9.3.2.2.1)
[ ]( ) ( ) ( )iiiin hhEhhEiis ),(P),(Pr1:Pr 21E21 =∈=∈+ (9.3.2.2.2)
[ ]( ) ( ) ( )iiiin hhThhTiis ),(P),(Pr1:Pr 21T21 =∈=∈+ (9.3.2.2.3)
9.3.2.3 Talim Derleminden Olasılıkların Tespiti
Denklem 9.3.2.2.1, .2, ve 3.’de belirtilen olasılıkların deneysel
de� erlerinin bulunabilmesi için kullanılacak hesaplama yöntemleri,
sırasıyla, Denklem 9.3.2.3.1, .2, ve 3.’de verilmi � tir.
( ) /*),( ,,21 NwfhhP igigiG = (9.3.2.3.1)
( ) NwfhhP ieieiE /*),( ,,21 = (9.3.2.3.2)
( ) NwfhhP ititiT /*),( ,,21 = (9.3.2.3.3)
Hesaplama için verilen denklemlerde, igf , , ief , , ve itf ,
simgeleri sırasıyla, ihh ),( 21 çiftinin i sırasında, gövde içinde görülme
sıklı � ı, ek silsilesi içinde görülme sıklı � ı ve gövde-ek birle� iminde görülmesi sıklı � ıdır. igw , , iew , , and itw , simgeleri ise, i sırası için
igf , , ief , , ve itf , görülme sıklıklarına verilecek, 0 ile 1 arasında
a� ırlık de� erleridir. A � ırlık de� erleri, her ihh ),( 21 çifti için, toplamı 1
edecek � ekilde tespit edilmektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
195
9.3.2.4 Olasılık Esasında Gövdeleme Yordamı
Denklem 9.3.2.2.1, .2, ve 3. ile, verilen bir nn hhhs �21= birlik
temsili için olası kelime gövdeleri Önerme 9.3.2.3.1.’de verildi�i � ekli
ile tespit edilebilir.
Önerme 9.3.2.3.1: E�er, verilen bir nn hhhs �21= , birlik temsil i
için, nm≤≤1 sırasında, belirli bir 10 ≤≤ α sabiti için, ( ) ( )mGmE hhPhhP ),(),( 2121 > ve ( ) α≥−121 ),( mT hhP
� artı sa�lanıyorsa; aynı birli
�in ),( 1
1mm
mn egs −
− =
ardı � ık silsile çifti temsili içindeki, 1−mg kısmi harf
birli�i, nn hhhs �21= birli
�inin, seçilen α sabit
de�erindeki olası gövdesi olacaktır.
Önerme, 10 ≤≤ α parametresi ile ayarlanabilir, bir ba� ka
söyleyi � le uyum sa�layabilir (adaptive) bir gövdeleme yöntemi tarif
etmektedir. Örne�in, belirli bir bilgi geri-getirim sisteminin hedef aldı
�ı
belge uzayı için, en uygun 10 ≤≤ α parametre de�eri, ba� arımın en
yüksek oldu�u noktanın talimle elde edilmesi ile belirlenebilir. Ayrıca,
sorgu geri-beslemesinde kullanıcının alaka ile ilgili ba� arım geri-
bildirimlerine göre de�i � en bir parametre de
�eri saptamasına da
gidilebilir.
9.3.3. Deneysel Sonuçlar
Gövdeleme için önerdi�imiz kurgunun deneysel sınamalarında,
talim ve test derlemleri için BilTD derleminden farklı iki parça
alınmı � tır. BilTD derleminden alınan talim ve test derlemlerinin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
196
özellikleri, ve yöntemin genel ba� arımı Çizelge 9.3.3.1.’de tablo
halinde gösterilmektedir.
Çizelge 9.3.3.1: Gövdeleme yöntemi sınamalarında kullanılan Talim ve Test derlemi özellikleri.
Derlem Birlik Farklı Bir. Gövde Bilinmeyen Üretilen Çift Say. Ba� arım(%)
Talim 149,189 36,902 10,568 * * 5,648 *
Test 148,486 36,563 10,253 4,102 9828 * 95.8
Çizelgeden de görülebilece� i gibi, talim derleminin boyutu
149.189 harf birli � i, test derleminin boyutu da 148.486 harf birli � idir.
“Farklı Bir.” sütununda, farklı yazım biçimine sahip harf birli � i sayısı;
“Gövde” sütununda, derlem içinde gözlenen farklı yazım biçimlerine
sahip gövde sayıları; “Bilinmeyen” sütununda, test derleminde bulunan,
fakat talim derleminde olmayan farklı gövde sayısı; “Üretilen”
sütununda, test derleminin gövdelerinden, önerilen yöntem ile
üretilebilmi � lerin sayısı; “Çift Say.” sütununda, talim derlemindeki harf
birliklerinden elde edilen, farklı biçim ve de� i � ik sıralı, harf çiftleri
sayısı; “Ba� arım” sütununda da, önerilen yöntemin gövdeleri
üretebilme do � rulu� u, yani yordamın ba� arımı oransal olarak
verilmi � tir (%95,8).
Derlemlerde, BilTD derlemi biçimbirim ve söz-dizim analizine
sahip oldu� u için gövdeleri bellidir. Ancak, BilTD derlemi otomatik
olarak üretildi � i için, gövde ve eklerde görülen hatalar elle
düzeltilmi � tir. Test derlemindeki 36.563 birlik, 10.253 farklı gövdeden
türetilmi � tir. Dolayısı ile, gövdeleme ile bu derlem üzerinde
yakalanabilecek sıkı � tırma oranı %71’dir. Bunun anlamı, bir Türkçe,
bilgi geri-getirim sistemi için indeks terim listesinin %71 oranında
küçültülmesidir. Söz konusu sıkı � tırma oranı, gövdeleme ile test
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
197
derlemi için ula� ılabilecek üst sınır de� erdir. Önerilen yöntemle, 10.253
gövdeden, 9.828 tanesi do � ru � ekilde üretilebilmi � , 1.154 birlik için
üretilen gövdelerden hiçbiri gerçek gövde ile e� le� memi � tir, yani 425
gövde bulunamamı � tır. Dolayısı ile, önerilen yöntemin sıkı � tırma oranı
%69 de� erinde kalmı � tır ((9828+1154)/36563).
Önerilen yöntemde, uyum sabiti α , 0 ile 1 aralı � ında bir gerçek
sayıdır. Bir sıralı harf çiftinin, gövde ile ek geçi � inde olma olasılı � ı için
alt sınır de� er belirlemek için kullanılmaktadır. Dolayısı ile, geçi � olasılı � ının en yüksek de� erine e� itlenirse, tüm birlikler hiçbir
bölünmeye u� ramadan, bütün halde gövde olarak üretilirler. E� er, en
dü� ük geçi � olasılı � ının altında bir de� ere, örne� in sıfıra (0) e� itlenirse,
her birlik için, önermenin ilk � artının da sa� landı � ı olası tüm geçi � ler,
gövde olma için yeterli görülüp, en yüksek derecede bölümleme ile
üretim yapacaktır. Bu iki uç nokta arasında, yöntemin bir harf birli � i
için üretebilece� i olası tüm gövdeler, α sabitinin sıfıra e� itlendi � i
durumdaki üretimi ile kapsanmaktadır. Fakat, birlik ba� ına üretilen
ortalama gövde sayısının da en yüksek de� erine sahiptir. Sabit
büyüdükçe, ortalama dü� mekte, sabitin, geçi � olasılı � ının en yüksek
de� erine e� itlenmesi ile, ortalama üretilen gövde sayısı bire (1) e� it olmaktadır, yani birli � i aynen gövde olarak vermektedir.
Sınama için, α sabiti sıfıra e� itlenmi � ve yöntemin, test
derlemindeki birlikler için üretebilece� i tüm olası gövdeler
de� erlendirmeye alınmı � tır. Yöntem, test derleminde bulunan 36.563
harf birli � i için, 72.967 olası gövde üretmi � tir, yani her birlik için
ortalama 2 gövde üretilmi � tir. Türkçe için, ek terkip sabiti 2,86 (index
of synthesis) olarak verilmi � tir (Sever ve Bitirim, 2003). Ek terkibi, bir
dilde, kelimelere getirilen ortalama ek sayısıdır. Yöntemin bu de� erden
daha az sayıda olası gövde üretmesi de, kelimedeki eklerin yalın
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
198
� ekilde belirlenip gövdelere ayrılması � eklinde tanımlanabilecek
tamamen rastlantısal bir yöntem olmadı � ını, aksine önermenin ekle� me
da� ılımını temsil edebildi � ini göstermektedir. Bir ba� ka söyleyi � le,
önerilen istatistiksel kurgu ile, ekle� menin oldu� u noktalar da� ılım
olarak belirlenebilmektedir. Daha önceleri de, bu tip ekle� me
noktalarını tespite yönelik, olasılı � a dayalı yöntemler denenmi � tir, ancak pozisyon bilgisi bu yöntemlerde kullanılmamı � tır. Önceki
önermelerin ba� arısızlıklarının temelinde, pozisyon enformasyonunun
kullanılmamasının önemli bir etmen oldu� u dü� ünülmektedir.
Talim derleminden, toplam 5.648 farklı biçimde, de� i � ik sırada
harf çifti elde edilmi � tir. E� er bu harf çiftleri, yöntemin kelime
da� arcı � ı olarak kabul edilirse, kelime da� arcı � ı kapalıdır. Bu harf
çiftlerinden, 2.845 çift sadece gövdede, 1.048 çift sadece ekte ve 322
çift sadece gövde-ek geçi � inde gözlenmi � tir. Bu üç ayrık, harf
çiftlerinin toplamı 4.215’dir. Geriye kalan 1.433 ortak çiftin, 1.397
tanesi gövde ve ek kümesi ortaklı � ı içindedir. Yöntemin karar vermesi
gereken harf çifti, yani önerimin birinci � artının kullanıldı � ı harf çifti
sayısı da budur. Oran olarak, harf çiftlerinin yakla� ık %50’si gövdede,
%18’u ekte ve sadece %24’ü gövde ile ek ortaklı � ında gözlenmektedir.
Önerimin neden %95 düzeylerinde ba� arım sa� ladı � ının, cevabı da bu
oranlardan açıkça görülmektedir.
Test derlemindeki birlikler için, üretilen gövdenin do� ru kabul
edildi � i hal, üretilen herhangi bir gövde ile test derlemindeki birlik için
belirlenmi � olan gövdenin harf esasında tam olarak e� le� mesidir. Aslen,
birlikler için üretilmi � olası gövdeler, tamamen anlamsız kelimeler
de� ildir, ancak hataların yanında, örne� in “ seviyor” birli � i için üretilen
“sev-iyor” ve “ sevi-yor” gövdelerinde oldu� u gibi, “ -i-yor” ek
terkibinin iki parçasının da belirlenmesinden kaynaklanmaktadır. � � te
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
199
α sabiti en uygun de� er için, talim edilmesi gereklili � inin altında yatan
sebep budur. Hatalarsa, genellikle yabancı kelimeler, kısaltmalar v.b.
durumlardan kaynaklanmaktadır. Bu hataların büyük kısmı, pekala
simgele� tirme a� amasında tespit edilebilir niteliktedir. Mesela,
simgele� tirme a� amasında, gövdeleme i � lemine tabi tutulması gereken
kelimeler veya gövdeleme i � leminden muaf tutulması gereken
kelimeler önceden belirlenerek, gövdeleme esnasında bu hataların
olu� turulması önlenebilir.
Önerilen yöntemle, örnek 3 birlik için üretilmi � gövdeler Çizelge
9.3.3.2.’de gösterilmi � tir. Sever ve Bitirim (2003) tarafından, Türkçe
gövdeleme yordamları arasında kar � ıla� tırmaların yapıldı � ı çalı � mada
örnek olarak kullanılan “edebilecek” ve “göz...” birlikleri i le, “ abartılı”
birli � i incelenmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
200
Çizelge 9.3.3.2: Önerilen gövdeleme yöntemi ile üretilmi � gövdelere örnekler.
h1 h2 i gm em PG(.) PE(.) PT(.) Gövde1 a b 1 a bartılı 0.002776 0.000000 0.000000
2 b a 2 ab artılı 0.000466 0.000000 0.000000
3 a r 3 aba rtılı 0.002364 0.000706 0.000003
4 r t 4 abar tılı 0.000175 0.000002 0.000025
5 t ı 5 abart ılı 0.000123 0.000255 0.001478 abar
6 ı l 6 abartı lı 0.000004 0.002519 0.000103 abart
7 l ı 7 abartıl ı 0.000088 0.002748 0.000016 abartı
8 ı _ 8 abartılı 0.000000 0.009593 0.000289 abartıl
9 e d 1 e debilecek 0.008549 0.000000 0.000000
10 d e 2 ed ebilecek 0.000457 0.000000 0.002373
11 e b 3 ede bilecek 0.000022 0.000186 0.000000 ed
12 b i 4 edeb ilecek 0.000998 0.000685 0.000021
13 i l 5 edebi lecek 0.000994 0.000644 0.001985
14 l e 6 edebil ecek 0.001457 0.016941 0.000006 edebi
15 e c 7 edebile cek 0.000002 0.001278 0.000001 edebil
16 c e 8 edebilec ek 0.000036 0.001523 0.000000 edebile
17 e k 9 edebilece k 0.000002 0.002951 0.000000
18 k _ 10 edebilecek 0.000000 0.004037 0.000240
19 g ö 1 g özetmeden 0.017605 0.000000 0.000000
20 ö z 2 gö zetmeden 0.007050 0.000000 0.000000
21 z e 3 göz etmeden 0.005962 0.000000 0.000228
22 e t 4 göze tmeden 0.010047 0.000000 0.000163
23 t m 5 gözet meden 0.000296 0.000174 0.000416
24 m e 6 gözetm eden 0.000602 0.005776 0.000029 gözet
25 e d 7 gözetme den 0.000007 0.000198 0.001506 gözetm
26 d e 8 gözetmed en 0.000037 0.006912 0.000000 gözetme
27 e n 9 gözetmede n 0.000034 0.003872 0.000007
28 n _ 10 gözetmeden 0.000000 0.021110 0.000283 gözetmede
Çizelgede, “h1” ve “h2” sütunlarında verilmi � harflerin, birlik
içinde “ i” sırasındaki sıralı çift için, “PE(.)” olasılı � ı, yani ek içinde
olma olasılı � ı, “PG(.)” olasılı � ından, yani gövde içinde olma
olasılı � ından büyük olup da, varsa bir önceki çift için “PT(.)” olasılı � ı,
yani bir gövde-ek geçi � inde bulunma olasılı � ı sıfırdan büyük olanlar
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
201
renkli dolgu ile belirlenmi � tir. Bir ba� ka söyleyi � le, önermeyi sa� layan
sıralı çiftler i � aretlenmi � tir.
Verilen ilk örnek, “abartılı” birli � idir. Bu birlik içinde, “ab-
isim” , “ abar-fiil” , “abartı-isim” ve “abartılı-isim(sıfat)” gövdeleri
vardır. Sıfat olarak kullanılan “abartılı” isim gövdesi, “abartı” isim
gövdesinden, “ -lı” isimden isim yapma eki ile türetilmi � tir. “ abartı”
ismi, “ abar” fiilinden “ -tı” fiilden isim yapma eki ile türetilmi � tir. “abar” fiil i, “ ab” isminden anlamca çok farklılık gösterdi � i için, “ -ar”
isimden fiil yapma eki ile mi türetilmi � tir bilemiyoruz. Fakat analizi
sadece biçimbirimsel olarak yaptı � ımız, anlamı ise, i � e katmadı � ımızı
dü� ünürsek, “abar” fiili, “ab” isminden “ -ar” isimden fiil yapma eki ile
türetilmi � tir diyebiliriz. Aslen bu gövde türetimleri arasında, “aba-
isim” , “abart-fiil” ve “abartıl-fiil” gövdeleri de vardır. “aba” isim
gövdesi, “ -a” isimden isim yapma eki ile “ab” isim kökünden türetilmi �
olabilece� i söylenebilir. Fakat, “ab” , yani “su” anlamını kar � ılayan bir
isim kökünden, “aba” , yani “abla, anne” veya “ yünden, dövülerek
yapılan kalın ve kaba kuma� ” anlamını kar � ılayan bir gövde türetilmi �
olabilir mi, sorusunun cevabını vermek bu tez kapsamını oldukça a� ar.
Devam edersek, “abart” fii l gövdesi, “abar” fii l gövdesinden, “ -t”
fii lden ettirgen fiil yapma eki ile türetilmi � , bir gövde olarak kabul
edilebilir. Aynı � ekilde, “abartıl” edilgen fiil gövdesinin, yine “abar”
fii l gövdesinden, “ -l” fiilden ettirgen fiil yapma eki ile türetildi � i
dü� ünülebilir. Çünkü, “ -ı” harfi, Türkçe’de kayna� tırma harfi olarak da
kullanılır. Bu kadar zengin ba� ka örneklerin sayısı nedir, � u an için bir
bilgimiz yok, ancak tek bir birlik içinde, kök olan “ab” kelimesinden
di � er gövdelerin biçimbirimsel türetili � leri incelendi � inde, rahatlıkla
görülmektedir ki, söz konusu gövdelerden hangisinin yazımda
kullanılan anlamı verdi � inin tespiti, öyle kolayca halledilebilecek bir
mesele de� ildir. Bu noktada, Sever ve Bitirim (2003) tarafından yapılan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
202
“biçimbirimsel analiz olmaksızın, bir birli � e ait olası gövdenin ne
oldu� unu belirlemek mümkün de� ildir” hükmüne katılıyoruz. Burada
kastedilen biçimbirimsel analizin, anlamların da hesaba katıldı � ı bir
analiz olması gerekti � ini vurgulamak da istiyoruz. Ayrıca, “a” harfinin
ünlem edatı olması sebebi ile, bir kelime kökü oldu� u da dü� ünülünce,
8 harflik tek bir birlikten, toplam 8 gövde türetebilece� i gibi bir
gerçekle de kar � ı kar � ıya kalıyoruz.
Önerdi � imiz yöntemle, “abartılı” birli � i için Çizelge 9.3.3.2.’de
“Gövde” sütununda yer alan, üretilmi � üç seçenek gösterilmi � tir: “abar” , “abart” , “abartı” ve “abartıl” . Çizelgede gösterilemeyen, ancak
her birlik için önermenin do � ru oldu� u, son sıralı çiftler için de, birli � in
kendisi, gövde olarak üretilmektedir. Dolayısı ile, “abartılı” gövdesi de
üretilenler arasındadır. Ayrıca, önerme hiçbir sıralı ikili için geçerli
olamamı � sa, birli � in yine kendisi, gövde olarak üretilmektedir.
Yukarıda, “abartılı” birli � i için verilen dilbilimsel çözümlemenin
ı � ı � ında, be� seçenekten, yani “abar” , “abart” , “abartı” , “ abartıl” ve
“abartılı” seçeneklerinden hangisinin gerçek gövde olarak alınması
gerekti � i belirsizdir. Çünkü, hepsi anlamca aynı olan ve “abar” fiil
kökünden türetilmi � isim ve fiil gövdeleridir. “abar” fiil kökünü almak
ta yanlı � de� ildir, “ abartılı” isim (sıfat) gövdesini almak da; hatta
aradaki türetimlerden birini de gövde olarak almak, aslen hata de� ildir.
Çizelgede verilen ikinci örnek çözümleme, “edebilecek”
birli � idir. Bu birlik için önerilen yöntemle, her � ey dahil, dört olası
gövde üretilmi � tir: “ ed” (yani “et-fiil” ), “edebi” , “edebil” ve “edebile” .
Çizelgeden takip edilebilece� i gibi, “ et” fiil kökünden itibaren, birli � e
eklenen harflerin ekte bulunma olasılıkları “PE(.)” çok yüksek
seyretmi � tir, aynı zamanda gövdede bulunma olasılı � ı da “edebil” fi il
gövdesinden itibaren çok küçük de� erlerde kalmı � tır. Sever ve Bitirim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
203
(2003) tarafından verilen “edebilecek” birli � i, aslen bir birle� ik fiildir.
“et-” fii li ile “ bil-” fiilinin birle� mesinden meydana gelmi � tir. Ba� ka
fii llerle, birle� ik fiil yapabilen, “ bil-” fiilinin i � levi, birle� ti � i fiile
iktidar anlamı katmaktır. “ bil-” fii linin önüne gelen fiil, genellikle isim-
fii l (gerund) halindedir: yap-a bil, ed-e bil, gel-e bil gibi. Birle� ik
fii llerde, yardımcı fiil olarak kullanılan fiil, asıl anlamının dı � ında
kullanılır. O yüzden, bu birlikte sanki, “ -ebil, -abil” gibi bir ek varmı � hissi do � abilir. Fakat, Türkçe’de “ -ebil” , “ -abil” diye bir ek yoktur (Bu
tür detaylara girmemek için olsa gerek, Kemal Oflazer15, tüm yardımcı
fii l olarak kullanılan fiilleri “ bil” , “ ver” , “gel” , “gör” , “dur” , kal” , “ yaz”
ve “koy” , Türkçe’de yapım eki olarak tanımlamı � tır.). Dolayısı ile, bu
birli � in gövdesi, esas fiil olarak “et” fiili, birle� ik fiil olarak “edebil”
fii lidir. “ede” isim-fiil’ dir, geçici bir yapıdadır, “et-“ fiilinin “ -a, -e”
çekim eki ile yapılan isim-fiil halidir, yani çekim ekiyle olu� turulan bir
kipidir. � sim-fiiller aslen, bir hareket hali kar � ılarlar, daha do� rusu bir
hareketin, ne � eklinde yapıldı � ını ifade ederler. Bu açıdan, zarf olarak
da kullanım alanında görülebilirler. “edebil-” birle� ik fiili, en son
olarak da “ -acak, -ecek” fiil çekim eki alarak, sıfat-fii l (participle)
haline gelmektedir. Sıfat-fiiller aslında nesneleri, isimleri ile de� il de,
hareketleri ile kar � ılamak için kullanılırlar. Vasıflandırma ile nesneleri
kar � ıladıklarından dolayı, sıfat olarak kullanılmaya yatkındırlar: “yap-
acak” ki � i, “ dü� -ecek” adam örneklerinde oldu� u gibi. Ek aslen, fiil
çekim ekidir, ancak, isim-fiilde oldu� una benzer bir � ekilde, çekim
ekli � inden çok, geçici olarak nesneleri hareketleri ile kar � ıladıklarından
dolayı, isim gövdesi gibi yorumlanabilir, ancak tabii, fii lin yine çekim
eki ile meydana getirilen bir kipidir. Bu yüzden, iki çekim ekinin de,
yapım ekli � ine çok yakın bir i � lev gördü� ü söylenebilir, ancak bu
durum çekim eki oldukları gerçe� ini de� i � tirmez. “edep” ve “edebi”
15 Kemal Oflazer, Elvan Göçmen ve Cem Boz � ahin tarafından yazılan “An Outline of Turkish Morphology” kitap bölümünde, fiil çekimleri kısmında.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
204
isim gövdelerine gelince, zaten yukarıdaki verdi � imiz açıklamadan da
anla� ılaca� ı gibi, “ edebilecek” birli � i ile hiçbir anlamsal alakaları
yoktur. � kisi de, müstakil anlamlar ta� ırlar. Özetle, “ edebilecek”
birli � ine bir gövde seçilmesi gerekiyorsa, tek bir seçenek vardır, o da
“edebil” birle� ik fii lidir. “ et-” fiil ini gövde olarak seçmek, birli � in
bütün halinde kar � ıladı � ı iktidar anlamını yok edece� i için, anlamsal
açıdan yanlı � tır. Bu tür birle� ik fii llerin, gövdeleri aslen biçimbirimsel
analiz olmadan tespit edilemez. Ancak, Oflazer (1993) tarafından
geli � tirilmi � , Türkçe’nin yegane biçimbirim analiz yordamına da, bu
yardımcı fii lleri yapım eki olarak belirledi � i ve daha birkaç mesele
sebebiyle, bir çekince koymak istiyoruz. Örne� in, “edebilecek” birli � i
için, biçimbirimsel analizler � unlardır:
et+Verb+Pos DB+Verb+Able DB+Adj+FutPart+Pnon (Çöz.1)
et+Verb+Pos DB+Verb+Able+Fut+A3sg (Çöz.2)
Analizlerde, “ ^DB” bir yapım eki kullanıldı � ını belirtir. Örne� in,
1. çözümlemede, ilk önce “et-” kelimesinin fiil (Verb) kökü ve olumlu
(Pos) oldu� u vardır. Ardından “ -ebil” yapım eki geldi � i (^DB), yapım
eki ile “ et” fiilinin, tekrar fiil (Verb) oldu� u ve birle� tirme kipinde16
bulundu� u (Able17) belirtilmi � tir. En son “ -ecek” yapım eki alarak sıfat
oldu� u (Adj) ve istisna-i sıfat çekim eki aldı � ı (FutPart), bu çekim
ekinin de eylemin öznesi ile uyum göstermek için iyelik eki aldı � ı,
ancak bu birli � in iyeliksiz oldu� u (Pnon) kodlanmı � tır. Neden istisna-i
sıfat eki deniyor, alıntı yaparak veriyoruz:
16 OSTAD kullanım kılavuzunda verildi � i � ekli budur. � ngilizcesi “compounding-modality” olarak belirtilmi � tir. 17 OSTAD kullanım kılavuzundaki açıklamasında, “yapabilir” olarak tanımlanmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
205
“ Sıfatların Çekim Ekleri: Sözlüksel veya türetilmi � sıfatlar çekim eki almazlar.� stisnalar vardır: +Adj+PastPart ve +Adj+FutPar eylemin öznesi ile uyumu göstermek için iyelik uyum eki (+Pxxx) alırlar. Sıfatlara yapılan di � er tüm bükümler ada dönü� türme (type-raising) içerir ve tüm bükümler bo� biçimbirim türetmesinden sonra ad üzerinde gösterilir.”
OSTAD derleminin kullanım kılavuzunda, “FutPart” gelecek
zaman ortacı (sıfat-fiil) olarak tanımlanmı � tır. � kinci çözümleme ise,
“et” kelimesinin yine fiil ve olumlu oldu� unu, “ -ebil” yapım eki ile
tekrar fiil ve birle� tirme kipinde oldu� unu, gelecek zamanın üçüncü
tekil � ahıs (A3sg) çekiminde (-ecek) bulundu� unu kodlanmı � tır. � lk
verilen, “ ... konuyu izleyenleri tatmin edebilecek bir rapor de� il, ...”
gibi bir tümcedeki birlik için çözümleme, ikinci ise “ ...ne demek
istedi � ini ifade edebilecek ...” gibi bir tümcedeki birlik için
çözümlemedir.
Bu çözümlemelerden de, gövdenin elde edilebilece� i açıkça
görülmektedir. Ancak, “ birle� tirme kipi (Able) ile kodlanan yapım eki
de dahil, ba� tan itibaren tüm harf silsilesi gövde sayılabilir” gibi bir
kural konularak gövde, yani “edebil” çıkarılabilir. Aslında, analizin
kodlamasında, birle� tirme kipi denmez de, birle� ik fiil denerek “bil”
fii linin yardımcı fiil oldu� u enformasyonu da yoluna koyulabilir, yani
“ -ebil” diye bir ek olmadı � ı (Able), onun bir yardımcı fiil oldu� u da
belirli hale getirilebilir. Hatta, “FutPart” ile verilen “ -ecek” ekinin,
aslen bir yapım eki olmadı � ı, fiil in i � letme eki, yani çekim eki oldu� u,
yalnızca bu ekle yapılan vasıf kipinin, nesneleri hareketleri ile
kar � ıladı � ı için, sıfat biçiminde kullanılabildi � i, dolayısı ile bir nevi
isim oldu� u enformasyonu da, tekrar kodlanarak kazanılabilir. Öyleyse
çekince nerededir? Çekincemiz noktamız � udur: Türkçe biçimbirim
analizi yaptı � ı iddia edilen bir yordamda, bir Türkçe gövdeleme
kurgusu için gerekli olan, Türkçe’nin kendine has basit kurallarını
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
206
belirleyebilmek için, bu denli tadilata gidilmesi gereklili � idir.
Türkçe’nin neden, Türkçe’de olmayan kurallar ve bakı � açısından
çözümlenmeye çalı � ıldı � ı da, çekincemiz için bir ba� ka sebeptir. Belki
de, “edebilecek” birli � inin, Türkçe’nin gerektirdi � i çözüm olan birle� ik
fiilin vasıf kipi olarak basit bir belirlenme yapmak yerine, önce bir tane
fii lden fiil yapma eki üretilmesi (-ebil), sonra fiillerin i � letme ekininin
(-ecek) yapım eki olarak kabul edilmesi ile do� rudan fiilden sıfat
yapılması ve Türkçe’nin do � ası içerisinde çok derin ayrıntıya
inilmedi � i takdirde, hiçbir istisna yokken, istisna-i durum yaratılması,
Türkçe’de bu yordamla hesaplamalı dilbilim çalı � an ki � iler tarafından,
uygulamada veya kuramsal esasta haklı sebeplere dayalı olarak, daha
i � levsel bulunuyor olabilir. Ancak, bilgimiz dahilinde böyle bir
açıklamaya rastlamadı � ımız için, bu noktayı da yeri gelmi � ken
belirtmek istedik.
Açıklayaca� ımız, üçüncü ve son örnek de, “ gözetmeden”
birli � idir. Önerilen yöntemimiz, “gözet” , “ gözetm” , “ gözetme” ,
“gözetmede” ve “gözetmeden” olmak üzere 5 farklı gövde türetmi � tir. Birlik içinde, “ göz” isim kökü, “ -e” isimden fiil yapma eki ile, “ göze”
fii l gövdesine, bu fiil gövdesi de “ -t” fiilden fiil yapma eki ile tekrar
“gözet” fiil gövdesine çevrilmi � tir. “ -me” eki hem fiilden isim yapma
eki olarak, hem de fiillerin olumsuz hallerini olu� turmak için fiil çekim
eki � eklinde kullanılabilir. Ancak, “ -den” eki sadece isim i � letme eki,
yani hal eki olarak vardır. Dolayısı ile, “gözet” fiil gövdesi, “ -me”
fii lden isim yapma eki ile, “gözetme” isim gövdesine çevrilmekte, en
son olarak da, “ -den” i � letme eki alarak, ismin uzakla� ma hali
(ablative) bildiren � ekline yani “ gözetmeden” biçimine girmi � tir. Dolayısı ile, birli � in gövdesi “gözetme” kelimesidir. “gözetmede”
biçiminin gövde olarak üretilmesinin sebebi, “ -de” � eklinde bir isimden
fii l yapma eki olmasıdır. “ gözetmeden” biçiminin gövde olarak
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
207
üretilmesinin sebebi ise, “ -n” � eklinde fiilden fii l yapma eki olmasıdır.
Ancak, bu iki biçime yordam tarafından ba� lanan olasılıklar açısından,
gövdede yer alma için hep 0.0001’den küçük ve çekim eki olma için de
hep 0.001’den büyük oldu� u, altı çizilmesi gereken bir durumdur.
Yordam ile sıralı çiftlere ba� lanan olasılıklar incelendi � inde
görüldü� ü gibi, aslında önerilen gövdeleme kurgusu, düzenlenebilecek
birkaç kurgudan sadece birisidir. Ancak yeterli olan hedef ba� arılmı � , yani yapılan çalı � ma ile, istatistik/olasılık esasında, önerilen veya daha
ba� ka bir kurgu ile biçimbirimsel analiz veya kelime da� arcı � ı
olmaksızın da, Türkçe’de gövdeleme yapılabilece� i gösterilmi � tir.
9.4. Sözcük Türü Tespiti
Sözcük türü tespit i � i, kelimelerin söz-dizim içerisinde, hangi
dilbilgisi i � levde kullanıldı � ının belirlenmesidir. Dilbilimsel olarak,
kelimelerin söz-dizim içerisinde di � er kelimelerle olan ili � kileri, aynı
zamanda kelimelerin sınıflandırmasını meydana getirir. Türkçe’de
kelimeler: : isim (noun), özel isim (proper noun), fiil (verb), sıfat
(adjective), zarf/belirteç (adverb), zamir/adıl (pronoun), ba� laç/rabıt
(conjunction), soru (Question) ve edat/ilgeç (preposition) temel sözcük
türlerinde sınıflandırılır. Ayrıca, rakam, kısaltma (abbreviations) ve
noktalama i � aretleri (punctuations) olarak adlandırılan ve yazımda
kullanılan simgeler veya simge birlikleri de mevcuttur. Bu simge veya
simge birlikleri de (noktalama i � aretleri hariç), yazımda kullanılırken,
söz-dizim içindeki söz konusu temel sözcük türlerinden birine girerler,
daha do� rusu temel i � levselliklerden birisini yerine getirirler. E� er, özel
isimler, isim türünde de� erlendirilirse, Türkçe’de 8 temel sözcük türü
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
208
vardır. Temel sözcük türleri, ayrıca kendi içlerinde i � levsel veya
anlamsal farklılıklara dayalı olarak alt guruplara da ayrılır.
9.4.1. Önceki Çalı � malar
Hesaplamalı dilbilim sahasında, bir cümle içinde, bir kelimenin,
daha do� rusu bir birli � in dilbilgisi i � levinin ne oldu� unun tespitine
yönelik bir çok çalı � ma vardır. Sahanın iki öncü çalı � ması, Klein ve
Simpson (1963) tarafından yapılanla, Garside ve arkada� ları (1987a;
1987b) tarafından yapılandır. Bu çalı � malar, kuramsal açıdan sahayı da
ikiye ayırmı � tır: kural tabanlı ve istatistiksel. Klein ve Simpson
tarafından kural tabanlı bir sistem geli � tirilmi � tir. Sistemde, elle
olu� turulmu� çok büyük bir kural tabanı ile, istisnaları halletmek için
küçük bir sözlükten olu� maktadır. Aynı esasta, Greene and Rubin
(1971), TAGGIT adlı sistemi geli � tirmi � lerdir. TAGGIT, daha sonra �ngilizce için bilinen ilk derlem olan, Brown derleminin ön sözcük türü
tespiti için kullanılmı � tır. TAGGIT, öncelikle verilen kelime için
atanabilecek sözcük türlerini belirlemektedir, daha sonra, kelimenin bir
öncesinde ve sonrasındaki kelimelerin biçimbirimsel analizleri
üzerinden hiçbir belirsizlik ile kar � ıla� mıyorsa, uygun sözcük türünü
atamaktadır. Daha sonra, bu sistemin yaptı � ı atamalar elle kontrol
edilip, düzeltilmektedir. Kural tabanlı sistemlere, Brill (1995a; 1995b)
tarafından geli � tirilen sözcük türü tespit yordamları da güzel
örneklerdir.
�statistik esasına dayanan ilk çalı � ma, Stolz ve arkada� ları (1965)
tarafından geli � tirilendir. Bu sistem önce bilinen birliklere sözcük
türlerini bir sözlük yardımıyla atamaktadır, daha sonra bilinmeyen
birliklerin sözcük türlerini, sözcük türü akı � ı temelinde � artlı olasılıkları
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
209
kullanarak belirlemektedir. � statistik esasına dayanan çalı � maların
ço� unlu� u, gizli Markov zinciri dil modeline dayanır. Markov zinciri
dil modeline dayanan ilk çalı � ma, Lancaster üniversitesinde Garside ve
Leech (1987b) tarafından yürütülen, LOB (Lancaster-Oslo-Bergen)
derleminin sözcük türü tespit u� ra� ıdır. Ancak, Markov modelinin, hem
kelimeler hem de sözcük türü geçi � olasılıklarının kullanımı � eklinde
temel kullanım biçimi, Church (1988) ve DeRose (1988) tarafından
yapılan çalı � malarda ortaya çıkmı � tır. Bu çalı � malar aslında, Chomsky
(1957) tarafından, istatistiksel yordamlarla dilbilimsel özelliklerin
belirlenmesi u� ra� ının uygunsuzlu� u konusunda, yapılan ele� tirilerin
ardından, istatisti � in hesaplamalı dilbilim sahasında tekrar diril i � ini
sa� lamı � lardır. Fakat, Markov dil modelini esas alan çalı � malar çok
önceden ba� lamı � durumdaydı: Baker (1975), Jelenik (1985),
Derouault, and Merialdo (1986). Gizli Markov dil modeli esasında,
Mercer (1993) tarafından yapılan çalı � ma, yordamın en uygun ve en
verimli � ekilde çalı � tırılması için hesaplama açısından ele alındı � ı güzel
bir çalı � madır.
Sözcük türü tespit yöntemleri artık çok yaygındır ve � ngilizce
dı � ındaki diller için de geli � tirilmi � tir: Baskça (Aduriz, 1995), Çekçe
(Haji � ve Hladká, 1998), Hollandaca, � talyanca, Yunanca (Dermatas
and Kokkinakis, 1995), Fransızca (Chanod and Tapanainen, 1995),
Almanca (Feldweg, 1995), � branice (Levinger et al, 1995), Bulgarca
(Megyesi, 1999), Slovence (Cussens et al, 1999), � spanyolca (Sánchez
León and Nieto Serrano, 1995), and � sveççe (Brants and Samuelsson,
1995). Ek olarak, belirti lmesi gereken di � er çalı � maların içinde, Brant
(2000) tarafından tasarlanan TNT sisteminin sözcük türü tespit
yordamında kullanılan olasılık yumu � atma yöntemi açısından; Peskin
ve Savova (2004) tarafından tasarlanan gizli Markov zinciri dil modeli
esasındaki kurguda kullanılan hafıza de� i � keni ve sözlük açısından;
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
210
Schmid (1994) tarafından geli � tirilen sistem, yapay sinir a� larının
kullanılması açısından; Kupiec (1992) tarafından tasarlanan sistem,
gizli Markov zinciri dil modeli esasındaki sözcük türü tespiti u� ra� ında
tutarlılık meselesi açısından; Ratnaparki (1996) tarafından yapılan
çalı � ma en yüksek düzensizlik (maximum entropy) esasında sözcük
türü tespit kurgusu açısından; Tautonava ve Manning (2000) tarafından
yapılan çalı � ma da, en yüksek düzensizlik esasında kurgulanacak
sözcük türü tespit yordamlarında hangi özelliklerin hesaba katılması
gerekti � i açısından incelemeye de� erdir. Ayrıca, 7 farklı dil için
geli � tirilmi � sözcük türü tespit yöntemlerinin, Dermatas and
Kokkinakis (1995) tarafından yapılmı � detaylı kar � ıla� tırmaları da,
kayda de� er bir çalı � madır.
Türkçe için sözcük türü tespitinde, kural tabanı esasında yapılmı �
çalı � malara örnekler, Oflazer ve Kuruöz (1994) tarafından yapılan bir
çalı � mayla, Oflazer ve Tür (1996;1997) tarafından yürütülen iki
çalı � madır. � statistik sahasında, bilgimiz dahilinde bir çalı � ma vardır:
Hakkani-Tür ve arkada� ları (2002).
9.4.2. Öner ilen Yöntem
Kural tabanlı olsun, istatistiksel esasta olsun, sözcük türü tespiti
ba� arımları, yakla� ık olarak %90-%96 bandında seyretmektedir.
Yaygın � ekilde, tatminkar olarak kabul gören ba� arım de� eri %95’ tir
denebilir. Sözcük türü tespitinin, ba� arımın yanında, ciddi iki zorlu� u
daha vardır: sözlük ve hesaplama karma� ıklı � ı. Sözlük meselesi, daha
önce de bahsedildi � i gibi, aslen kelime da� arcı � ının kapalı oldu� u
kabullenmesinden do � maktadır. Ayrıca, biçimbirimsel üretkenli � i
zengin diller için, örne� in Türkçe için, kelimelerin yazımda
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
211
kullanımları sırasında çok de� i � ik biçimlere sahip olması, ek yük
getirmektedir (Bu durum, kelime da� arcı � ının hızlı � ekilde hacim
kazanmasına sebep oldu� u için, depolamaya ve arama karma� ıklı � ına
ek yük getirir).
Hesaplama karma� ıklı � ı, kelime da� arcı � ının hacminden
etkilenmektedir, ancak asıl kaynak kullanılan gizli Markov zinciri dil
modelidir. Sözcük türü tespitinde kullanılan en yaygın gizli Markov
zinciri dil modeli, 1.dereceden, geçmi � e bir adım cinsidir, dolayısı ile
e� er Viterbi yöntemi ile çözümlenirse, O(L* |Q|3) zaman karma� ıklı � ına
sahiptir (L: cümle uzunlu� u, Q: farklı sözcük türü sayısıdır).
Önerdi � imiz yöntem de gizli Markov zinciri dil modelini esas
almaktadır. Ancak, kullanılan sözlü� ün kapalı olu � u garanti altındadır.
Gizli Markov zinciri dil modeli, önerimizin kuramsal alt yapısını
olu� turdu� u için öncelikle onu tanıtmak gerekmektedir.
9.4.2.1 Gizli Markov Zinciri
Markov zinciri için kullanılan gizli sıfatı, onun istatistik içindeki
genel kullanımı olan görünür18 halinden ayırt etmek içindir. Bir silsile
sürecinin (stochastic process), görünür Markov zinciri kurgusunda,
durum uzayı (state space) ve çıktı uzayı (output space) görünürdür. Bir
ba� ka söyleyi � le, silsile halindeki çıktı uzayı elemanlarının, silsile
içindeki belirli dizili � ine kar � ılık gelen durumlar birebir � ekilde
e� le� mi � tir. Gizli Markov zincirinde, silsile halindeki çıktı uzayı
elemanları yine görünürdür, durum uzayı elemanları da belirlidir; ancak
çıktı uzayındaki elemanların silsile içindeki belirli olan dizili � lerine 18 Görünür Markov zinciri, ayrıca vanilla (vanilya) olarak da anlılır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
212
kar � ılık gelen durumların hangisi birebir e� tir, belli de� ildir. Zaten,
gizli Markov zinciri kurgusu ile amaçlanan, hangi durumun
e� le� tiri lece� inin belirlenmesidir. Sözcük türü tespit meselesi üzerinden
örneklersek, çıktı uzayını kelimeler, durum uzayını sözcük türleri
olu� turur. Silsile sürecine cümle kar � ılık gelir. Yani, kelimelerin cümle
içindeki dizili � leri ile bir kelime silsilesi olu� ur. Görünür halde iken,
cümle içindeki yerinde bir kelimenin hangi dilbilgisi i � levinde
oldu� unun belirli oldu� u durum kastedilir. Gizli halde iken, elimizde
bir cümle vardır, sözcük türleri de bellidir; ancak cümle içindeki hangi
kelimenin, hangi dilbilgisi i � levinde oldu� u, yani sözcük türü
belirsizdir. Aslen, kelimelerin sözcük türleri i � aretli olan bir talim
derleminde e� itilen Markov dil modeli, görünür olurken; sözcük türleri
tespit edilmeye çalı � ılan kelimelerle olu� turulmu� test derlemine
uygulandı � ı zaman, aynı Markov dil modeli, gizli olur.
Bir silsile süreci, tX olasılık de� i � kenlerinin bir toplulu� undan
meydana gelir. Alt indis, t ise uygun bir indeks kümesinden sıralı
� ekilde de� erler olan bir parametredir. Genel olarak, indeks kümesinin
elemanları, zamanın ayrık birimlerini kar � ılar ve indeks kümesi { },...2,1,0=T , sayma sayıları toplulu� undan meydana gelir. � ndeks
kümesi, gerçek sayıların toplulu� undan da meydana gelebilir. Sayma
sayılarının, indeks kümesi oldu� u silsile sürecine, ayrık silsile süreci
(discrete time stochastic process); gerçek sayıların indeks kümesi
oldu� u silsile sürecine, sürekli silsile süreci (continuous time
stochastic process) denir.
Bir Markov süreci veya zinciri, yani { }tX , bazı özelliklere sahip
bir silsile sürecidir. Bir silsile sürecinin, Markov süreci olmasını
sa� layan bu özellikler, iki tanedir: kısıtlı ufuk (limited horizon) ve
zaman içinde de� i � meme (time invariance).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
213
Kısıtlı ufuk özelli � i, de� eri verilen bir mX olasılık de� i � keni
varken, ms > � artını sa� layan bir sX olasılık de� i � keninin
de� erlerinin, mk < � artı altındaki hiçbir kX olasılık de� i � keninin
de� erinden etkilenmemesidir. Biçimsel olarak, Denklem 9.4.2.1.1.’de
gösterildi � i � ekilde ifade edilir.
( ) ( )111100 PrPr −−−− ====== nnnnnn lXkXlXlXkX � (9.4.2.1.1)
Denklem 9.4.2.1.1.’de, olasılık de� i � kenlerine atanan 10,, −nllk �
de� erleri, olasılık de� i � kenlerinin örneklem kümesinin elemanlarıdır ve
Markov süreci içinde her bir de� er, durum olarak adlandırılır. Dolayısı
ile, bu olasılık de� i � kenlerinin alabilece� i olası tüm de� erlerinin
toplulu� u olan örneklem kümesi, Markov süreci içinde, durum uzayı
olarak anılır. Ayrıca, kısıtlı ufuk özelli � i, bir Markov zinciri
isimlendirilirken, derece terimi ile kar � ılanır. Örne� in, denklemde
verilen � ekilde, kısıtlı ufuk özelli � ine sahip bir Markov zincirine, 1. dereceden Markov zinciri denir ve nX olasılık de� i � keninin, sadece
kendisinden bir önceki, yani 1−nX olasılık de� i � keninin de� erinden
etkilendi � i, daha önceki olasılık de� i � kenlerinin de� erlerinden
etkilenmedi � i, bu � ekilde belirli hale getirilir.
Zaman içinde de� i � meme özelli � i ise, kısıtlı ufuk özelli � inin
zamana ba� lı olmadan, zamanın herhangi bir de� eri için geçerli
oldu� unu belirtmek için kullanılır. Bir ba� ka söyleyi � le, kısıtlı ufuk
özelli � inin, zaman indisi, n’nin, indeks kümesindeki her hangi bir
elemana e� itken de geçerli oldu� unu belirtir.
( ) ( )00111 PrPr lXkXlXkX nnn ===== −− (9.4.2.1.2)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
214
Bir Markov sürecinde, 1−nX olasılık de� i � keninin de� eri, mesela
i iken, nX olasılık de� i � keninin de� erinin, örne� in j olması olasılı � ına,
bir-adım geçi � olasılı� ı (one-step transition probability) ismi verilir ve nn
jiP ,1,
− simgesi ile temsil edilir ve )Pr( 1,1
, iXjXP nnnn
ji === −− ifadesi
ile hesaplanır. Simgesel gösterimde, geçi � olasılı � ının durumlara ba� ımlılı � ı dı � ında zamana ba� ımlılı � ı da betimlenmi � tir ( nn ,1− ).
E� er, zaman içinde de� i � meme özelli � i sa� lanıyorsa, geçi � olasılıkları,
dura� an geçi � olasılıkları (stationary transition probabilities) biçiminde
adlandırılır. Dolayısı ile, )Pr( 1,,1
, iXjXPP nnjinn
ji ==== −− olur.
Bir Markov sürecinde, nX olasılık de� i � keninin de� erinin,
örne� in j olması, e� er 2−nX olasılık de� i � keninin de� erine, mesela i
olsun, ba� lı ise, bu Markov sürecinin derecesi19, 2 olur. E � er durum
uzayının eleman sayısının, s > 0 � artını sa� layan bir sabit ile temsil
edildi � i kabul edilirse, biçimsel olarak Denklem 9.4.2.1.3.’de verildi � i
� ekilde ifade edilir.
( ) ( )( ) � ⋅=� ====
======−
=
−
=−−−
−−−−
−
1
0,,
1
0122
221100
2,Pr
PrPr
s
ikiil
s
innnn
nnnnnn
PPiXlXkX
lXkXlXlXkX
n
� (9.4.2.1.3)
Herhangi bir Markov sürecinin, n=0 zamanında, 0X olasılık
de� i � keninin, durum uzayından herhangi bir de� ere, mesela i olsun, e� it olması olasılı � ına, yani )( 0 iXPi ==π , süreci olu� turan X olasılık
de� i � kenlerinin ba� langıç olasılı� ı (initial probabilities) adı verilir. Bir
19 Yeri gelmi � ken bir yanlı � kullanımında altını çizmek gerekir. Sıfır (0) derece Markov süreci, bazen 1-gram kar � ılı� ı olarak dü� ünülmektedir, ancak bir silsile süreci, kısıtlı ufuk özelli � i ta� ımıyorsa, Markov süreci olarak adlandırılmaz. Dolayısı ile, kavramsal açıdan, sıfır derece Markov zinciri tanımsız bir niteleme ve yanlı � bir adlandırma olmaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
215
ba� ka söyleyi � le, Markov sürecinin ilk ba� ında, sürecin herhangi bir
durumdan ba� laması ihtimalidir.
Bir silsile sürecinde, bir sn durumunun herhangi bir n zamanında,
kendisinden önceki, sn-1 ve sn-2 durumlarına ba� ımlı olsun:
( )1122 ,Pr −−−− === nnnnnn sXsXsX (9.4.2.1.4)
Denklem 9.4.2.1.4.’de verilen ifade, bir Markov zincirine
çevrilebilir. Söz konusu çevrim, 1. dereceden bir Markov sürecinde,
1−nX olasılık de� i � keninin de� eri, (sn-1, sn-2) sıralı çifti olarak alınarak
halledilir. Aslen bu durum, 1. dereceden bir Markov sürecinde, durum uzayında geçmi � e do� ru bir adımın daha, nX olasılık de� i � keninin
de� erinde etki etti � i anlamına gelir, daha do� rusu durum uzayında
geçmi � in tanımlanması söz konusudur. Dolayısı ile, söz konusu
Markov süreci, 1. dereceden, geçmi � e bir adım Markov süreci � eklinde
adlandırılır.
9.4.2.2 Sözcük Türü Tespitinin Markov Süreci Olarak Tanımı
Verilmi � olan n tane kelimenin belirli bir silsilesi, nww ,,1 � için,
hangi dilbilgisi i � levini kar � ıladıkları, yani sözcük türlerinin, ntt ,,1 �
ne oldu� unun tespiti meselesi, Denklem 9.4.2.2.1.’de verildi � i biçimde,
bir olasılık modeli ile tanımlanabilir.
( )nntt wwttPn ��� 111
argmax (9.4.2.2.1)
Denklemdeki olasılık modeli, verilen bir nww ,,1 � kelime dizisi
için, kar � ılık gelebilecek tüm, ntt ,,1 � sözcük türü dizilimleri içinden,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
216
olasılı � ı en yüksek olan sözcük türü dizisinin seçilmesi anlamına
gelmektedir. Bu ifade de, Bayes olasılık dönü� türümü uygulanırsa,
Denklem 9.4.2.2.2.’deki hale gelir.
( ) ( )( )n
nnntt
wwP
ttPttwwPn �
����
1
1111
argmax⋅
(9.4.2.2.2)
Denklem 9.4.2.2.2.’de verilen ifade de, olasılı � ın en yüksek de� eri aranırken, ntt ,,1 � sözcük türü dizisini esas aldı � ı ve tüm
sözcük dizisi ihtimalleri için verilen kelime silsilesi de� i � medi � i için, ( )nwwP �1 olasılı � ı sabittir. Dolayısı ile, ( )nwwP �1 olasılı � ı
hesaplamalardan çıkartılarak, sözcük türü tespit meselesinin olasılık
modeli, Denklem 9.4.2.2.3.’de verilen sade � ekli ile ifade edilebilir.
( ) ( )nnntt
ttPttwwPn
���� 111
1
argmax ⋅ (9.4.2.2.3)
Sözcük türü tespiti meselesinin, Markov süreci biçimine
getirilmesi için, zaman içinde de� i � meme kabul edilip, yani dizide iki
farklı yerde olan, aynı kelimenin olası sözcük türlerinden birini alması
olasılı � ının e� it oldu� u kabul edilip, kısıtlı ufuk özelli � inin
uygulanması gerekir. Sözcük türü tespitinin 1. dereceden Markov
süreci olarak ifadesi Denklem 9.4.2.2.4.’de verilmi � tir.
( ) ( )∏ ⋅=
−n
iiiii
ttttPtwP
n 11
1
argmax� (9.4.2.2.3)
Aynı � ekilde, sözcük türü tespit meselesi için, 1. dereceden,
geçmi � e bir adım Markov süreci modeli de, Denklem 9.4.2.2.4.’de
verildi � i ifade edilecektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
217
( ) ( )∏ ⋅=
−−n
iiiiii
tttttPtwP
n 112,argmax
1 �
(9.4.2.2.4)
Markov süreci denklemlerinde verilen � artlı olasılıkların tahminleri, bir talim derlemi üzerinden elde edilecek ),,( 12 iii tttf −− ,
),( 12 −− ii ttf , )( itf ve ),( ii wtf gözlenme sıklıkları ile hesaplanır.
( ))(
),(
i
iiii
tf
wtftwP =
∧
(9.4.2.2.5)
( )),(
),,(,
12
1212
−−
−−−−
∧=
ii
iiiiii
ttf
tttftttP (9.4.2.2.6)
Sözcük türü tespitinin, Markov süreci olarak tanımlanması ile, en
uygun sözcük türü dizisinin bulunması meselesi bir dinamik
programlama meselesi haline getirilmi � olur. Bu tür dinamik
programlama meseleleri için, hesaplama karma� ıklı � ı en dü� ük yordam
da, Viterbi (1967) tarafından geli � tiri lmi � olan ve kendi adıyla
anılandır.
Sözcük türlerinin, Markov süreci modeli esasında tespitinde, iki
sorunun çözümlenmesi gerekmektedir. Bu sorunlar, talim derleminde
görülmemi � , kelime-sözcük türü çiftleri ve sözcük dizilimleri için, bir
olasılık atanması zorunlulu� udur. Denklem 9.4.2.2.3.’de verilen 1.
dereceden Markov süreci ifadesinde de görüldü� ü gibi, silsilede her
hangi kelime-sözcük türü çiftinin ( 0)( =∧
ii twP ) veya sözcük türü
dizisinin ( 0)( 1 =−∧
ii ttP ) sıfır olasılı � a sahip olması durumundan, o
kelime-sözcük türü çiftini veya sözcük türü dizini içine alan dizilim
ihtimallerinin, toplam olasılı � ı, di � er olasılıkların ne oldu� unun bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
218
önemi olmaksızın sıfır olmaktadır ( 0)()( 1 =⋅ −∧∧
iiii ttPtwP ).
Hesaplamalı dilbilimde, kapalı kelime da� arcı � ı kabullenmesi yapan
tüm dil modelleri için söz konusu çıkmaz geçerlidir.
Bu tür sıfır olasılıkların önlenmesi için, talim derleminde
gözlenmemi � olanlar için, sıfır yerine, yine sıfıra yakın ancak sıfırdan
büyük bir de� er atanarak, dizilim ihtimalinin toplam olasılı � ının sıfır
olmasının önüne geçilir. Olasılık yumu � atma yöntemi olarak
adlandırılan yordamlar, söz konusu amaç için kullanılırlar. Olasılık
yumu� atma için geli � tirilmi � pek çok yöntem mevcuttur: Lidstone
(1920), Good (1923), Jelenik ve Mercer (1980), Katz (1987), Witten
and Bell (1991), Ney ve arkada� ları (1994), Kneser ve Ney (1995).
Harvard üniversitesinde, Chen ve Goodman (1998) tarafından, bahsi
geçen tüm olasılık yumu� atma yöntemleri, çok çe� itli içeriklerde ve
de� i � ik büyüklüklerde derlemler üzerinde de� erlendirilip, derin
incelemeler yapılmı � ve teknik rapor halinde sunulmu� tur. Raporun
sonucunda, Kneser and Ney (1995) olasılık yumu� atma yönteminin,
di � er yöntemlerden her zaman anlamlı düzeyde ba� arılı oldu� u
belirtilmi � tir. Dolayısı ile, Kneser ve Ney yöntemi, kısaca KN olarak
adlandıraca� ımız olasılık yumu� atma yöntemi, bu tezde de,
kullanılacak yöntem olarak seçilmi � tir.
9.4.2.3 Önerilen Yöntemin Kurgusu
Önerilen yöntem, aslen genel Markov sürecinin, çıktı uzayının
tanımında, daha do� rusu kelime silsilesinin tanımında yapılan basit bir
de� i � ikliktir. Genel kurgu içerisinde, Markov sürecinin hesaplama
birimi kelimelerdir. Biz, kelimeler yerine, kelimelerin sonlarından
alınacak belirli sayıda harften olu� an hesaplama birimi ile de,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
219
Türkçe’de sözcük türü tespit meselesinin halledilebilece� ini iddia
ediyoruz. Sözcük türlerinin, yani kelimelerin cümle içindeki di � er
kelime veya kelimelerle olan ili � kilerinin, Türkçe yazımda kelimelerin
sonlarına çekim ekleri getirilerek kar � ılanması, önermemize do� rudan
dayanak te� kil etmektedir. Önce genel kurgu, yani kelimenin
hesaplama birimi olarak kullanılması tanıtılacak, ardından önerimiz,
sadece farkı ile ortaya konarak tanımlanacaktır.
Genel Markov zinciri kurgusunu vermek için örnek bir cümle
kullanaca� ız: “ � � ten döner dönmez evimizin yakınında bulunan derin
gölde yüzerek gev � emek en büyük zevkimdir.” . Bu örnek cümlenin, her
kelimesinin alabilece� i olası sözcük türleri, Çizelge 9.4.2.3.1.’de tablo
halinde verilmi � tir.
Çizelge 9.4.2.3.1: Örnek cümlenin, her kelimesinin olası sözcük türleri.
Kelime Sözcük Türü Kelime Sözcük Türüi � ten � sim ( � ) gölde � , Zarf (Zr)döner � , Fiil (F), Sıfat (S) yüzerek Zrdönmez F, S gev � emek Fevimizin � en � , Zryakınında S büyük Sbulunan S zevkimdir Fderin � , S, F
Örnek cümlenin ba� tan 6 kelimesi için olası sözcük türleri ve
kelime silsilesine kar � ılık gelebilecek sözcük türü dizileri, � ekil
9.4.2.3.1.’de çizge olarak betimlenmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
220
i � ten döner dönmez derin gölde yüzerek ...
� �
FS F S
�
FS
�Zr
Olası Diziler = 1x3x2x3x2x1 = 36
� �F
� �Zr ...
F
S
S F
S
(a)
(b)
Zr
Zr
�ekil 9.4.2.3.1: Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve kar � ılık
gelebilecek sözcük dizisi ihtimalleri (b).
Cümle, Markov süreci kurgusuna alındı � ı zaman, kelimeler çıktı
uzayını, sözcük türleri durum uzayını olu� turmaktadır. Markov süreci
kurgusu içindeyken, olası sözcük türü dizileri, kelimelerin olabilece� i
sözcük türlerinin seçilmesi � eklinde bir daraltma söz konusu de� ildir.
Bir ba� ka söyleyi � le, durum uzayında tanımlı olan tüm sözcük türleri,
çıktı uzayındaki her kelimeye atanması ihtimali vardır. Türkçe için
dü� ünecek olursak, toplam 8 temel sözcük türü mevcuttur. Dolayısı ile,
örnek cümledeki 6 kelime için, olası sözcük türü dizilerinin toplam
sayısı, 6x8, yani 48 adet olacaktır. Söz konusu 48 sözcük türü dizisi
ihtimalinden en yüksek olasılı � a sahip olan, verilmi � cümle için
atanacaktır. Markov süreci kurgusu içinde, yöntemin tüm unsurlarının
çizge olarak betimlenmi � hali, � ekil 9.4.2.3.2.’de verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
221
<bos> i � ten döner dönmez evimizin
...
zevkimdir <eos>
b
~bs1
s2
sm
...s1
s2
sm
...
s1
s2
sm
...
s1
s2
sm
...
s1
s2
sm
...
...
...
...
a11
a2nann+1
a2n+1
a1n+1
k1 k2 k3 k4 kn
0 1 2 3 4 n n+1
Zaman Ekseni
e1 e2 e3 e4 en
A
A
Kel
ime
Sils
ilesi
(Çık
tı U
zayı
)
bij(kn)
2π
1π
nπ
kn+1
en+1
A
A
Söz
cük
Tür
leri
(Dur
um U
zayı
)
A
ASözcük Türü
Dizisi
�ekil 9.4.2.3.2: Örnek cümlenin Markov süreci altında, sözcük türü tespit kurgusu.
�ekilde çizge olarak betimlenen Markov zinciri kurgusunda,
cümledeki kelimelerle (kn), yani çıktı uzayı elemanları ile, sözcük
türleri (sm), yani durum uzayı elemanları arasında ili � kiyi kuran, bi j(kn)
olasılıkları; sürecin, belirli bir i. sözcük türünden ba� lama ihtimali, yani sürecin si durumundan ba� laması ihtimali ( iπ ); sözcük türlerinin
birinden di � erine geçi � olasılıkları (ai j) tanımlanmı � tır. Ayrıca, cümleye kar � ılık gelebilecek belirli bir sözcük türü dizisi de, nee ,,1 � olasılık
de� i � kenleri silsilesi olarak temsil edilmi � tir. Bu dizideki de� i � kenin, e
olarak adlandırılmasının sebebi, Markov sürecinin her kelimeye etiket
yapı � tıran bir i � lem olarak dü� ünülebilmesindendir ( � ngilizce’sinde de
Tag, yani etiket kelimesi aynen kullanılıyor). Etiketlerin üzerlerinde de,
kelime için kar � ılık gelen sözcük türü yazılı diye dü� ünülebilir. Dolayısı ile, her etiketin üzerine, durum uzayını olu� turan mss ,,1 �
sözcük türlerinden birisi yazılabilir. Mesele, hangi etiketin üzerinde
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
222
hangi sözcük türünün yazılaca� ını bulmaktır. Özetle, kurgu açısından
simge sisteminde yaptı � ımız de� i � iklikler � unlardır: kelime dizisindeki
kelimeler, özgün kurguda w (word) ile gösterilirken, de� i � iklikle k
(kelime) olarak; etiketler özgün kurguda t (tag) ile gösterilirken,
de� i � iklikle e olarak temsil edilmektedir. Dolayısı ile, sözcük türü tespit
meselesinin, olasılık kurgusu, Denklem 9.4.2.3.1.’de verildi � i � ekilde
ifade edilmektedir.
( )nnee kkeePn ��� 111
argmax (9.4.2.3.1)
Kurguda verilen olasılıklar, Markov süreci için tanımladı � ımız
olasılıklara kar � ılık gelmektedir. Çizgede betimlenen olasılıklardan, ai j
olasılıkları )|Pr( 1, iXjXP nnji === − dura� an geçi � olasılıklarına,
yani sözcük türü tespit meselesinin Markov kurgusunda )|()|( 11 −− = iiii eePttP � artlı olasılı � ına; bi j(kn) olasılıkları,
),|( 1 iii ttwP − � artlı olasılı � ına veya yeni simgeleri ile, ),|( 1 iii eekP −
� artlı olasılı � ına e� ittir. Kurgu içinde, cümlenin ba� ına <bos> ve
sonuna <eos> simgeleri konmu� tur. Bu simgeler, n=1 oldu� u yerde, yani sürecin ba� langıcında, ba� langıç olasılıklarının, )Pr( 0 iXi ==π ,
� artlı olasılıklar, )|Pr( 0 ><== bosiXiπ olarak ele alınmasını
sa� lamak amacıyla konmaktadır. Ayrıca, yumu � atma yöntemlerinde
olasılık da� ılımlarının, bire toplanabilmesi için de gereklidir. Sondaki
<eos> simgesi de, sözcük türünün cümle sonunda olma olasılı � ının � artlı olasılık � eklinde, yani )|Pr( neeos >< olasılıkları biçiminde
hesaplamada ele alınabilmesi için konmu� tur. Böylece, Markov
kurgusundaki, tüm olasılıklar � artlı olasılık � eklinde ifade
edilebilmekte, hesaplamalar tek bir düzen üzerinden yapılabilmektedir.
Yukarıda Markov süreci esasında sözcük türü tespiti için genel
kurgu tanımlanmı � tır. Sözcük türü tespiti için, yine Markov süreci
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
223
esasında bu tezde önerdi � imiz yöntem ise, Önerme 9.4.2.3.1.’de
biçimsel olarak tasvir edilmi � tir.
Önerme 9.4.2.3.1: Türkçe sözcük türü tespiti için, genel Markov sürecini esas alan kurguda, hesaplama birimi olarak kelime kullanımı yerine, kelimelerin sonlarından belirli uzunlukta harf birlikleri alarak da sözcük türü tespiti yapılabilir.
Önermemizin, Markov süreci kurgusunun unsurlarını ne � ekilde
yeniden tanımladı � ı, � ekil 9.4.2.3.3.’de çizge olarak betimlenmi � tir. � ekilde, genel kurgunun korundu� u görülmektedir. Tek fark, çıktı
uzayının kelimeler yerine, kelimelerin sonundan belirli sayıda harf ile
olu� turulan birliklerin kullanılmasıdır. Geri kalan kurgu unsurları aynen
korunmu� tur. Kelime sonundan, l kadar birlik alınmaktadır, örnek
çizgede l=2 olan durum gösterilmi � tir. Dolayısı ile, kn olasılık
de� i � kenleri, knl � eklinde yeni bir indisle bu durumu kar � ılamaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
224
...b
~bs1
s2
sm
...s1
s2
sm
...
s1
s2
sm
...
s1
s2
sm
...
s1
s2
sm
...
...
...
...
a11
a2nann+1
a2n+1
a1n+1
0 1 2 3 4 n n+1
Zaman Ekseni
e1 e2 e3 e4 en
A
A
Kel
ime
Sils
ilesi
(Çık
tı U
zayı
)
bij(kn)
2π
1π
nπ
A
A
Söz
cük
Tür
leri
(Dur
um U
zayı
)
A
ASözcük Türü
Dizisi
i � ten döner evimizin ...
<bos> en er in <eos>...
�1k �
2k �3k �4k �nk �1nk +
dönmez
ez
zevkimdir
ir
�ekil 9.4.2.3.3: Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda,
önerilen kelime sonundan belirli sayıda harf birli � inin hesaplama birim olarak kullanılması.
9.4.3. Deneysel Sonuçlar
Türkçe için yapılmı � çalı � malar içinde, bilgimiz dahilinde
ba� arımı %93,95 ile en yüksek de� er sahip olan, Hakkani-Tür ve
arkada� ları (2002) tarafından istatistiksel yöntemler esas alınarak
yapılandır. Kullandıkları yöntemin hesaplama birimleri kelimelerdir.
Ayrıca, kelimeler önce Oflazer (1993) tarafından geli � tirilen,
biçimbirimsel analiz yordamı ile i � lenmi � tir. Hakkani-Tür,
çalı � masında, biçimbirimsel analiz i � aretlemelerine dayanan bir kurgu
ortaya koymu� tur. Dolayısı ile, biçimbirimsel analiz olmadan yöntem
kullanılamamaktadır. Önerdi � imiz yöntemde, böyle bir � art yoktur.
Hesaplama birimimiz kelime sonlarından alınan belirli sayıda harf
birlikleridir ve kelime üzerinde ba� ka bir ön i � leme gereksinim yoktur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
225
Önerilen yöntemle ula� ılmı � en yüksek ba� arım, kelime sonundan
alınan 4 harf ile olu� turulan birlikte gözlenmi � olan, %85,9’dur. Genel
kabul gören ba� arım düzeyinden dü� üktür (%90-96 bandı). Ancak, bu
düzeyde bir ba� arım da, Türkçe’de kapalı kelime da� arcı � ına dayalı,
biçimbirimsel analiz gerektirmeyen bir sözcük türü tespit yordamının
yapılabilece� ini deneysel olarak ispatlamaya yeterlidir.
Önerilen yöntem, 30 de� i � ik talim derlemi boyutu ve kelime
sonundan alınan 7 farklı uzunlukta harf birli � i için sınanmı � tır. Kullanılan talim derlemi boyutları, cümle birim olarak kabul edilerek
ölçeklendirilmi � tir. Kullanılan talim derlemi, BilTD derlemidir ve
boyutları, 250, 500, 750, 1.000, 1.250, 1.500, 1.750, 2.000, 2.500,
3.000, 3.500, 4.000, 4.500, 5.000, 7.500, 10.000, 12.500, 15.000,
17.500, 20.000, 22.500, 25.000, 27.500, 30.000, 32.500, 35.000,
37.500, 40.000, 42.500 ve 45.000’dir. Sondan alınan harf birli � i
boyutları, 1, 2, 3, 4, 5, 6 ve 7’dir. Markov süreci olarak, hem 1. derece,
hem de 1. derece geçmi � e bir adım kullanılmı � tır. Ba� arımlar, do� ru
bilinen sözcük türünün, tüm kelime sayısına bölünmesi ile elde
edilmi � tir.
Sınamaların, 1. derece Markov süreci kurgusu ve KN olasılık
yumu� atma yöntemi ile yapılanlarından alınmı � olan sonuçlar, � ekil
9.4.3.1.’de çizge olarak verilmi � tir. � ekilden de görüldü� ü gibi, talim
derleminin tüm de� erleri için, en yüksek ba� arım de� erleri %60-%70
bandı arasında kalmasıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
226
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
250
1000
1750
3000
4500
1000
0
1750
0
2500
0
3250
0
4000
0
Talim Derlemi Boyutu (Cümle Sayısı)
Ba
� arım
Ora
nı
L1
L2
L3
L4
L5
L6
L7
�ekil 9.4.3.1: Sözcük türü tespit, sınama sonuçları. 1. dereceden Markov süreci
kurgusu altında, tüm talim derlemi boyutları sondan alınan harf birliklerinin tüm uzunlukları için.
Sınamanın, 1. dereceden Markov süreci kurgusu içerisinde
yapılan halinde, dikkat çekici olan durum, sondan alınan tek harf
birli � inin, tüm talim boyutu de� erlerinde istisnasız %60-%70 ba� arım
bandında kalmasıdır. Harf birli � i için sondan alınan, harf birli � i sayısı
arttıkça, ba� langıç ba� arımı dü� mekte, yani harf sayısı artarken, talim
derlem boyutunun iki uç noktasına denk gelen en dü� ük ile en yüksek
ba� arım de� eri arasındaki makas açılmaktadır.
Sınamanın, 1. derece, geçmi � e bir adım Markov süreci kurgusu
içinde alınan sonuçlar � ekil 9.4.3.2.’de verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
227
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
250
1000
1750
3000
4500
1000
0
1750
0
2500
0
3250
0
4000
0
Talim Derlemi Boyutu (Cümle Sayısı)
Ba
� arım
Ora
nla
rı
L1
L2
L3
L4
L5
L6
L7
�ekil 9.4.3.2: Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi � e bir adım
Markov süreci kurgusu altında, tüm talim derlemi boyutları ve sondan alınan harf birliklerinin tüm uzunlukları için.
Sınamanın, � ekil 9.4.3.2.’de gösterilen sonuçlarında, en yüksek
ba� arımlar, %80-%90 bandında kalmaktadır. Bir harften olu� an birlik,
yine %60-%70 bandında seyretmi � tir. Geçmi � e bir adım ile sa� lanan
ba� lam derinli � inin, tek harften olu� an birli � e etkisi olmamı � tır. Fakat,
ba� lamın derinle� mesi, harf uzunlu� unun 2, 3, 4 ve 5 oldu� u birlikler
üzerindeki etkisi lehtedir. Özellikle 3 ve 4 harften olu� an birlikler,
10.000 kelimelik talim derlemi boyutundan itibaren, hep %80
ba� arımın üzerinde kalmı � tır. Zaten, 4 harften olu� an birlik, 30.000
cümlelik talim düzeyinde ve sonrasında %85 ba� arımının hep üzerinde
kalmı � ve son olarak 45.000 cümlelik talim derlemi boyutunda, %85,92
ba� arım ile, sınamanın en yüksek de� erini olu� turmu� tur. Sondan 5 harf
alınarak olu� turulan birlik için, 42.500 cümlelik talim düzeyinde, %85
ba� arım yakalanmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
228
Markov zinciri dil modelinin, 1. derecesi için yapılan sınamada
harf sayısı bire e� it birlik için her talim derlemi boyutunda tutarlı sonuç
alınmasının sebebi, deneysel olasılık da� ılımına, yani derlemimiz için
tek harf uzunlu� undaki birli � in gerçek olasılı � ına küçük talim
boyutlarından itibaren ula� ılmasıdır. � ki ve üzeri harf sayısı için
deneysel olasılı � a yakınsamanın, talim derleminde daha büyük
boyutlarda gerçekle� mesi ise istatistiksel açıdan beklenen bir sonuçtur.
Çünkü, harf sayısı arttıkça, olasılı � ı belirlenecek farklı durum sayısı
artmaktadır, yani durum ba� ına dü� en gözlem sayısı dü� mektedir. Bu
durum aynı zamanda gözlenmemi � durumlar için devreye giren
yumu� atma yöntemine daha çok ba� vurulması anlamına gelmektedir.
Eldeki verilerin ı � ı � ında, bir harf uzunlu� unun en yüksek ba� arımda
olması durumuna sebep olarak, yumu � atma yöntemini, elimizdeki
derlemi, uyguladı � ımız yöntemi veya belirleyicili � in genel ba� arımda
olumsuz yönde etki etti � ini önerebiliriz. Ancak, ba� lamın bir kelime
daha arttırılması ile, yani 1. derecede bir adım geçmi � e yönelinmesi ile,
durumun de� i � mesi, yani en yüksek ba� arımın dört harf uzunlu� undaki
birli � e ait olması ve ba� arımda genel anlamda geli � me kaydedilmesi,
sorgulanması gereken ilk konu olarak yumu � atma yöntemini ortaya
çıkartır. Fakat, yumu� atma yöntemleri bu tezin kapsamına
girmemektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
229
10. GENEL � STAT � ST � KLER
Tez kapsamındaki çalı � malarda üç Türkçe, üç de � ngilizce derlem
olmak üzere toplam altı derlem kullanılmı � tır. Bu derlemlerin genel
özellikleri ve istatistikleri di � er çalı � malara temel te� kil edece� inden
dolayı toplu halde bu bölümde ele alınacaktır. Türkçe için kısa adları
BilTD, OSTAD ve ODTÜ olan üç derlem vardır. BilTD ve OSTAD
elimizdeki dilbilimsel özellikleri i � aretlenmi � derlemlerdir. ODTÜ
derlemi dilbilimsel özellik i � aretlemesi olmayan ancak boyut olarak en
büyük derlemimizdir. Sadece derlem içindeki belgeler birbirinden
ayrı � tırılmı � ve her belgenin genel yapısal özellikleri i � aretlenmi � tir. � � aretlenen yapısal özellikler çok detaylıdır: belgenin türü (makale,
roman, haber v.s.), ba� lı � ı, yazarı, yayın evi, basım tarihi, kelime sayısı
v.s. gibi belgenin genel özellikleri ve paragraf sınırları, atıflar gibi yazı
içindeki i � aretlemeler yapılmı � tır. BilTD ise ODTÜ derlemi kadar
yapısal özellik i � aretlemesine sahip de� ildir. Ancak, BilTD derleminde
her kelimenin biçimbirimsel analizi de yapılmı � tır. Ayrıca, belge
sınırları, ba� lık ve cümle sınırları da i � aretlenmi � tir. OSTAD aslen
ODTÜ derleminden seçilen bazı belgeler ve bu belgelerin içerisinden
seçilen bazı paragraflardan olu� turulmu� tur. OSTAD derleminde de,
BilTD derleminde oldu� u gibi her kelimenin biçimbirimsel analizi
yapılmı � tır. Ayrıca, kelime gurupları belirlenmi � , her kelime veya
kelime gurubunun sözdizimsel cümle analizi yapılmı � tır, yani cümle
unsurları (fii l, fail, nesne v.b.) i � aretlenmi � tir. Aslen, OSTAD ile BilTD
arasındaki tek fark sadece dilbilimsel çözümleme esasında de� ildir.
OSTAD elle i � aretlenmi � tir. Oysa BilTD, otomatik i � aretleme ile
olu� turulmu� tur. Dolayısı ile, OSTAD, dilbilimsel özelliklerin
belirlenmesinde olu� abilecek yorum farkı dı � ında hatasızdır! Fakat
BilTD, her i � aretli özelli � i için belli bir miktar hata payı ta� ımaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
230
Bu üç derlemin özet istatistikleri, toplu halde Çizelge 10.1.’de tablo � eklinde verilmi � tir.
Çizelge 10.1. BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri. “* ” karakteri olan hücreler derlemlerin söz konusu özelli � inin belli olmadı � ını gösterir.
Derlem Har f Rak+Nok Toplam Kelime Gövde Belge Parag CümleOSTAD 51,209 13,700 64,909 17,487 5,201 33 2,457 7,262
BilTD 587,277 124,836 712,113 94,230 20,268 2,383 * 48,070
ODTÜ 1,924,653 431,351 2,356,004 200,048 * 978 58,356 *
Toplam 2,563,139 569,887 3,133,026 311,765 25,469 3,394 60,813 55,332
Bir le� ik 2,511,930 * * 234,843 21,095 * * *
Bir lik Sayısı
Çizelgede, “Birlik Sayısı” ba� lı � ı altında üç sütün bulunmaktadır
(Birlik terimini, derlem içindeki yazıda geçen herhangi bir gurup simge
toplulu� u için kullanıyoruz, yani kelimeler, rakamlar, noktalama
i � aretleri v.s.). “Harf” sütunu bu birliklerden yalnızca alfabe
karakterleri ile olu� turulmu� olanları, “Rak+Nok” sütunu ise
birliklerden, rakamla olu� turulmu� olanları ve noktalama i � aretlerini,
“Toplam” sütunu ise, yalın olarak bu birlik sayılarının toplamını
göstermektedir. “Kelime” sütununda, her derlemde bulunan farklı birlik
sayısı (sadece harf birlikleri için) ve “Gövde” sütununda da,
derlemlerdeki farklı gövde sayıları verilmi � tir. Bu sütunlarda verilen
de� erler aslen derlemlerin kelime zenginli � ini, yani kelime da� arcı� ını
göstermektedir. BGG sistemlerinde bu sayılar, özellikle kelime sayısı
önemlidir. Türkçe için gövdeleme i � leminin depolama açısından
önemini de, kelime ve gövde esasındaki boyut farkı ortaya
koymaktadır. Aynı � ekilde, “Belge” , “Paragraf” ve “Cümle”
sütunlarında derlemlerin söz konusu özelli � e kar � ılık gelen de� erleri
vardır. Çizelgede, “Toplam” satırının altında verilen bir de “Birle� ik”
ba� lıklı satır bulunmaktadır. Bu satırdaki de� erler, üç derlem belirli
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
231
özellikleri göz önüne alınarak harmanlanınca, yani birle� tirilince elde
edilen yeni derlemin, yani birle� ik derlemin (BirTD) özelliklerini
vermektedir. Örne� in, sadece kelime sayıları üzerinden yapılacak
çalı � malar için BilTD ve ODTÜ harlamanı olu� turulmu� tur. OSTAD,
ODTÜ derleminin zaten bir parçası oldu� undan, bu harmanda tabii ki
yer almayacaktır. Dolayısı ile, birle� ik derlemin harf birli � i sayısı,
BilTD ve ODTÜ toplamına, yani 2.511.930’a e� it olmaktadır. Bu
birle� ik derlemin, kelime da� arcı � ı boyutu ise, 234.843’ tür. Fakat,
gövde esasında bir çalı � ma için, ODTÜ derlemi harmana
katılamayacaktır, dolayısı ile birle� ik derlem bu kez BilTD ve OSTAD
derlemlerinden olu� acak, birlik sayısı 638.486, gövde olarak kelime
da� arcı � ı 21.095 olacaktır. Bu harmanlama, incelemenin özelliklerine
uyan derlemlerle, tez içerisinde hep benzer � ekilde yapılmaktadır.
Genel istatistiklerin yanında, derlemlerin olu� turuldu� u belge
türleri de önemli bir konudur. Genel kabullenme, belgelerin içeri � ine
ba� lı olarak ta� ıdıkları enformasyon de� erlerinin de, de� i � ti � i
yönündedir. Örne� in makale, gazete yazıları gibi belgeler gerçek ki � i, kavram ve olaylarla ilgili oldukları için ta� ıdıkları enformasyon
açısından roman, deneme gibi hayali ki � i ve olayları içeren belgelerden
daha farklı � ekilde ele alınırlar. Dilbilim çalı � malarının kullanılı �
amaçlarına uygun � ekilde belge türü üzerinden derlemler olu� turulması
gereklili � i de vardır.
Elimizdeki derlemler, belge türleri açısından zengindir. ODTÜ
derlemi hemen her tür belgeyi belirli oranlarda içermektedir. ODTÜ
derleminde bulunan belge türleri � ekil 10.1.’de verilmi � tir. OSTAD
derlemi, ODTÜ derleminden bazı belgelerin belirli paragrafları alınarak
olu� turulmu� tur. BilTD ise, sadece gazete yazılarından olu� mu� tur.
Yani tek bir belge türüne sahiptir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
232
Ara � tırma5%
Kö � e Yazısı8%
Di � er3%
Roman13%
Gezi Yazısı2%
Deneme7%
Öykü11%
Makale8%
Söyle � i1%
Haber42%
�ekil 10.1: ODTÜ derlemindeki belge türleri
OSTAD derleminde de, ODTÜ derlemindeki belge türü çe� itli li � i
korunmu� tur. � ekil 10.2.’de de, OSTAD için belge türleri ve oransal
da� ılımları gösterilmi � tir.
Öykü24%
Gezi Yazısı3%
Deneme12%
Makale9%
Haber28%
Ara � tırma6%
Roman18%
�ekil 10.2: OSTAD derlemindeki belge türleri
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
233
10.1. Tanımlayıcı � statistikler
BilTD, ODTÜ ve OSTAD derlemlerinin ihtiva etti � i birlik,
kelime ve gövde sayılarının toplam (birle� ik de� il yalın toplamlar)
üzerinden, göreceli oranları � ekil 10.1.1.’de bindirilmi � sütunlar
çizgesi olarak verilmi � tir.
GÖVDEKELIMEBIRLIK_H
100
90
80
70
60
50
40
30
20
10
0
DERLEM
ODTÜ
BilTD
OSTAD
6475 80
30
2320
6
�ekil 10.1.1: BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik (harf), kelime
ve gövde sayılarının toplam üzerinden göreceli oranları. Sütunlardaki bölümler derlemleri, rakamlar toplam üzerinden oranları (%) temsil etmektedir. Gövde sütunu ODTÜ derlemini içermez.
� ekilde, ODTÜ derleminin biçimbirim analizi olmadı � ı için
gövde sayısı da yoktur (en sa� daki sütun). Gövde sütunu, yalnızca
BilTD ve OSTAD derlemlerini, sadece iki derlemin toplamı üzerinden
oransal olarak vermektedir. Burada kayda de� er özellik, derlemlerin
yazım � ekli olarak kelime zenginliklerini ortaya çıkaran, “ kelime”
sütununda görülmektedir. Derlemler, toplam birlik sayıları ile orantılı
olarak kelime zenginli � ine katkıda bulunmamaktadır. BilTD yalın
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
234
boyut oranından (%23), daha fazla bir oranda (%30) katkıda
bulunurken, ODTÜ derlemi yalın boyut oranından (%75), daha dü� ük
bir oranda (%64) katkı sa� lamaktadır. Ancak bu oranlar, bir çıkarım
yapabilmek için henüz güvenilir de� ildir, sadece fikir vericidir. Çünkü
OSTAD derlemi, bildi � imiz gibi ODTÜ derleminin bir parçasıdır. Aynı
durumun birle� ik derlem, yani BirTD derlemi üzerinden incelenmesi
güvenilir sonuçları verecektir. BirTD derlemi üzerinden, kelime ve
gövde için tanımlayıcı istatistikler, sırasıyla Çizelge 10.1.2 ve � ekil
10.1.3.’de verilmi � tir. BirTD derlemi olu� turulurken, BilTD, ODTÜ ve
OSTAD derlemlerinden hangisinin, kelimelerin kayna� ı oldu� unun da
kodlaması söz konusu olmu� tur, bu amaçla basit bir kodlama, Denklem
10.1.1’de verildi � i � ekilde kullanılmı � tır.
)*100()*10( OSTADODTUBilTDDerlem ++= (10.1.1)
Denklemde verilen kodlamada, e� er kelime bir derlemde varsa,
denklemde BilTD, ODTÜ ve OSTAD yerine bir, e� er yoksa sıfır
konarak, BirTD içindeki her kelimeye kaynak derlemi de� erlerinden 1,
10, 100; 11, 110, 101 ve 111 birisi atanmı � tır. Anla� ılaca� ı gibi,
de� erlerden ilk üçü sadece bir tek derlemde gözüken kelimeleri,
di � erleri ise derlemlerin olası tüm kesi � im kümeleri içinde gözüken
kelimeleri belirler. Örne� in bir kelimede atanmı � derlem de� eri 111 ise,
bu kelime her üç derlemde de, e� er 100 ise sadece OSTAD derleminde
var demektir. Bu sayede hem bireysel, hem de kesi � im içindeki
kelimeler rahatlıkla belirlenebilmektedir. BirTD derlemini olu� turan
kelimelerin, kaynak derlemleri açısından sayısal de� erler, Çizelge
10.1.1.’de tablo halinde verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
235
Çizelge 10.1.1: BirTD için kelimelerin geldikleri derlemler üzerinden istatistikleri. “Derlem” sütunundaki de� erler, Denklem 10.1.1’den elde edilmi � tir.
DERLEM Frekans (%) Yı � ın (%)1 34,795 14.82 14.8210 134,639 57.33 72.1511 47,931 20.41 92.56110 5,974 2.54 95.10111 11,504 4.90 100.00
Toplam 234,843 100
Çizelgede, kelimelere atanan iki derlem kodlama de� eri
görüldü� ü gibi yoktur. Bunlar 100 ve 101’dir. ODTÜ derlemi, OSTAD
derlemini tamamen kapsadı � ı için, olmayan bu iki derlem kodu � unlardır: “100”, yani sadece OSTAD’da olup, BilTD ve ODTÜ’de
olmayan; “101” , yani BilTD ve OSTAD’da olup, ODTÜ’de olmayan.
Tabii ki bu iki durum imkansızdır. O yüzden frekansları, yani gözlenme
sıklıkları sıfırdır ve de� erlendirme dı � ı kalmı � lardır.
DERLEM
11111011101
Ora
n (%
)
70
60
50
40
30
20
10
0 5
20
57
15
�ekil 10.1.2: Birle� ik derleminin (BirTD), kelime esasında kelime da� arcı� ını
olu� turan kaynak derlemler ve oransal katkıları.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
236
Birle� ik derlemin kelime da� arcı � ına, en büyük katkı, beklendi � i
gibi ve bir önceki de� erlendirmenin aksine, tek ba� ına yakla� ık %57 ile
ODTÜ derleminden (10) olmu� tur. Yalnız ba� ına BilTD derlemi (1)
yakla� ık %15 katkıda bulunmu� tur. � ki derlemin ortak katkısı (11) ise
yakla� ık %20 civarıdır. OSTAD ile ODTÜ’de olup BilTD derleminde
olmayan kelimeler (110) yakla� ık %3’dür, aslen bu sayı ODTÜ
derleminin yalnız katkısı ile birlikte de� erlendirilmelidir (%60).
Üçünün kesi � im kümesinde (111) ise toplam kelime sayısının yakla� ık
%5’ bulunmaktadır. Bu oran da aslen, yalnızca BilTD ile ODTÜ
ortaklı � ıdır (11) ve toplama eklenebilir (%25). OSTAD katkısı ODTÜ
içine dahil edilmi � � ekilde özetleyecek olursak, BilTD tek ba� ına
kelime da� arcı � ına %15, ODTÜ tek ba� ına %60 ve birlikte %25
katkıda bulunmu� lardır.
Kelimeler açısından elimizdeki üç derlemin durumu budur, bir de
aynı derlemleri gövdeler esasında incelemekte fayda vardır. Ancak, bu
noktada elimizdeki en büyük derlem olan ODTÜ, biçimbirimsel analizi
olmadı � ı için, onun çok küçük bir parçası olan OSTAD ile yetinmek
zorundayız. Bu kez birle� ik derleminin, sadece BilTD ve OSTAD
derlemlerinden olu� tu� u durumu göz önüne alınarak Denklem
10.1.1.’de verilen kodlamada ufak bir de� i � iklik yapılmı � , denklemden
100 katsayısı çıkartılıp, ODTÜ yerine OSTAD alınarak yeni birle� ik
derlem için gereken kodlama elde edilmi � tir (Derlem = BilTD + (10 *
OSTAD)). Böylece birle� ik derlemin her kelimesi için, üç de� er
üretilmektedir: 1 (BilTD), 10 (OSTAD) ve 11 (hem BilTD hem
OSTAD). Çizelge 10.1.2.’de gövdelerle ilgili istatistikler verilmi � tir. �ekil 10.1.3.’de de, çizelgede verilen istatistiklerin çizgesel olarak
gösterimi yapılmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
237
Çizelge 10.1.2: Gövde esasında BirTD derlemi için tanımlayıcı istatistikler.
DERLEM Frekans (%) Yı � ın (%)1 15,894 75.34 75.3410 827 3.92 79.2711 4,374 20.73 100.00
Total 21,095 100
Çizelgeden de anla� ılaca� ı gibi, oranlar nispetinde, gövdeler de
kelimelerden, kelime da� arcı � ına yaptıkları katkı açısından bir farklılık
göstermemektedir.
DERLEM
11101
Ora
n(%
)
80
60
40
20
0
21
4
75
�ekil 10.1.3: BilTD ve OSTAD derlemlerinin, gövdeler esasındaki kelime
da� arcı� ına yaptıkları katkılar.
BGG sahasındaki yöntemlerin kullandıkları kelime da� arcı � ının
boyutları, sistemlerin depolama ve verimlilik meseleleri açısından
önemlidir. Kelime da� arcı � ı ile BGG sistemleri arasındaki ili � ki,
belgelerin indeks terimler ile temsil edilmesi, indeks terimlerin de
belgeler içinde geçen birliklerden olu� turulması sebebine dayanır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
238
Dolayısı ile, kelime da� arcı � ının, kolay yönetilebilir boyutların üzerine
çıkması, sistemlerin çok büyük belge sayıları ile u� ra� mak zorunda
oldukları göz önünde tutulunca, kabul edilemez bir durum olmaktadır.
E� er dilbilimsel özellikler ile geri-getirim, bu tezde oldu� u gibi
öncelikli bir konu ise, hesaplamalı dilbilim içinde kelime da� arcı � ı,
yani bir sözlük kullanan mevcut yöntemlerin hemen hiç birinin
do� rusal hesaplama karma� ıklı � ına sahip olmaması da göz önünde
bulundurulması gereken bir ba� ka boyuttur: BGG sistemlerinde
dilbilimsel yöntemlerin kullanımı ile bir geli � me kaydedilmi � olsa dahi,
yöntemlerin kullanılabilirli � i açısından hesaplama karma� ıklı � ı, mesele
olmaya devam edecektir (en azından � u anki teknoloj i için). Hesaplama
karma� ıklı � ının önemli etmenlerinden biri, yöntemde kullanılan kelime
da� arcı � ı boyutudur. Aslen, dilbilim çevrelerinde kelime da� arcı � ı
boyutu açısından yaygın olan görü� , da� arcı � ın boyutlarının, derlem
boyutu sonsuza giderken belirli bir sabit de� ere ula� aca� ı, yani genel
anlamda kapalı bir kelime da� arcı � ı oldu� udur. Bu kabullenme
do� ruysa, kelime da� arcı � ının boyutu hesaplama karma� ıklı � ı
açısından sabit olacak, dolayısı ile sadece depolama ile alakalı bir
meseleye dönü� ecektir. Ancak, yaptı � ımız çalı � malar, Türkçe için
kapalı kelime da� arcı � ı kabullenmesi yapılamayaca� ını
göstermektedir20. Türkçe kelime da� arcı � ının derlem büyüklü� ü ile ne
tür bir ili � ki sergiledi � i, tüm bu meselelere ı � ık tutaca� ı için
tanımlanması gereken bir konudur ve ilerleyen kısımlarda detaylı
olarak incelenmektedir.
20 Aynı bulgular � ngilizce için de deneysel olarak gösterilmi � tir (Mandelbrot, 1961; Kornai, 2002).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
239
10.2. Türkçe için Zipf Güç Kanunlar ı � ncelemesi
Türkçe için, Zipf güç kanunları ne kadar uyumludur, parametreler
için de� erler nelerdir gibi soruların cevaplarını bu bölümde verece� iz.
Bu amaçla, önce Zipf birinci kanunu (Bölüm 7.2.1), elimizdeki BilTD,
ODTÜ ve OSTAD derlemlerinin her birine, daha sonra da birle� ik
derleme uygulayaca� ız. Böylece de� i � imleri ve derlemler arası
farklılı � ı da gözlemleyebilece� iz. Ancak, öncelikle yapaca� ımız
incelemeye benzer ara� tırmaların alt yapısını olu � turmak için, birkaç
genel istatistiksel konuyu tanıtmamız gerekmektedir.
10.2.1. � statistiksel � ncelemeler için Alt Yapı
�statistiksel de� erlendirmelerin temelinde, belirli bir kitlenin
(population) özellikleri ile ilgili, nicel veya nitel tanımlamaları
çıkarmak veya belirli bir kitle özelli � inin bilinmeyen de� erlerini tahmin
etmek vardır. E� er bir “ tahmin” yapmak söz konusu ise, kitlenin
tahmin edilmek istenen özelli � i ilgili kuramsal bir model, yapılacak
tahminlerin hesaplamaları için gereklidir. �statistik ile kitle özelli � i
tahminlerinde kullanılan modeller matematikseldir. Böyle bir
matematiksel model üzerinden, kitlenin belirli bir özelli � in tahmini
de� erini hesaplamak için gerekli olan veridir. Veri ise, kitleden belirli
ilkelere ba� lı kalınarak seçilen ve boyut olarak kitleden çok daha küçük
olan bir ö � eler toplulu� u üzerinden elde edilmektedir. � � te, bu kitleden
boyut olarak küçük olan, kitlenin bilinmeyen özelli � inin de� er tahmini
için hesaplamalarda kullanılan, alt kitle gurubuna örneklem (sample)
denir. �statistiksel incelemeler için verilen bu öykü, tüm do � al olaylar
için genel geçerdir. De� i � ik kitle özellikleri ve � artlar için sadece
matematiksel model ve örneklem seçimi için esas alınacak ilkeler
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
240
de� i � iklik gösterirler. E� er örnek olarak yazılı bir dil için kurgulama
yapacak olursak, kitlemiz aslen yazılmı � olan ve yazılabilecek tüm
metinlerdir! Örneklem ise, daha önce yazılmı � metinlerden
olu� turaca� ımız bir derlem olacaktır. Aynı � ekilde, bir ba� ka bakı � açısından, söz gelimi, kitlemiz önceden yazılmı � belgelerden olu� an tek
bir derlem de olabilir, mesela ODTÜ derlemi kitlemiz olabilir. Bu kez
örneklem, ODTÜ derlemindeki belgelerin belirli bir kısmı ile
olu� turulacak alt guruplar olacaktır. Özetle kitle, tahmin edilmek
istenen özelli � in ne oldu� una göre, örneklem ise kitlenin ne oldu� una
göre de� i � im gösterir. Demek ki, BilTD, ODTÜ veya OSTAD tahmin
edece� imiz özelli � in tanımına göre kitle veya örneklem olarak
alınabilir.
Olasılı � a dayalı iddiaların deneysel temelinde, frekans
oranlarının sabitle� mesi kanunu vardır. Bu ilke, örne� in herhangi bir kelimenin (w), örneklem içindeki göreceli frekansının nwFf nn /)(= ,
örneklem büyüklü� ü (n) sonsuz giderken, )(wf gibi sabit bir göreceli
frekansa e� it olaca� ını söylemektedir. Bu sabit göreceli frekansa gerçek
olasılık adı da verilmektedir. Bir ba� ka söyleyi � le, örneklem büyüklü� ü
yeterince büyütülünce örneklem içindeki göreceli frekanslar, yani olasılıklar, 1)(0 ≤≤ wf gibi sabit de� erlere yakınsarlar, bu sabit
de� erler de tabii onların kitle içindeki gerçek olasılıklarıdır. Bu ilkenin
geçerlili � i için, geçerli olması gereken en kritik kabullenme, kitle
özelli � inin alabilece� i olası tüm de� erlerin önceden belirli veya
hesaplanabilir oldu� udur (gerçek sayılar söz konusu ise ∞≤≤ x0 gibi
bir aralıkta oldu� u veya bir zar atıldı � ında gelebilecek sayıların 1 ile 6
arasında olabilece� inin bilinmesi gibi.). Yani, tahmin edilecek özelli � in
alabilece� i de� erlerin, sayılabilir ve sınırlı bir kümeden veya sayılabilir
ve sınırsız bir kümeden gelmesi gerekir, sayılamaz ve sınırsız
kümelerle çalı � ıldı � ında durum tamamen de� i � mektedir: deneysel bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
241
olasılıktan, yani yakınsanacak bir sabit gerçek olasılıktan bahsetmek
mümkün de� ildir. � � te bu kabullenme, hesaplamalı dil bilimde deneysel
yöntemler kullanılacaksa, neden kapalı kelime da� arcı � ına gereksinim
duyuldu� unun sebebini de açıklamaktadır. Demek ki, boyutu devamlı
büyüyen bir derlem, örneklem olarak alındı � ında, kelimelerin gözlenme
sıklıkları, yani frekansları veya göreceli frekansları açısından � öyle bir
iddianın geçerlil i � ini deneysel sonuçların anlamlılı � ı açısından
sorgulamak gerekir: E� er kelime da� arcı � ı kapalı de� ilse, toplam
olasılıktan (yani bir), örneklem büyüklü� ü arttıkça her kelime ba� ına
dü� en payın hiçbir zaman sıfır olmayacak � ekilde giderek dü� mesi
gerekir. Dolayısı ile, hiçbir kelimenin olasılı � ının sabitlenmemesi,
derlem büyüklü� ü arttıkça de� i � mesi gerekir.
Deneysel hesaplamalı dilbilim çalı � malarında, örneklem
büyüklü� ü arttıkça kelime frekansları büyük de� erlere çıktı � ı için,
aslında yalın � ekilde frekanslara bakarak bir sabite yakla� ıp
yakla� madıkları, gözlemlenerek anla� ılamaz. Zipf ilkelerinde verilen
ifadelerin, log-log ölçe� inde incelenmesi de bu görselli � in
gereklili � indendir. Ço� u nicel dilbilimsel uygulamada, üstel olarak
artan boyutlarda derlemler kullanılır ve Zipf ifadesine yakın ili � kiler
genellikle 104-105 aralı � ındaki bir büyüklükte yakalanır. Çünkü, küçük
derlem boyutlarında kelime da� arcı � ının büyüme hızı oldukça
yüksektir. Dolayısı ile, Zipf kanunlarında verilen ifadelerdeki, kapalı
kelime da� arcı � ı kabullenmesine yakınsama ancak büyük derlemlerde
söz konusudur.
Zipf güç kanunları ile ilgili istatistiksel çalı � mamızda, o anki
inceleme esaslarına uyması ko � ulu ile, mevcut tüm derlemlerden
yararlanılacaktır: BilTD, ODTÜ, OSTAD ve birle� ik derlem BirTD. Bu
bölümde, derlemler üzerinden sınayaca� ımız iddialar, Zipf birinci
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
242
kanunu ve birinci kanun için Mandelbrot ifadesi olacaktır (Bölüm
7.2.1). Mandelbrot ifadesindeki W parametresi için en az 3, uygun olan
derlem boyutlarında da 4 veya 5 sabit de� er üzerinden sınama
yapaca� ız: 10, 100 ve 1000; 10,000 veya 100,0000. Mandelbrot özgün
çalı � masında � ngilizce için, W=100 de� erinde ifadenin en uygun halini
elde etti � ini belirmi � tir. Biz de, Türkçe için W parametresinin en uygun
de� erini tahmin edece� iz. Kelimeler esasında yapılacak bu çalı � ma,
aynı zamanda gövdeler için de yapılacaktır. Ancak, tezin hedefinin,
BGG sistem ba� arımlarının dilbilimsel özellikler kullanılarak
arttırılması oldu� u dü� ünüldü� ünde, tüm durumların detaylı
açıklamalarını vermek tez kapsamımızı oldukça a� acaktır. O yüzden
sadece BilTD derlemi için detaylı inceleme yaparak, de� erlendirme için
önemli noktaları belirttikten sonra, geri kalan derlemler için sadece
parametre de� erleri ve sıra dı � ı veya önemli buldu� umuz detayları
belirtmekle yetinece� iz.
10.2.2. BilTD Der leminin Zipf Bir inci Kanun � ncelemesi
BilTD derlemi biçimbirimsel dilbilim analizinden geçirildi � i için,
hem kelime hem de gövde esasında Zipf ve Mandelbrot ifadelerinin
sınamaları yapılmı � tır.
10.2.2.1 Kelime esasında inceleme
Zipf birinci kanun ve Mandelbrot ifadesinin, BilTD derlemi için
uyum de� erleri Çizelge 10.2.2.1.1.’de tablo halinde verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
243
Çizelge 10.2.2.1.1: BilTD derlemi için, kelime esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.
Model Rsq N F Sigf b0 b1Zipf 0.995 94,228 1.900E+07 0.000 5.3089 -1.0933W=10 0.996 94,228 2.400E+07 0.000 5.3332 -1.0986W=100 0.998 94,228 5.700E+07 0.000 5.4499 -1.1235W=1,000 0.995 94,228 1.800E+07 0.000 6.0148 -1.2417W=10,000 0.949 94,228 1.749E+06 0.000 8.8358 -1.8094
Çizelgede BilTD derlemi için Zipf ve Mandelbrot ifadelerinin
tüm uyum de� erlendirmeleri topluca verilmi � tir. Bundan sonraki tüm
derlemlerde de yine topluca, aynı biçimde verilecektir. Dolayısı ile, bu
çizelgede açıklananlar aksi belirtilmedikçe di � er derlem çizelgeleri için
de geçerlidir. “Model” sütununda, uyum için sınanan ifadenin kısa adı
verilmi � tir: Zipf, Zipf birinci kanunu; W=10, Mandelbrot ifadesinde W
parametresi de� erinin 10 oldu� u durum; aynı � ekilde W=100, 1,000 ve
10,000 satırları da Mandelbrot ifadesi içindir. “Rsq” (R2) sütunu
uyumun belirleyicilik katsayısıdır (coefficient of determination). Aslen
bu de� er do� rusal regrasyon (linear regression) yöntemindeki çoklu
korelasyon katsayısının ( 11 ≤≤− R ), yani tahmin edilen de� erler ile
gerçek de� erler arasındaki kar � ılıklı do � rusal ili � kiyi temsil eden
de� erin (correlation) karesidir. De� er ne kadar büyükse, do� rusal ili � ki
o kadar güçlüdür. R2 de� erinin bir olması veri içindeki tüm de� i � imin
belirlendi � ini, yani model ile tam temsil edildi � ini; sıfır olması modelin
de� i � imi açıklayamadı � ını gösterir. “N” sütununda uyum için
de� erlendirmeye alınan kelime sayısı, daha do � rusu kelime da� arcı � ı
boyutu verilmi � tir (e� er gövde esasında de� erlendirme yapılıyorsa,
gövde sayısı olacaktır). “F” sütununda, do� rusal regrasyona ait
ANOVA21 tablosunun, F istatistik de� erleri listelenmi � tir. Verilen 21 ANOVA, � ngilizce’si Analysis Of Variance (varyans analizi) olan yöntemin kısa adıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
244
do� rusal il i � kiye dayalı, model uyum de� erlerinin, istatistiksel açıdan
anlamlı olması için, F istatistik de� erinin belli bir anlam düzeyi için,
örne� in α=0.001 de� eri için, kritik bir e� ik de� erden büyük olması
gerekir. Zaten “Sigf” sütunundaki de� er hangi anlam düzeyinde verilen
F istatistik de� erinin, söz konusu e� ik de� erden büyük oldu� unu
göstermektedir. Tabloda görüldü� ü gibi, tüm “Sigf” de� erleri noktadan
sonra üç basamak hassasiyetinde sıfırdır, yani verilen F de� erlerinin
hepsi α=0.001 anlam düzeyinin e� ik de� erinden büyüktür. Dolayısı ile
istatistiksel olarak anlamlıdır. Çizelgede, son iki sütun olan, “b0” ve “b1” ise, xbby ⋅+= 10 � eklinde bir do � rusal ili � ki modelinin kar � ılık
gelen de� erlerinin listesidir. Bu do � rusal modelde, “ b0” y-eksenindeki
kaydırma miktarı (HN), “b1” ise do� runun e� imidir (BN). Tabloda, R2
de� eri kalın biçimde yazılı olan satırdaki, daha do� rusu en büyük R2
de� erine sahip satırdaki sabitler, incelenen derleme en uygun olan
modeli ve parametre de� erlerini gösterir. BilTD derleminin kelimeleri
için, W=100 parametre de� eri olan Mandelbrot ifadesi, en uygun
modeldir.
Görsel kar � ıla� tırma açısından, � ekil 10.2.2.1.1.’de Zipf ifadesi
için, � ekil 10.2.2.1.2.’de de Mandelbrot ifadesinin W=100 parametre
de� eri için, modellerin tahmin etti � i ve BilTD derleminde gözlenen
de� erlere ait yayılım çizgeleri (scatter plot) verilmi � tir. Mandelbrot, �ngilizce için, W parametresinin de� erini 100 ve “b0” parametresinin
de� erini 1.15 olarak vermi � tir. BilTD derlemi, bu açıdan �ngilizce ile
paralellik göstermi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
245
�ekil 10.2.2.1.1: BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu. Kelime
frekanslarının logaritmaları (log_f) y-ekseni, frekanslara ait sıra numaralarının logaritmaları (log_r) x-eksenidir. Düz çizgi, Zipf ifadesi ile tahmin edilen de� erlerdir.
�ekilde, Zipf ifadesinin, Mandelbrot’un belirtti � i gibi, BilTD
derlemindeki kelime frekansları ile sıra numaraları arasındaki i li � kiyi
özellikle küçük sıra numaraları için (çizgenin sol üst kö � esi) pek iyi
� ekilde temsil edemedi � i rahatlıkla görülebilmektedir. Küçük sıra
numaraları derlemde en sık gözlenen kelimelerdir ve Zipf ifadesi bu
kelimelerin frekanslarının çok üzerinde tahminler yapmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
246
�ekil 10.2.2.1.2: BilTD derleminin, kelimeler esasında Mandelbrot ifadesinin W=100
parametre de� eri için uyumu.
Modeller üzerinde yapılan hesapların da gösterdi � i gibi, � ekilde
verilen Mandelbrot ifadesi, Zipf ifadesinden çok daha iyi tahmin
de� erleri üretmi � tir.
Her iki � ekilde de, derlemdeki kelime frekanslarının (y-ekseni)
orta noktasından, a� a� ı ve yukarı ilerledikçe, sıra numaraları arasında
atlamalar olmaktadır. Atlamanın büyüklü� ü, nokta üzerine yatay bir
çizgi ile betimlenmi � tir. Çizgi ne kadar geni � se, sıra numaraları
arasındaki atlama o kadar büyüktür. Sıra numarasındaki atlamanın
sebebi, derlemde aynı frekansa sahip olan kelimelere ortak bir sıra
numarası atanmasındandır. Bu ortak sıra numarası, e� itli � in ba� ladı � ı
noktadan, bitti � i noktaya kadar olan gerçek sıra numaralarının
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
247
ortalamasıdır. Örne� in 2, 3, 3, 4 de� erlerinin sıra numaraları: 1, 2.5, 2.5
ve 4 olacaktır. Elbette, aynı de� erlere sıra numarası vermenin tek yolu
bu de� ildir ve herhangi birisi buradaki gibi incelemeler için
kullanılabilir. Ancak, alınan sonuçlar aynı, sonuçları yorumlama � ekli
farklı olacaktır. Teknik sebeplerden bu � ekilde bir sıralama, bizim için
en uygun olandır.
10.2.2.2 Gövde esasında inceleme
BilTD derlemini olu� turan gövdeler için, Zipf ve Mandelbrot
ifadelerinin do � rusal ili � ki uyum sınamasının sonuçları, Çizelge
10.2.2.2.1.’de tablo halinde verilmi � tir.
Çizelge 10.2.2.2.1: BilTD derlemi için, gövde esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.
Model Rsq N F Sigf b0 b1Zipf 0.974 20,266 7.466E+05 0.000 6.8477 -1.6085W=10 0.979 20,266 9.653E+05 0.000 6.9555 -1.6356W=100 0.993 20,266 2.683E+06 0.000 7.4187 -1.7498W=1,000 0.994 20,266 3.654E+06 0.000 9.5800 -2.2634W=10,000 0.933 20,266 2.807E+05 0.000 22.5267 -5.1139
Çizelgedeki de� erlerden de rahatlıkla görülebildi � i gibi, BilTD
derleminin, kelime ve gövde esasında uyum parametreleri açısından
belirgin bir fark vardır. Bu farkın iki anlamı vardır. E � er kelime
da� arcı � ı kapalı ise, gövde esasında kelime da� arcı � ı boyutu, kelime
esasında kelime da� arcı � ı boyutundan hem daha küçük olacak, hem de
daha küçük derlem büyüklüklerinde gerçek olasılıklara ula� acaktır,
yani gövdelerin kelime da� arcı � ı gerçek boyutlarına daha hızlı
yakınsayacaktır. Fakat, e� er kelime da� arcı � ı açıksa, gövdelerle
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
248
kelimeler arasında derlem büyüklü� ü sonsuza giderken bir fark
kalmayacaktır, yani ikisi de durmadan artarak büyüyecektir.
BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi �ekil 10.2.2.2.1.’de ve Mandelbrot ifadesi i le, W=1000 parametre
de� eri için uyum çizgesi de �ekil 10.2.2.2.2.’de verilmi � tir.
�ekil 10.2.2.2.1: BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi.
�ekilde görüldü� ü gibi, gövdeler için Zipf ifadesi, BilTD
derlemindeki gövdelerin de� i � imini temsil etmekten oldukça uzaktır.
Özellik, ifade ile tahmin edilen frekans de� erleri, yüksek frekanslı
gövdeler için gerçekle� en de� erlerin çok üzerinde kalmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
249
�ekil 10.2.2.2.2: BilTD derleminin, gövde esasında, Mandelbrot ifadesi ile W=1000
parametre de� er için uyumu çizgesi.
Mandelbrot ifadesi, yazarın özgün çalı � masında da belirtti � i gibi,
derlemlerdeki gözlenme sıklı � ı ile sıra numarası arasındaki il i � kileri
Zipf ifadesinden her zaman daha iyi temsil etmekte, ek parametreleri ile
uyumu kolayla� tırmaktadır.
10.2.3. ODTÜ Derleminin Zipf Bir inci Kanun � ncelemesi
ODTÜ derlemi, daha önce de belirtildi � i gibi biçimbirimsel
analize sahip olmadı � ı için, Zipf ve Mandelbrot ifadelerinin do � rusal
ili � ki uyumu için sadece, kelime esasında sınanabilmi � tir. Sınama
sonuçları Çizelge 10.2.3.1.’de tablo halinde verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
250
Çizelge 10.2.3.1: ODTÜ derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
Model Rsq N F Sigf b0 b1Zipf 0.996 200,048 5.000E+07 0.000 5.9173 -1.1429W=10 0.997 200,048 5.900E+07 0.000 5.9324 -1.1459W=100 0.998 200,048 1.100E+08 0.000 6.0078 -1.1610W=1,000 0.998 200,048 8.000E+07 0.000 6.3846 -1.2353W=10,000 0.968 200,048 6.041E+06 0.000 8.1909 -1.5814W=100,000 0.881 200,048 1.487E+06 0.000 19.3420 -3.5950
ODTÜ derleminin boyutları, Mandelbrot ifadesi için W=105
seviyesindeki sınamanın da yapılabilmesine izin vermi � tir. ODTÜ
derlemi, kelime esasında BilTD derlemi ile benzer � ekilde, en yüksek
seviyedeki do� rusal ili � kiyi Mandelbrot W=100 parametre de� eri için
vermi � tir. � ekil 10.2.3.1’de Zipf ifadesi ile uyum çizge olarak da
verilmi � tir.
�ekil 10.2.3.1: ODTÜ derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
251
10.2.4. OSTAD Der leminin Zipf Bir inci Kanun � ncelemesi
OSTAD derlemi, ODTÜ derleminden alındı � ı için, tabii olarak
geni � letildi � inde, ODTÜ derlemindeki özelliklere sahip olacaktır.
Mevcut hali ile, birinci güç ilkesine uyumu ve özellikleri hakkında fikir
edinmek için yine de sınanmı � tır.
10.2.4.1 Kelime esasında inceleme
Çizelge 10.2.4.1.1’de OSTAD derleminin kelime esasında sınama
sonuçları tablo halinde verilmi � tir.
Çizelge 10.2.4.1.1: OSTAD derleminin, kelime esasında Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
Model Rsq N F Sigf b0 b1Zipf 0.999 17,476 2.700E+07 0.000 3.1364 -0.7664W=10 0.998 17,476 1.100E+07 0.000 3.1828 -0.7781W=100 0.989 17,476 1.579E+06 0.000 3.3917 -0.8300W=1,000 0.944 17,476 2.969E+05 0.000 4.4435 -1.0819
OSTAD derleminde en dikkat çeken özellik, Zipf ifadesinin en
yüksek uyumu göstermesidir. OSTAD derleminin boyut olarak, 104 ile
105 arasında kalması, söz konusu aralıkla ilgili istatistiksel alt yapı
anlatımında verilen tespiti de do� rular niteliktedir: “Ço� u nicel
dilbilimsel uygulamada, üstel olarak artan boyutlarda derlemler
kullanılır ve Zipf ifadesine yakın ili � kiler genellikle 104-105
aralı � ındaki bir büyüklükte yakalanır.” . � ekil 10.2.4.1.1.’de verilen
Zipf ifadesi ile uyum çizgesi, böyle bir dü� ünceyi destekler niteliktedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
252
�ekil 10.2.4.1.1: OSTAD derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.
10.2.4.2 Gövde esasında inceleme
Çizelge 10.2.4.2.1.’de, OSTAD derleminin gövde esasında
sınama sonuçları vardır. � ekil 10.2.4.2.1’de Zipf ifadesi ile tahmin
edilen de� erlerle uyumun, � ekil 10.2.4.2.2’de de, Mandelbrot
ifadesinin, W=100 parametre de� eri için tahmin edilen de� erlerle
uyumun yayılım çizgesi verilmi � tir.
Çizelge 10.2.4.2.1: OSTAD derleminin, gövde esasında Zipf ve Mandelbrot ifadesi ile, do� rusal ili � ki uyum sınamaları.
Model Rsq N F Sigf b0 b1Zipf 0.969 5,199 1.631E+05 0.000 4.4432 -1.1998W=10 0.979 5,199 2.462E+05 0.000 4.6184 -1.2509W=100 0.992 5,199 6.865E+05 0.000 5.3456 -1.4564W=1,000 0.973 5,199 1.860E+05 0.000 9.1818 -2.4714
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
253
�ekil 10.2.4.2.1: OSTAD derlemin, gövde esasında, Zipf ifadesi ile uyum çizgesi.
�ekil 10.2.4.2.2: OSTAD derleminin, gövdeler esasında, Mandelbrot (W=100) ifadesi
ile uyum çizgesi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
254
OSTAD derleminin, gövde açısından yapılan sınamasının en
dikkat çekici noktası, büyük derleminin, yani ODTÜ derleminin
kelimeler esasındaki karakteristiklerine yakınsıyor olmasıdır.
10.2.5. Bir le� ik Der lemler in Zipf bir inci kanun incelemesi
Bu bölümde, BilTD, ODTÜ ve OSTAD derlemlerinin
harmanlanması ile olu� turulan birle� ik derlem, BirTD, Zipf birinci
kanunu ile uyum açısından incelenmi � tir. Önceki incelemelerde,
derlemlerin bireysel uyum özellikleri elde edildi � i için, bu inceleme ile,
kanunun uyumunda, büyüyen bir derlem açısından ne tür de� i � imler
oldu� u da gözlenebilecektir. Kelime esasında yapılan incelemede
kullanılan birle� ik derlem, BilTD ile ODTÜ harmanıdır. Gövde
esasında, birle� ik derlem BilTD ve OSTAD harmanı ile elde edilmi � tir. Dolayısı ile, BirTD derleminin ba� lama göre içeri � i de� i � mektedir,
yani kelime esasında incelemede BilTD ve ODTÜ harmanı; gövde
esasında incelemede BilTD ve OSTAD harmanıdır.
10.2.5.1 Kelime esasında inceleme
Çizelge 10.2.5.1.1: BirTD derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
Model Rsq N F Sigf b0 b1Zipf 0.995 234,843 4.700E+07 0.000 6.2635 -1.1915W=10 0.996 234,843 5.300E+07 0.000 6.2777 -1.1944W=100 0.997 234,843 8.700E+07 0.000 6.3493 -1.2085W=1,000 0.998 234,843 1.400E+08 0.000 6.7091 -1.2786W=10,000 0.975 234,843 9.117E+06 0.000 8.4196 -1.6030W=100,000 0.892 234,843 1.943E+06 0.000 18.6018 -3.4286
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
255
BilTD boyut olarak, ODTÜ derleminin dörtte biri olmasına
ra� men, birle� ik derlemde etkisi büyük olmu� tur. BilTD ve ODTÜ ayrı
olarak, Mandelbrot ifadesinin W=100 parametre de� eri i le temsil
edilirken; birle� ik olarak, uyumu W=1000 parametre de� erine
sıçratmı � lardır. Bu sonuç, derlem boyutunun artması açısından
de� erlendirildi � inde, kelime zenginli � inde bir artı � ı i � aret etmektedir.
Kelime zenginli � indeki artı � demek, kelime da� arcı � ının boyutunda
artı � demektir.
10.2.5.2 Gövde esasında inceleme
Çizelge 10.2.5.2.1: BirTD derleminin, gövde esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
Model Rsq N F Sigf b0 b1Zipf 0.974 21,093 7.846E+05 0.000 6.8964 -1.6127W=10 0.980 21,093 1.009E+06 0.000 7.0017 -1.6390W=100 0.992 21,093 2.732E+06 0.000 7.4554 -1.7505W=1,000 0.995 21,093 4.054E+06 0.000 9.5706 -2.2515W=10,000 0.934 21,093 2.990E+05 0.000 22.1407 -5.0134
Birle� ik derlemin, gövde esasında uyumu da, bu kez kelimeler ile
paralellik göstermi � tir. Derlem boyutunun artması, gövde esasında da
kelime zenginli � ini aynı � ekilde arttırmı � tır. Oysa, bireysel
incelemelerde, gövdeler zenginlik açısından kelimelerden daha dü� ük
de� erlere sahip olmaktaydı. E � imin 1 ve altındaki de� erleri kapalı
kelime da� arcı � ına; birden büyük e� im de, açık kelime da� arcı � ına
delildir. Bu noktadan hareketle, e� er, e� imin sayısal de� eri, iki derlem
arasında, kelime da� arcı � ı boyutunun artı � hızlarını kar � ıla� tırmak, yani
hangisinin daha zengin kelime da� arcı � ına sahip oldu� unu ölçmek için
nicel bir ölçüt olarak kabul edilirse, gövde esasında e� im (-2.2515),
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
256
kelime esasındaki e� imden (-1.2786) büyük oldu� u için: “ gövde
esasındaki kelime da� arcı � ı, kelime esasındaki kelime da� arcı � ından,
boyut açısından geni � lemeye daha meyillidir.” de denebilir.
10.3. � ngilizce için Zipf Bir inci Kanun � ncelemesi
Türkçe için yaptı � ımız incelemeleri, iddiaların asıl kayna� ı olan �ngilizce için bir birle� ik derlemde de yaparak, Zipf birinci güç kanunu
tartı � mamızı bitiyoruz. Kullanaca� ımız birle� ik derlem, üç çok yaygın
ve serbest eri � imli �ngilizce derlemin harmanıdır: Time, Cranfield ve
Medlars. Time derlemi adında anla� ılaca� ı gibi, Time gazetesinin
makalelerinden; Cranfield derlemi, aerodinamik sahasındaki ara� tırma
makalelerinden olu� mu� tur. Medlars derlemi ise, SMART BGG
sisteminin demirba� derlemidir. Bu üç derlemin ve harmanı olan
birle� ik derlemin genel özellikleri Çizelge 10.2.6.1.’de verilmi � tir. �ngilizce için tanımlayıcı genel istatistikler, Türkçe ile kar � ıla� tırılınca
bir nokta gerçekten dikkat çekicidir: Türkçe ile �ngilizce kelime
da� arcıklarının büyüklü� ü açısından, ancak Türkçe derlemler
gövdelenirse, e� it � artlara gelinmektedir. �ngilizce birle� ik derlemin
birlik sayısı 654,728 ve kelime sayısı 32,301’dir. Türkçe birle� ik
derlemin birlik sayısı 638,486 (BilTD ve OSTAD birlik sayıları
toplamı), kelime sayısı 94,230’dur ve gövde sayısı 21,905’dir.
Çizelge 10.2.6.1: Time, Cranfield, Medlars ve birle� ik derlemlerinin genel özellikleri.
Der lem Bir lik Kelime BelgeTime 249,567 20,856 425
Cranfield 258,509 8,189 1,400
Medalars 161,605 12,609 1,034
Toplam 669,681 41,654 2,859
Bir le� ik 654,728 32,301 *
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
257
�ngilizce birle� ik derlem için, Zipf ve Mandelbrot ifadeleri ile
uyum sınamaları, Çizelge 10.2.6.1.’de tablo halinde verilmi � tir.
Çizelge 10.2.6.1: � ngilizce birle� ik derlemin, Zipf ve Mandelbrot ifadeleri ile, kelime asasında uyum sınaması.
Model Rsq N F Sigf b0 b1Zipf 0.985 32,301 2.163E+06 0.000 5.9951 -1.3499W=10 0.988 32,301 2.644E+06 0.000 6.0577 -1.3648W=100 0.994 32,301 5.506E+06 0.000 6.3413 -1.4316W=1,000 0.992 32,301 4.021E+06 0.000 7.6853 -1.7388W=10,000 0.935 32,301 4.647E+05 0.000 15.1910 -3.3507
Aldı � ımız sonuçlar, Kornai (2002) tarafından yapılan çalı � mada
da belirtildi � i gibi, �ngilizce’nin aslen yaygın olarak kabul edildi � i
� ekilde kapalı bir kelime da� arcı � ına sahip olmadı � ı, aksine derlem
büyüklü� ü sonsuza giderken kelime da� arcı � ı boyutunun da, sonsuza
gitti � i ve açık oldu� u iddiası ile paraleldir (bütün e� imler birden
büyük). �ngilizce birle� ik derlem için, Zipf ve Mandelbrot ifadeleri ile
tahmin edilen de� erlerle, gerçekle� en de� erlerin yayılım çizgesi,
sırasıyla, � ekil 10.2.6.1 ve � ekil 10.2.6.2.’de verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
258
�ekil 10.2.6.1: � ngilizce birle� ik derlemin, kelime esasında Zipf ifadesi ile uyum
çizgesi.
�ekil 10.2.6.2: : � ngilizce birle� ik derlemin, kelime esasında Mandelbrot (W=100)
ifadesi ile uyum çizgesi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
259
�ngilizce derlem için yapılan incelemenin sonuçları, Mandelbrot
tarafından yapılan özgün çalı � mada da belirtilen de� erlerle de
uyumludur (W=100 için en iyi uyum). Ancak, Mandelbrot, e� imi 1.15
olarak vermi � tir. Elimizdeki derlemden elde etti � imiz sonuç 1.43’ dür.
Bu de� er verilenden oldukça büyüktür. Fakat Kornai (2003), buldukları
sonuçlarla, bu � ekilde benzer farklılıklar oldu� unu bildirmi � tir. Bu
farklılı � ın çe� itli sebepleri olabilir. Örne� in, elimizdeki ODTÜ
derleminin kelime esasındaki sonuçları, Mandelbrot’un sonuçları ile
çok daha uyumludur. ODTÜ derlemi belge türleri açısından zengin ve
boyut olarak oldukça büyüktür. Birle� ik �ngilizce derlemimiz için, bu
iki özellikten de bahsetmek mümkün de� ildir. Ancak, �ngilizce
derlemle yaptı � ımız çalı � madan çıkardı � ımız bir sonuç daha vardır. �ngilizce derlem, Türkçe’de gövdelerle benzer karakterler
sergilemektedir. Yani, e� er kapalı kelime da� arcı � ı varsa, daha hızlı
gerçek boyutlarına yakınsamaktadır. Kanımızca bu sonuçlar, geneli �ngilizce üzerinden geli � tirilmi � BGG yöntemlerinin, Türkçe’de neden
gövdelerle çalı � ıldı � ında, kelimelerle çalı � ıldı � ından daha iyi sonuçlar
alındı � ının da bir izahı olmaktadır. Kelime da� arcı � ının açık veya
kapalı olmasından ba� ımsız olacak � ekilde, Türkçe için gövdelerle
çalı � manın daima kelimelerle çalı � maktan daha iyi sonuçlar verece� i
ortadadır. Bu durum tabii ki, Türkçe için, Türkçe’nin özelliklerine has
yöntemler geli � tirilmeden, sadece �ngilizce üzerinde yapılan
çalı � maların, do � rudan kullanımı için geçerlidir. Di � er hallerde, bu
� ekilde bir iddiamız yoktur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
260
10.4. Türkçe için Kelime Da� arcı � ı (KD) � ncelemesi
10.4.1. Kelime Da� arcı � ı Boyutlar ı– Zipf Bir inci Kanun
Derlem boyutu ile kelime da� arcı � ının boyutu arasındaki ili � kiyi
Kornai (2002), Denklem 10.3.1.1.’de oldu� u � ekilde üstel bir il i � ki olarak vermi � tir. Denklemde, 10 ≤≤ ρ parametresi, derlem boyutu ile
kelime da� arcı � ı boyutu arasındaki üstel ili � kinin katsayısıdır. Bu katsayı � ngilizce için, deneysel olarak Kornai tarafından 75.0≈ρ
olarak saptanmı � tır. Katsayının hesaplanması için Denklem 10.3.1.2.’de
verilen ifadedeki, B parametresi, Zipf birinci kanun ifadesindeki
e� imdir (B). Denklem 10.3.1.1. ve 10.3.1.2.’de verilen ili � kiler gere� i,
e� er, kelime da� arcı � ının boyutu ile derlem boyutu (N) arasında bulunan üstel il i � ki katsayısı 10 >⇔> Bρ olursa, derlem boyutu
sonsuza giderken, kelime da� arcı � ı boyutu da sonsuza gidecektir ∞→
∞→)(lim NV
N.
ρNNV ≥)( (10.3.1.1)
B
1=ρ
(10.3.1.2)
Özetle, Denklem 10.3.1.1.de verilen ili � kinin anlamı � udur: Zipf
ifadesinin uyum e� imi birden büyük olmak � artı ile, e� er bir dil için
kelime da� arcı � ı ile örneklem boyutu arasında, söz konusu ili � ki varsa,
o dil için “kapalı kelime da� arcı � ı vardır.” denemez. Yaptı � ımız
deneysel çalı � mada, yani Türkçe’nin Zipf ifadesi ile uyum
sınamalarında, elde edilen e� imlerin birden büyük olması (B > 1),
Türkçe için kapalı kelime da� arcı � ı hipotezinin reddedilmesine delil
olmaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
261
Kelime esasında, Türkçe birle� ik derlem için Çizelge 10.3.1.1.’de
ve � ngilizce birle� ik derlem için Çizelge 10.3.1.2.’de, Zipf kanunları
çerçevesinde incelenmi � tüm modeller üzerinden Denklem 10.3.1.1.
kullanılarak hesaplanmı � kelime da� arcı � ı boyut katsayıları
listelenmi � tir. Çizelge 10.3.1.3.’de de, gövde esasında kelime da� arcı � ı
boyut katsayıları verilmi � tir.
Çizelge 10.3.1.1: Türkçe birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı� ı büyüme katsayıları.
Model Rsq b0 b1 (-1)/b1Zipf 0.995 6.2635 -1.1915 0.8393W=10 0.996 6.2777 -1.1944 0.8372W=100 0.997 6.3493 -1.2085 0.8275W=1,000 0.998 6.7091 -1.2786 0.7821W=10,000 0.975 8.4196 -1.6030 0.6238W=100,000 0.892 18.6018 -3.4286 0.2917
Çizelge 10.3.1.2: � ngilizce birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı� ı büyüme katsayıları.
Model Rsq b0 b1 (-1)/b1Zipf 0.985 5.9951 -1.3499 0.7408W=10 0.988 6.0577 -1.3648 0.7327W=100 0.994 6.3413 -1.4316 0.6985W=1,000 0.992 7.6853 -1.7388 0.5751W=10,000 0.935 15.1910 -3.3507 0.2984
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
262
Çizelge 10.3.1.3: Türkçe birle� ik derlemin gövde esasında incelenen her modeli için, kelime da� arcı� ı büyüme katsayıları.
Model Rsq b0 b1 (-1)/b1Zipf 0.974 6.8964 -1.6127 0.6201W=10 0.980 7.0017 -1.6390 0.6101W=100 0.992 7.4554 -1.7505 0.5713W=1,000 0.995 9.5706 -2.2515 0.4441W=10,000 0.934 22.1407 -5.0134 0.1995
Çizelgelerde hesaplanmı � olan katsayıların, her derlem türü için
kuramsal olarak, o derlem için seçilecek olanı, söz konusu Zipf veya
Mandelbrot ifadelerinin en uygun oldu� u haldeki de� ere denk gelendir.
Türkçe için genel bir katsayı vermeden önce, her üç derlem için
hesaplanmı � tüm katsayılar için kar � ılık gelen derlem boyutları
üzerinden, kelime da� arcı � ı tahminlerini ve gerçek de� erlerini
kar � ıla� tırmalı olarak incelemekte fayda vardır. Çizelge 10.3.1.4.,
11.3.1.5. ve 11.3.1.6.’da söz konusu tahmin edilen ve gerçek de� erler
liste halinde verilmi � tir.
Çizelge 10.3.1.4: Kelime esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı� ı boyut (KDB) tahminleri. “1M” ve “10M” derlemleri, Hakkani-Tür (2002) çalı � masında verilen bir ve on milyonluk derlemlerin kelime da� arcı� ı sayılarıdır. Son sütundaki “µ” de� erleri ise Mandelbrot W=100 ve 1000 katsayılarının ortalaması üzerinden tahminleri göstermektedir.
Adı Boyut KDB 10 100 1000 10000 µOSTAD 51,209 17,487 8,963 8,767 7,886 4,822 867 6,166BilTD 587,277 94,230 69,449 67,594 59,369 32,497 3,970 43,924ODTÜ 1,924,653 200,048 188,070 182,606 158,535 82,229 8,325 114,176BirTD 2,511,930 234,843 235,173 228,216 197,618 101,270 9,829 141,467
1M 1,000,000 106,547 108,560 105,546 92,222 49,276 5,533 67,41110M 10,000,000 417,775 749,804 725,576 619,876 298,358 23,271 430,052
Der lem (Kelime) MandelbrotZipf
Tahmin edilen Kelime da� arcı � ı boyutu
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
263
Çizelge 10.3.1.5: Kelime esasında � ngilizce birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı� ı boyut tahminleri.
Adı Boyut KDB 10 100 1000 10000Time 249,567 20,856 9,959 9,007 5,889 1,270 41
Cranfield 258,509 8,189 10,222 9,242 6,036 1,296 41Medalrs 161,605 12,609 7,218 6,551 4,347 990 36BirTD 654,728 32,301 20,348 18,259 11,551 2,212 54
Der lem (Gövde) ZipfMandelbrot
Tahmin edilen Kelime da� arcı � ı boyutu
Çizelge 10.3.1.6: Gövde esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı� ı boyut tahminleri.
Adı Boyut KDB 10 100 1000 10000OSTAD 51,209 5,201 832 747 490 123 9BilTD 587,277 20,268 3,777 3,309 1,975 365 14ODTÜ 1,924,653 * 7,885 6,827 3,891 618 18BirTD 638,486 21,095 3,978 3,482 2,071 379 14
Der lem (Gövde) Zipf
Tahmin edilen Kelime da� arcı � ı boyutuMandelbrot
Katsayılar üzerinden � ngilizce için kelime ve Türkçe için gövde
esasında yapılan kelime da� arcı � ı boyutu (KDB) tahminleri, görüldü� ü
gibi gerçek de� erlere yakın de� ildir. Ancak, de� erler halen, Denklem
10.3.1.1. ile önerilen üstel artı � iddiasının, aksi delilleri de de� ildir.
Fakat, bu derlemler için, ancak zayıf alt sınırlar olarak kullanılabilecek
özelliktedirler.
Çizelge 10.3.1.4.’de, kelime esasındaki Türkçe birle� ik derlem
için, özellikle Zipf ve Mandelbrot (W=10) ifadeleri için hesaplanan
tahminler, derlem boyutu 106 seviyesinin çevresi sınır olacak � ekilde
çok yakın tahminlerdir. Fakat 107 seviyesi için Hakkani-Tür (2002)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
264
tarafından bildirilen gerçek kelime da� arcı � ı boyutlarından çok
yukarıda kalmaktadırlar.
Mandelbrot ifadesinin W=1000 parametre de� eri, yani Türkçe
birle� ik derlem için ey uygun model, çizelgeden de görüldü� ü gibi, 107
seviyesi de dahil olmak üzere yakın alt sınır olma özelli � i
göstermektedir. Çizelge 10.3.1.4.’de son sütunda “µ” ba� lı � ı altında
verilen tahminler, Mandelbrot ifadesini W=100 ve W=1000 parametre
de� erleri için bireysel olarak hesaplanan büyüme katsayılarının ortalaması ( 8048.02/)( 1000100 =+= ρρµ ) üzerinden kelime da� arcı � ı
boyut tahminleridir. Bu tahminler çizelgedeki 107 seviyesi
tahminlerinin tamamından daha iyidir.
Özetle, deneysel çalı � malarımız, Türkçe için kelime da� arcı � ının
büyüklü� ü ile derlem büyüklü� ü arasında, kelimeler için, üstel bir
ili � ki, yani güç ili � kisi oldu� una dair deliller sunmaktadır. Türkçe
kelime da� arcıkları, derlem büyüklü� ü arttıkça, Denklem 10.3.1.1.
ifadesi alt sınır olacak � ekilde, derlem büyüklü� ü ile do� ru orantılı,
ancak üstel bir artı � göstermi � tir. Dolayısı ile, elimizdeki deneysel
deliller ı � ı � ı altında � unu söyleyebiliriz ki: Türkçe çalı � malarda, ancak
derlem büyüklü� ü sınırlandırılıp, sabitlendi � inde, yani istatistiksel
çalı � manın kitlesi, söz konusu derlem olunca, kapalı kelime da� arcı � ına
dayalı kuramlar geçerli olabilir.
Türkçe için kelime da� arcı � ının derlem boyutu ile, üstel bir ili � ki içinde büyüme alt sınır katsayısı olarak: kelime esasında 0.7821≈ρ ve
gövde esasında 0.4441≈gρ önerilmektedir. Ayrıca, Zipf birinci
kanunu için yaptı � ımız çalı � maların ı � ı � ı altında, sezgisel olarak
belirledi � imiz bir nokta daha vardır: verdi � imiz gibi genel bir
parametre de� eri belirlemek elbette mümkündür, ancak belge türleri
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
265
esasında kısıtlı, ancak daha belirleyici katsayılar bulunması ve genel bir
katsayının belge türlerinin derlem içindeki da� ılımı ile ili � kilendirilmi �
olarak tahmin edilmesi daha tutarlı ve anlamlı olacaktır.
10.4.2. Kelime Biçimler i – Zipf � kinci Kanun
Bu bölümde kelime da� arcı � ı içindeki, kelimelerin yazıda
görülme � ekilleri ile ilgili özellikleri için matematiksel il i � kiler
tanımlanacak ve ifadelerin parametreleri deneysel olarak tespit
edilecektir. Bu konu, kuramsal olarak Zipf ikinci kanunu (Bölüm 7.2.1)
ile alakalıdır. BGG sahasındaki yansıması ise, i � lev ve içerik
kelimelerin ayrı � tırılması konusuna dayandı � ı için, tez kapsamımız
açısından da oldukça önemlidir.
�ncelememiz öncelikle, çok dü� ük frekanslı kelime biçimleri ile
ba� layacaktır. �lintil i olarak, kelime da� arcı � ının zenginli � i konusu da,
dü� ük frekanslı kelimeler sayesinde tanımlanacaktır. �kinci olarak,
kelimelerin belirli bir metinin içeri � ini temsili açısından içerik ve i � lev
kelimeler olarak birbirinden ayrı � tırılması konusu tanıtılacaktır.
10.4.2.1 Dü� ük frekanslı kelimeler
Kelime da� arcı � ının, derlem boyutunu ile birlikte büyüyece� i
sonucuna, sebep olarak gösterilebilecek dil özelliklerinden biri
biçimbirimsel üretkenliktir (productive morphology). Analitik bir dil
olarak �ngilizce için dahi geçerli olan böyle bir sebep (Kornai, 2002),
Türkçe gibi eklemeli ve biçimbirimsel üretkenli � i çok geli � kin bir dil
için daha da önemli bir etmen olacaktır. Kelime esasında yaptı � ımız
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
266
incelemeler de bu duruma i � aret etmi � tir. Fakat, Türkçe için kelimelerin
yazıda kullanıldıkları biçimleri açısından, tek bir kelime için milyon
seviyelerinde farklı kelime � ekli üretme kapasitesinde olu� u, zaten tek
ba� ına yeterli bir delildir (Hankamer, 1984).
Biçimbirimsel üretkenlik, aslen kelime biçimlerinden sadece bir
kere gözlenen (hapax legomena), sadece iki kere gözlenen (dis
legomena) gibi çok dü� ük frekanslı kelimelerin kelime da� arcı � ındaki
sayısını arttırır. Ancak, bu kelime biçimlerinin, kelime da� arcı � ı
içindeki toplam sayısının “daima” %40’den fazla olması, biçimbirimsel
üretkenli � i gerçekten büyük bir mesele haline getirir. Üç, dört, be� kere
veya daha çok gözlenen kelime biçimleri elbette vardır, ancak özellikle
hapaks kelime biçimleri tabii olarak açık kelime da� arcı � ı konusu
açısından, di � erlerinden çok daha önemlidir. Çünkü, bunlar daha önce
görülmemi � kelime biçimleridir ve sayıları ile derlem boyutu arasındaki
ili � ki nispetinde, kelime da� arcı � ı boyutlarını do� rudan etkilerler.
Hatta, “kelime da� arcı � ı boyutunun artı � ında baskın sebep, hapaks
kelimelerdir” demek daha iyi bir tanım olur.
Hapaks kelimelerin, kelime da� arcı � ının boyutları üzerinde bu
denli baskın bir etmen olması kar � ısında dilbilimciler tarafından
geli � tirilen açıklama, yazı içinde geçen harf dı � ı birliklerin varlı � ıdır,
daha do� rusu rakamlardır. Bu noktada, Türkçe için yaptı � ımız
yukarıdaki çalı � maların tamamının rakamlardan arınmı � çalı � malar
oldu� unu, bir kez daha belirtelim. Hapax kelimelerin sebeplerinden
birisi elbette rakamlardır, ancak ba� ka önemli sebepler de vardır.
Hapaks kelimelerin olu� masının ba� lıca sebepleri içinde, biçimbirimsel
üretkenlik ve rakamlar dı � ında yanlı � yazım, yazımda kullanılan
yabancı kelimeler, özel isimler gibi daha belirli sebepler de vardır. �ngilizce için verilen sonuçlarda rakamlar çıkarıldı � ında gözlemlenen
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
267
hapaks kelime oranları yine %50’nin üzerindedir: %56 sadece harf
birlikleri, rakamlarla birlikte %69,8 (Kornai, 2002). Görüldü� ü gibi,
hapakslar, yani bir kelime da� arcı � ında sadece bir kere gözlemlenen
kelimeler, bir derleme ait kelime da� arcı � ı büyüklü� ünün yakla� ık
olarak yarısından fazlasını olu� turmaktadır.
Kelime esasında birle� ik Türkçe derlem için, kelime
da� arcı � ındaki farklı kelime biçimleri ve sayıca kelime da� arcı � ı
içindeki da� ılımı Çizelge 10.3.2.1.1.’de çe� itli istatistikler ile birlikte
verilmi � tir.
Çizelge 10.3.2.1.1: Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri (Skewness* , Türkçe çarpıklık anlamına gelmektedir).
i V(i,N) % Top(%) i V(i,N) % Top(%)1 116,939 49.8 49.8 15 1,178 0.5 91.52 35,960 15.3 65.1 20 707 0.3 93.33 17,602 7.5 72.6 30 327 0.1 95.34 10,983 4.7 77.3 35 290 0.1 95.95 7,515 3.2 80.5 50 137 0.1 97.1 % i % i6 5,522 2.4 82.8 75 68 0.0 98.1 10 1 60 27 4,201 1.8 84.6 100 42 0.0 98.6 20 1 70 38 3,402 1.4 86.1 150 30 0.0 99.1 30 1 80 59 2,693 1.1 87.2 500 2 0.0 99.8 40 1 90 1310 2,314 1.0 88.2 1,004 1 0.0 99.9 50 2
188.32
23484311.452.00
218.50
NOrtalama(i)Medyan(i)
Std. Sapma(i)Skewness*
Çizelgede görüldü� ü gibi, Türkçe’de de hapaks kelimelerin (i=1)
durumu farklı de� ildir. Hapaks kelimelerin, yani bir kere gözlemlenen
kelime biçimlerinin sayısı, kelime da� arcı � ının %49,8’ ini; iki kere
gözlemlenen kelime biçimlerinin sayısı ile birlikte %65’ ini
olu� turmaktadır. Sadece 100 kere gözüken kelimelere gelindi � inde ise
toplam 234.843 kelimelik, kelime da� arcı � ının yakla� ık %98’ ini
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
268
kapsanmaktadır. Demek ki, beklendi � i gibi hapaks kelime meselesi
Türkçe için de gayet önemli bir konudur.
Zipf kanunlarının birincisi ile ikincisi arasında, aslen güçlü bir
ili � ki vardır. Bu ili � ki, Denklem 10.3.2.1.1.’de verildi � i gibidir, yani,
e� er bir da� ılım, Zipf birinci kanununa uyuyorsa, Zipf ikici kanununa
da e� imi Denklem 10.3.2.1.1. ile hesaplanan de� erle uyar (kuramsal
ispat için, Kornai (2002)).
)1/( NNN BBD += (10.3.2.1.1)
Denklemede, DN, ikinci kanun ifadesindeki e� im, BN ise birinci
kanun ifadesindeki e� imdir. Türkçe için deneysel olarak, Zipf birinci
kanun ifadesinin en uygun halinde, yani Mandelbrot ifadesinin
W=1000 parametre de� eri için, elde etti � imiz e� im 2786.11 −==− bBN ile, Denklem 10.3.2.1.1.’den hesaplayaca� ımız
de� er, Zipf ikinci kanun ifadesinin e� imini vermelidir. Yani Zipf ikinci
kanun ifadesi için, tahmin edilen deneysel e� im de� eri 5611.0)2786.11/()2786.1( =+=ND ’dir. BirTD derlemi için, Zipf
ikinci kanun ifadesi uyum sınaması sonucu Çizelge 10.3.2.1.2.’de
verilmi � tir. Kar � ıla� tırma amacıyla, � ekil 10.3.2.1.1.’de, tahmin edilen
ve gözlenen de� erler yayılım çizgesi � eklinde de gösterilmi � tir.
Çizelge 10.3.2.1.2: Kelime esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonucu.
Model Rsq N F Sigf b0 b1Zipf 0.998 926 5.164E+05 0.000 2.8455 -0.5516
Çizelgede görüldü� ü gibi, Türkçe birle� ik derlem için, Zipf ikinci
kanun ifadesinin uyumundaki e� im, tahmin edilen e� ime çok yakın bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
269
de� er çıkmı � tır. Bu sonuç da, Zipf birinci kanunu ile ikinci kanunu
arasında iddia edilen güçlü ba� lantının, deneysel olarak Türkçe için
geçerli oldu� unu göstermektedir.
�ekil 10.3.2.1.1.’de görüldü� ü gibi, Türkçe kelime da� arcı � ını
olu� turan kelime biçimlerinin, kelime da� arcı � ı içindeki sayıları, Zipf
ikinci kanununa uymaktadır. Zipf, özgün çalı � masında e� imi, 0.5
olarak vermi � tir. Türkçe için bu de� er, deneysel olarak elimizdeki
birle� ik derlemlerle de uyu� maktadır.
�ekil 10.3.2.1.1: Kelime esasında Türkçe birle� ik derlem için, Zipf ikinci kanun
ifadesinin tahmin etti � i kelime biçimi adedi ile gözlemlenen kelime biçimi adedinin yayılım çizgesi.
Zipf ikinci kanunu açısından, gövdelerin durumu beklendi � i gibi
kelimelerden biraz daha farklıdır. Çizelge 10.3.2.1.3.’de, BilTD ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
270
OSTAD derlemlerinin harmanı ile olu� turulmu� , gövde esasında
birle� ik derlem için kelime da� arcı � ının istatistikleri verilmi � tir.
Çizelge 10.3.2.1.3: Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri (Skewness, Türkçe çarpıklık anlamına gelmektedir).
i V(i,N) % Top(%) i V(i,N) % Top(%)1 7,693 36.5 36.5 15 145 0.7 80.52 2,959 14.0 50.5 45 37 0.2 89.93 1,504 7.1 57.6 75 11 0.1 92.74 1,017 4.8 62.4 100 10 0.0 94.05 751 3.6 66.0 150 2 0.0 95.6 % i % i6 659 3.1 69.1 300 2 0.0 97.7 10 1 60 47 462 2.2 71.3 464 2 0.0 98.6 20 1 70 78 387 1.8 73.2 608 2 0.0 99.0 30 1 80 159 311 1.5 74.6 2,167 1 0.0 99.9 40 2 90 4610 255 1.2 75.8 3,900 1 0.0 99.9 50 2
274.5235.97
2109536.192.00
Std. Sapma(i)Skewness
NOrtalama(i)M edyan(i)
Çizelgede görüldü� ü gibi, Türkçe’de gövdeler esasında hapaks
� ekillerin (i=1) durumu oransal olarak kelimelerden iyidir. Hapaks
gövdelerin, yani bir kere gözlemlenen gövde türlerinin sayısı, kelime
da� arcı � ının %36,5’ ini (kelimelerde %49,8), iki kere gözlemlenen
kelime biçimlerinin sayısı ile birlikte %50’sini (kelimelerde %65,1)
olu� turmaktadır. Dolayısı ile gövdeler, medyan etrafında daha iyi bir
da� ılım göstermi � tir. “Skewness” de� eri, yani Türkçe olarak çarpıklık
de� eri olan 35,97 bu da� ılımın normal da� ılımdan ne kadar saptı � ının
bir ölçüsüdür. De� erin sıfır oldu� u zaman da� ılım normal demektir.
Kelimeler için “Skewness” de� eri de 188.32’dir. � ekil 10.3.2.1.2.’de
kelimeler (a) ve gövdeler (b) için verilen çizgelerde, da� ılımların
birbirlerinden farklılı � ını görsel olarak da seçilebilmektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
271
(a)
(b)
�ekil 10.3.2.1.2: Kelimeler (a) ve gövdeler (b) için kelime da� arcıkları. X-ekseni
derlem içinde gözlenme sıklı� ı, y-ekseni söz konusu gözlenme sıklı � ının kaç kere gözlendi � i, yani frekansların frekansları. Ortalama üzerinde referans normal da� ılım da gösterilmektedir.
Da� ılım açısından da incelemeler sonucunda, gövdeler için
istatistiksel çıkarımlar açısından kelimelere nazaran daha uygun bir
karakteristik elde edildi � i söylenebilir.
Gövdelerin, Zipf ikinci kanun için Denklem 10.3.2.1.1.’de verilen
ifade ile hesaplanan tahmini e� imi: 6924.0)2.25151/()2.2515( =+=ND ’dir. Zipf ikinci kanun ifadesi için
derlemden hesaplanan de� erse, Çizelge 10.3.2.1.4.’de verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
272
Çizelge 10.3.2.1.4: Gövde esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonuçları.
Model Rsq N F Sigf b0 b1Zipf 1.000 644 1.422E+06 0.000 2.6951 -0.6994
�ekil 10.3.2.1.3.’de de, gövde esasında Zipf ikinci kanununun
birle� ik derleme uyumunun, yayılım çizgesi verilmi � tir.
�ekil 10.3.2.1.3: Gövde esasındaki Türkçe birle� ik derlem için, Zipf ikinci kanun
ifadesinin tahmin etti � i kelime biçimi sayıları ile gözlemlenen kelime biçimi sayılarının yayılım çizgesi.
Gövdeler için Zipf ikinci kanun ifadesinin hesaplanan e� im
de� eri 0.6994’dür. Denklem 10.3.2.1.1. ile hesaplanan tahmini ise
0.6924’dür. Görüldü� ü gibi hata kelimelerden çok daha azdır. Ancak
burada, Mandelbrot denklemi için yaptı � ımız çalı � maların belirli
sabitlerle oldu� unun altını çizmek istiyoruz. Mandelbrot ifadesinde W
parametresinin en iyi de� erini tespit etmeye dönük bir çalı � ma ile elde
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
273
edilecek birinci ilke e� imi, muhakkak Zipf ikinci kanun e� iminin,
Denklem 10.3.2.1.1. ile yapılan tahmindeki hatayı dü� ürecektir. Elde
etti � imiz deneysel sonuçlar, Zipf birinci kanunu ile ikinci kanunu
arasında bir ba� ımsızlı � ın oldu� u hipotezini reddetmeye yetecek
delilleri sunmaktadır.
10.4.2.2 Farklı kelime biçimlerinin gözlenme sıklıkları
Kelime da� arcı � ı içindeki kelimelerin derlemde gözlenme
sıklıklarının frekansları, örne� in hapaks kelimelerin, yani derlemde
yalnızca bir kez gözlemlenen kelimelerin frekanslarının tahmin
edilmesi için Zipf ikinci kanunu Denklem 10.3.2.2.1.’de verildi � i
� ekilde hesaplamaya çok daha yatkın bir hale getirilebilir. Bu denklem
elbette, derlem büyüklü� ünün sonsuza gitti � i durumdaki asimptotik
durum için geçerlidir.
1/)(),( += ρiNmVNiV (10.3.2.2.1)
Denklemde m bir sabit sayıdır. E� er 11 /)(),( +∞
= =� ρiNVNiVi
e� itli � i sa� lanmak isteniyorsa, B > 1 için da� ılımı tutarlı hale getirecek,
B=1 durumundan hesaplanan 2/6 π=m , üstten sınır katsayısı olarak kullanılabilir (Aslen bu çarpım sabiti, ζ simgesi Reimann fonksiyonu
olmak üzere, )1(/1 += ρζm � eklinde hesaplanmaktadır.) Denklemde
verilen ifade, Zipf ikinci kanun ifadesindeki KN sabit teriminin
normalizasyonu ile elde edilmi � tir. Bu normal de� er )1/())(log( += ρNVKN olarak alınarak, Denklem 10.3.2.2.2.’de
verilen ifade elde edilir.
)1/()),(log()1/())(log()log( +−+= ρρ NiVNVi (10.3.2.2.2)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
274
Zipf birinci kanun incelemesi sonucunda elde etti � imiz, kelime da� arcı � ı büyüme katsayısı, 0.7821≈ρ ve m sabiti için
0.607927/6 2 =π de� eri Denklem 10.3.2.2.1.’de yerine konursa,
Türkçe kelime da� arcıklarındaki kelimelerin, derlem içinde gözükme
sıklıklarının frekanslarının tahmini Denklem 10.3.2.2.3.’de verilen
ifade ile hesaplanabilir.
7821.12
/)(6
),( iNVNiVπ
= (10.3.2.2.3)
Denklem kullanılarak tahmin edilen ve birle� ik derlemin kelime
da� arcı � ında olan kelimelerin gerçek gözlenme sıklıklarının frekansları
kar � ıla� tırma amacı ile Çizelge 10.3.2.2.1.’de verilmi � tir.
Çizelge 10.3.2.2.1: Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.
i V(i,N) Tahmin i V(i,N) Tahmin1 116,939 142,767 15 1,178 1,1452 35,960 41,511 20 707 6863 17,602 20,154 30 327 3334 10,983 12,070 35 290 2535 7,515 8,110 50 137 1346 5,522 5,860 75 68 657 4,201 4,452 100 42 398 3,402 3,509 150 30 199 2,693 2,845 500 2 210 2,314 2,358 1,004 1 1
Kelimeler esasında yaptı � ımız bu çalı � mayı, gövdeler esasında da
tekrarlayacak olursak, gövdeler için Zipf birinci denkleminden elde etti � imiz kelime da� arcı � ı büyüme katsayısı, 0.4441≈gρ ve yine m
sabiti için 0.607927/6 2 =π de� eri alınırsa, Türkçe kelime
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
275
da� arcıklarındaki gövdelerin, derlem içinde gözükme sıklıklarının
frekanslarının tahmini de Denklem 10.3.2.2.4. kullanılarak
hesaplanabilir.
4441.12
/)(6
),( iNVNiV G π= (10.3.2.2.4)
Denklem kullanılarak hesaplanan ve gövde esasında birle� ik
derlemin kelime da� arcı � ında olan kelimelerin, gerçek gözlenme
sıklıklarının frekansları da Çizelge 10.3.2.2.2.’de verilmi � tir.
Çizelge 10.3.2.2.2: Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.
i V(i,N) Tahmin i V(i,N) Tahmin1 7,693 12,824 15 145 2572 2,959 4,713 45 37 533 1,504 2,624 75 11 254 1,017 1,732 100 10 175 751 1,255 150 2 96 659 965 300 2 37 462 772 464 2 28 387 637 608 2 19 311 537 2,167 1 010 255 461 3,900 1 0
Özetle, Denklem 10.3.2.2.1. ile iddia edilen � udur: Zipf birinci
kanununu, en azından orta ve dü� ük frekans bandında sa� layan
derlemler, Zipf ikinci kanununu da en azından dü � ük frekans bandında
sa� larlar. Kelimeler için � ekil 10.3.2.1.1. ve gövdeler için � ekil
10.3.2.1.3.’de verilen yayılım çizgelerinde de görüldü� ü gibi, Zipf
ikinci kanunun uyumu, istatistiksel anlamlılık açısından mükemmele
yakındır. Dolayısı ile kelime da� arcı � ı için, derlem içinde yüksek
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
276
frekansa sahip kelimelerin, orta ve dü� ük frekans bandındakilerden
izole edilerek de� erlendirilmesi gibi bir ayrıma gidilmesine gerek
yoktur.
10.4.2.3 Hapaks kelimeler ve da� arcık zenginli � i
Zipf ikinci kanunu için Denklem 10.3.2.2.1.’de verilen ifadede
i=1 (hapaks) için, mV(N) kadar, yani tüm kelime da� arcı � ının %60’ ı
kadar ( 0.607927/6 2 =π ) bir miktar tahmin edilmektedir. � ki kere
gözlenen kelimeler de hesaba katılırsa, toplam kelime da� arcı � ının
yakla� ık dörtte üçü kapsanmaktadır. Bu deneysel buluntular, nicel
dilbilim sahasında da yo� un � ekilde desteklenmektedir. Örne� in,
Herdan’ ın (1960) özgün çalı � masında, Zipf ikinci kanununa alternatif
olarak geli � tirdi � i, Waring da� ılımı için sadece 6.0)(/),1(4.0 ≤≤ NVNV aralı � ında de� erleri tablo halinde vermesi
bunun bir delil idir. Çünkü, “dilin uygulamalı çalı � malarında,
kar � ıla� ılması muhtemel kelimeler” bu aralık içinde kalmaktadır.
Baayen (2001), 0)(/),1(lim >∞→
NVNVN
olması durumunda,
V(1,N) de� erinin, az rastlanan olayların çok gözükmesi (large number
of rare events - LNRE) ilkesine ba� lı olarak sonsuza gidece� ini
tanımlamı � tır. Ayrıca, Baayen aynı çalı � masında, kelimelerin gözlenme
sıklıklarının da� ılımı ile ilgili olarak, çok büyük derlemlerle çalı � ılsa
dahi LNRE bandında kalındı � ını belirtmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
277
10.4.3. ��� lev ve � çer ik Kelimeler ( � ndeks Ter imler )
Dilbilim sahasındaki çalı � maların kelime frekansları ile ilgili
olanlarının, yani istatistiklere dayalı çalı � maların temelinde, belirtilsin
veya belirtilmesin Bernoulli deneysel kurgusu vardır. Bu kurgu
gere� ince kelimelerle ilgili, tabii ba� lantılı olarak kelime da� arcı � ı ve
kitle ile ilgili bir takım kabullenmeler yapılması gereklili � i do � ar.
Kelimelerle, daha do� rusu bir derlemde gözlemlenecek birliklerle ilgili
yapılan kabullenmeler � unlardır: tüm birlikler, oranları belirli bir
� ekilde, tek bir torbada durmaktadırlar; birlikler bu torbadan çekilir
(yani yazımda gözlenir) ve tekrar torbaya atılır; herhangi bir birli � in
torbadan çekilmesi (yazıda gözlemlenmesi) olasılı � ı bir di � er birli � in
çekilmesi olasılı � ından ba� ımsızdır. Elbette bu kurgu gerçek yazılı
belgelerin do � asını temsil etmez, ancak istatistiksel yöntemlerin dil
üzerinde uygulanabilmesini mümkün kılar. Bir kere böyle bir kurgu
kabullenilince, temel ilkelerden ayrılmadan kurgu üzerinde
de� i � ikliklere gitmek elbette mümkündür. Örne� in Mandelbrot (1961),
bu kurguda tek bir büyük torba U yerine, iki ayrı torba, yani i � lev
(görev) kelimeler için UG ve içerik kelimeler için UI kullanılmasını
önermi � tir. Bunun sebebi olarak da, i � lev kelimelerin yazım kuralları
tarafından yönlendirilen ve yazarın inisiyatifinde olmayan kelimeler
oldu� unu, onun için yazarın aktarmak istedi � i içeri � i olu� turmada
kullanaca� ı kelimelerle, ilgisinin bulunmadı � ını söylemi � tir. Bu
çalı � mada, biz de söz konusu söyleme katılıyor ve tek bir büyük torba
yerine iki ayrı torba oldu� u varsayımını kabulleniyoruz.
� � lev kelimeler, yazım kuralları tarafından yönetilmektedir. Bu
yüzden yazım içerisinde, içerikten ba� ımsız olarak gözlemlenirler. �çerik kelimelerse, bir metin içinde ancak metinin konusu ile alakalı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
278
kelimeler olabilir, dolayısı ile her metinde i � lev kelimeler
gözlemlenebilir, fakat içerik kelimelerin gözlenmesi için metnin
konusunun benzer olması gerekir. Sonuç olarak, bir derlemde i � lev
kelimelerin, içerik kelimelerden daha fazla gözlemlenmesi gerekir. � � te,
i � lev ve içerik kelimeler arasında bu ba� lam üzerinden bir ayrım
yapılabilir. � � lev kelimelerin tespiti için, derlem içinde yüksek frekanslı
birliklerin incelenmesi gerekir. Takip eden bölümde yüksek frekanslı
kelimelerin incelemesi ba� lı � ı altında, Türkçe için, i � lev ile içerik
kelimeler arasında, görülme sıklı � ını esas alan bir sınır belirleme
çalı � ması verilmi � tir.
10.4.3.1 Yüksek frekanslı kelimeler
� statistiksel açıdan bakıldı � ında, bir derlem içindeki metinlerde
birlik olarak nelerin kabul edildi � i, pek o kadar tutarlı bir durum
de� ildir. Örne� in “ ... 1980’ler ...” tek bir birlik midir, yoksa “1980”
rakam, “ ’” noktalama i � areti ve “ ler” ek olmak üzere üç ayrı birlik
midir, veya ikisi birden midir, tamamen derlemin ilk i � leni � sürecine
ba� lıdır, yani simgelemenin (tokenization) nasıl yapıldı � ı ile alakalıdır.
Bir ba� ka örnekte ise “ ... “ hayır” da hayır var. ...” gibi aynı kelime
� eklinin hem içerik, hem de i � lev durumunda oldu� u birlikler de
mevcuttur. Dolayısı ile, gerçekte içerik ile i � lev kelimelerin arasına, en
azından frekans esasında belirgin bir çizgi çekmenin imkanı yoktur.
Her iki torbada da, aynı kelimelerin de� i � ik anlamları için, � ekilleri e� olan temsillerinin bulunması gerekmektedir. Bu mesele, anlamsal
boyutta çözümlenebilecek bir u� ra� tır. Frekanslarla kesin bir sınır
çizilemez. Ancak, bir sınır belirli bir hata oldu� u kabullenmesi ile
konabilir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
279
UG torbasında, yani i � lev kelimelerden k adet oldu� unu var
sayarsak, Zipf birinci kanun tertibindeki sıralamada, birinciden k’ ıncı
sıra numarasına kadar olan kelimeler, k dahil olmak üzere, UG
torbasındadır diyebiliriz. Dolayısı ile r > k sıra numarasına sahip
kelimeler de, UI torbasında olacaktır, yani içerik kelimeleri olacaktır. E� er tüm i � lev kelimelerin toplam olasılık yo � unlu� unun �= =
kr rk pP 1
oldu� unu kabul edersek ve Zipf birinci kanunun da, UG için gerçekten
belirleyici bir ifade oldu� u var sayılırsa, i � lev kelimelerle içerik kelimelerin sınır noktasında, kP olasılı � ının, Zipf birinci kanun
ifadesinin e� im parametresi (B) ile hesaplanacak Bk kP /1≈ de� erine
e� it olması beklenir. Dolayısı ile, Denklem 10.4.3.1.1.’deki ifade,
derlemdeki kelimeler üzerinden yapılacak e� im (B) tahminleri ile i � lev
ve içerik kelimeler arasına bir sınır, k de� eri belirleyebilir.
)log(/)log( kpB k−= (10.4.3.1.1)
Örne� in, birle� ik Türkçe derlem için Zipf birinci kanun ifadesi ile
uyumunun en iyi oldu� u durumda (Mandelbrot, W=1000), elde
etti � imiz e� im, B=1.2786 de� eridir. Bu de� erin üzerinde kalan e� im
tahminlerine ait kelimeleri i � lev kelimeler UG, altında kalan kelimeleri
de içerik kelimeler UI, olarak kabul edebiliriz. Çizelge 10.4.3.1.1.’de
Türkçe birle� ik derlem için Denklem 10.4.3.1.1. ile hesaplanan e� im
tahminleri verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
280
Çizelge 10.4.3.1.1: Kelime esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri (k=1 de� eri, k=1.4 alınmı � tır; log(1)=0).
Kelime k p B Kelime k p Bbir 1 0.024031 11.0809 bizi 343 0.000278 1.4032ve 2 0.018371 5.7664 kendisine 343 0.000278 1.4032bu 3 0.012073 4.0204 mustafa 344 0.000275 1.4036da 4 0.008353 3.4517 henüz 346 0.000275 1.4027de 5 0.008244 2.9814 ahmet 346 0.000275 1.4027için 6 0.005724 2.8816 hangi 347 0.000274 1.4022çok 7 0.003964 2.8421 bilgi 348 0.000273 1.4019o 8 0.003639 2.7007 üstelik 501 0.000205 1.3661
gibi 9 0.003593 2.5618 güçlü 502 0.000204 1.3665ile 10 0.003488 2.4574 sırada 503 0.000203 1.3664
türkiye 38 0.001397 1.8072 � i ir 1,002 0.000115 1.3129istanbul 74 0.000878 1.6353 rahat 1,002 0.000115 1.3129
bunu 100 0.000726 1.5696 etmesi 1,002 0.000115 1.3129beni 101 0.000703 1.5732 alanda 1,002 0.000115 1.3129tüm 102 0.000701 1.5704 alınması 1,005 0.000115 1.3127yani 103 0.000694 1.5692 karısı 1,935 0.000063 1.2784
sadece 104 0.000693 1.5662 tl 1,935 0.000063 1.2784söz 105 0.000659 1.5738 yıldan 1,941 0.000063 1.2787
türkiye'nin 132 0.000594 1.5215 mahmut 1,941 0.000063 1.2787geldi 149 0.000533 1.5063 sanal 1,941 0.000063 1.2787ona 150 0.000530 1.5053 konunun 1,941 0.000063 1.2787veya 151 0.000528 1.5043 alanı 1,941 0.000063 1.2787
olmak 152 0.000524 1.5037 belge 1,941 0.000063 1.2787genç 153 0.000519 1.5034 de� i � ikli � i 1,941 0.000063 1.2787ki � i 154 0.000514 1.5036 bulmak 1,941 0.000063 1.2787gece 156 0.000513 1.5012 aslan 1,951 0.000062 1.2785ali 158 0.000505 1.4995 antalya 1,951 0.000062 1.2785abd 162 0.000494 1.4965 bankalar 1,965 0.000062 1.2781
birkaç 184 0.000449 1.4783 aynen 1,965 0.000062 1.2781açık 185 0.000447 1.4774 cinayet 1,965 0.000062 1.2781
erdo� an 186 0.000433 1.4820 cumhuriyeti 1,980 0.000061 1.2777geri 187 0.000432 1.4812 do� um 1,980 0.000061 1.2777ırak 198 0.000404 1.4774 doları 1,980 0.000061 1.2777
olsun 199 0.000403 1.4767 düzeyinde 2,305 0.000054 1.2701milli 200 0.000401 1.4764 denildi 2,321 0.000053 1.2699
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
281
Çizelge 10.4.3.1.1.’de tahmin edilen e� im, B de� erleri iki sütun
halinde verilmi � tir. Bu listelemede, örnekleri yukarıda bahsetti � imiz
konuları da kapsayacak � ekilde seçmeye dikkat ettik. Öncelikle,
“Türkiye” , “Ali” , “ABD” , “Erdo� an” , “ Irak” v.b. kelimelerin i � levsel
oldukları veya bir metnin içinde içeri � e katkı sa� layacak anlamsal
öneme sahip olmadıkları söylenemez. Dolayısı ile, bu kelimeler içerik
olması gerekirken, derlemlerin özellikle gazete yazılarından seçilmi �
olması sebebiyle, i � lev kadar frekansları olu� mu� tur. Ancak, bu hatalar
dı � ında liste incelendi � inde aslen iddia edildi � i gibi bir sınır için yer
oldu� u da gözükmektedir. Çizelgede dolgulu alanın içinde (“ karısı” ve
“antalya” kelimeleri arasındaki alan) bu geçi � in ba� langıcı ve biti � i gözükmektedir. Geçi � noktası, ba� langıçtan itibaren süre gelen
e� imdeki sistematik dü� ü� ün, B=1.2786 e� im de� erinin de altına ini � i
ve daha sonra yaptı � ı sıçrama ile tekrar B=1.2786 de� erinin üzerine
çıktı � ı aralık içindedir. Daha sonra dü� ü� sistematik olarak B=1.2786
altına do� ru devam eder. Yapılan e� im tahminlerinin söz konusu
seyrinden de çıkan sonuç, kelimelerin gerçekten tek bir büyük torba ile
temsil edilemeyece� i, dolayısı ile i � lev kelimelerin UG, içerik
kelimelerin UI gibi, iki ayrı torba kurgusu ile ele alınması iddiasının
geçerlili � idir. E� er i � lev kelimeler, bu yöntemle tahmin edilecek olursa,
sıra numarası 1941’de dahil olmak üzere 1 ile 1941 arasındaki tüm
kelimeler i � lev kelimeler olarak ele alınacaktır. Dolayısı ile, Türkçe
birle� ik derlem için i � lev olarak i � aretlenen kelimelerin sayısı 1944
olacaktır. Bu 1944 i � lev kelimenin derlem içindeki toplam frekansı
1.349.004’dür. Geriye kalan 232.899 kelime, içerik olarak
i � aretlenecektir. Söz konusu 232.899 içerik kelimenin ise, derlem
içindeki toplam frekansı 1.162.926’dir. Sonuç olarak, Türkçe
derlemdeki i � lev kelimelerin, toplam frekans içindeki oranı yakla� ık
%53 olacaktır (1.349.004 / 2.511.930). Bu oranlar � ngilizce için
yapılmı � çalı � malarla da örtü� mektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
282
�çerik ve i � lev olu� için, Zipf birinci kanununun yardımı ile
kelimeler için yaptı � ımız i � lemleri, gövdeler için de yapmak
mümkündür. Yapılan deneysel çalı � malarda, Zipf birinci kanun
ifadesinin, gövde esasında birle� ik derleme en uygun oldu� u durumdaki
Mandelbrot denkleminin W parametresi yine 1000 idi. Bu parametre
de� eri için e� im B=2,2515 olarak bulunmu� tu. Denklem 10.4.3.1.1. ile,
gövdeler içinde B e� im tahminleri Çizelge 10.4.3.1.2.’de verilmi � tir.
Gövdeler için, i � lev kelimelerin e� imin sıçrama noktası ile tespiti,
kelimelerdeki kadar anlamlı bir sonuç vermemi � tir. Çizelgede
görüldü� ü gibi, B=2,2515 sıçrama noktası çok ba� larda kalmı � tır. Çizelgede ayrıca, Mandelbrot W=1000 parametresinin dı � ında, W=100,
W=10 ve Zipf ifadelerinin de kesme noktaları belirlenmi � tir. Sıra
numarasında devam ettikçe görülmektedir ki, bu noktalardan hiç birisi
anlamlı bir kesim sınırı verememektedirler. Tahminlerin, bir ini � ardından çıkı � yaptı � ı, sıra numarası 1000 etrafındaki de� erler de
çizelgede gösterilmi � tir. Ayrıca, tam bir fikir vermesi açısından, tüm
yapılan tahminler � ekil 10.4.3.1.1.’de yayılım çizgesi olarak da
verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
283
Çizelge 10.4.3.1.2: Gövde esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri.
Kelime k p B Kelime k p Bbir 1 0.020941 11.4900 söz 100 0.001400 1.4269ol 2 0.020421 5.6138 önem 101 0.001383 1.4265ve 3 0.019411 3.5881 özel 102 0.001346 1.4293bu 4 0.016495 2.9609 göster 103 0.001345 1.4265de 5 0.012852 2.7055 hal 104 0.001343 1.4239et 6 0.008959 2.6316 göre 105 0.001335 1.4222
yap 7 0.007948 2.4846 ö� retim 951 0.000193 1.2476da 8 0.007886 2.3288 operasyon 951 0.000193 1.2476
için 9 0.005870 2.3383 nüfus 951 0.000193 1.2476ver 10 0.005586 2.2529 bakım 957 0.000191 1.2474al 11 0.005475 2.1717 ça� ır 957 0.000191 1.2474
türkiye 12 0.005108 2.1236 ça� rı 966 0.000189 1.2477o 13 0.004863 2.0765 acaba 966 0.000189 1.2477
gel 14 0.004334 2.0618 vali 1,004 0.000179 1.2480çık 15 0.004297 2.0124 tanık 1,004 0.000179 1.2480yıl 16 0.004119 1.9808 ço� u 1,004 0.000179 1.2480il 17 0.003966 1.9518 yasadı � ı 2,024 0.000065 1.2655
çok 18 0.003760 1.9317 tekstil 2,024 0.000065 1.2655ara 19 0.003721 1.8998 tofa� 2,024 0.000065 1.2655var 20 0.003477 1.8898 sı � ın 2,024 0.000065 1.2655
kendi 21 0.003307 1.8760 zarf 3,028 0.000034 1.2834daha 22 0.003299 1.8486 Ziya 3,028 0.000034 1.2834gibi 23 0.003213 1.8308 Zülfü 3,028 0.000034 1.2834ne 24 0.003050 1.8226 sevk 3,028 0.000034 1.2834
sonra 25 0.003022 1.8025 yurtsever 5,225 0.000013 1.3133söyle 26 0.003015 1.7814 sperm 5,225 0.000013 1.3133konu 27 0.003010 1.7616 söylemez 5,225 0.000013 1.3133iste 28 0.003006 1.7427 sosyoloji 5,225 0.000013 1.3133ben 29 0.002967 1.7285 sosyolojik 5,225 0.000013 1.3133
gerek 38 0.002510 1.6461 stohos 5,225 0.000013 1.3133son 39 0.002508 1.6345 bediüzzaman 7,547 0.000007 1.3368
kadar 40 0.002506 1.6236 bedensel 7,547 0.000007 1.3368i � 41 0.002432 1.6208 benston 7,547 0.000007 1.3368
devlet 42 0.002390 1.6150 zoralım 11,923 0.000003 1.3693ülke 43 0.002380 1.6061 Mondros 17,249 0.000001 1.3885
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
284
�ekil 10.4.3.1.1: Gövde esasında Türkçe birle� ik derlem için, Zipf birinci kanun e� im
tahminlerinin yayılım çizgesi.
Gövdeler için yapılan incelemelerde, Zipf kanunları da dahil
olmak üzere, kuramlara uyum açısından bir düzensizlik söz konusudur.
Ancak, bilinen ve deneysel olarak gösterilmi � olan gerçek, Türkçe için
gövdelerle çalı � mak, BGG geri-getirim ba� arımını arttırıcı bir unsurdur
(Solak, 1994; Ekmekçio � lu, 1996; Sever, 2003). Ayrıca, OSTAD
derlemi incelememizde, gövdelerin ana kitlenin benzer karakteristi � ini,
kelimelerden daha çabuk gösterdi � ini belirtmi � tik. Yapılan
incelemelerin ı � ı � ı altında sonuç olarak � unu söyleyebiliriz: Gövdeler
esasında kurgulanacak bir BGG sisteminde, frekansların ifade edece� i
karakteristik, kelime esasındaki e� lenik bir BGG sisteminden
istatistiksel açıdan anlamlı düzeylerde farklı olacaktır. Bu farklılı � ın
pozitif yönde oldu� una da � imdiye kadar yapılmı � çalı � malar delil
olacaktır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
285
11. � NDEKS TER � M SEÇ � M �
Bu tezin amacı, genel anlamı ile dilbilimsel özelliklerin kullanımı
ile BGG sistemlerinde ba� arımın artırılmasıdır. Bu amaç çok çe� itli yollardan gerçeklenebilir. Biz özel olarak BGG sistemlerinde yazılı
belgelerin sayısal temsilinde, yani indeks terimlerin seçiminde
dilbilimsel özellikleri kullanarak temsili güçlendirmeyi, dolayısı ile
BGG ba� arımını arttırma yolunu seçiyoruz. Amaca uygun alt yapının
hazırlı � ını da, Türkçe’nin belirli dilbilimsel özelliklerinin mevcut
da� ılım ve istatistiksel özelliklerini belirleyerek yapaca� ız. Bu
bölümde, sözcük türü (isim, fiil, sıfat v.s.) , kelime gurubu (“ kur � un
kalem” v.s.) ve cümle unsuru (fii l, fail, zarf, yer tamlayıcısı) olmak
üzere Türkçe’nin üç dilbilimsel özelli � ini sırasıyla inceleyece� iz.
Deneysel çalı � malarda, BilTD ve OSTAD derlemleri kullanılmı � tır. ODTÜ derlemi, dilbilimsel özellikler i � aretli olmadı � ı için
incelemelerimizin dı � ında kalmaktadır. Genel istatistikler ba� lı � ı
altında yapılan çalı � malarda kullanıldı � ı � ekline ek olarak, OSTAD
derleminde belge türü “ haber” olan metinlere ait indeks terimler de elle
i � aretlenmi � tir. OSTAD derleminde elle indeks terimleri i � aretlenmi � olan belgelerin istatistikleri Çizelge 11.1.’de verilmi � tir.
Çizelge 11.1: OSTAD derleminde elle i � aretlenmi � belge istatistikleri.
Belge No Parag Say Cümle Say Bir lik Say1 39 86 1,1822 47 110 1,5123 27 78 1,0754 49 114 1,5285 40 114 1,6136 46 104 1,6147 37 86 1,2478 61 94 1,4879 48 97 1,684
Toplam 394 883 12,942
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
286
Çizelgede de görüldü� ü gibi, elle i � aretlenen belge sayısı, BGG
sistemlerinin ba� arım ölçümlerinde genelde kullanılan boyutların
altında kalmaktadır. Mümkün olan en büyük boyutu yakalamak için
incelemelerde 394 paragraf, belge olarak kabul edilecektir. Derlemi
olu� turan 12,942 birlik, 104 ile 105 arasında kalmaktadır. Dolayısı ile,
hesaplamalı dilbilim çalı � malarında kullanılan genel derlem boyutlarına
uygun oldu� u söylenebilir. Fakat, BGG sistem sınamaları için, çok
uygun oldu� unu söyleyemiyoruz. Aslen, OSTAD derleminin tümü
de� erlendirmeye alınsa dahi, BGG sistem sınamaları için çok uygun
oldu� u söylenemez. Ancak, Türkçe için dilbilgisi özellikleri
i � aretlenmi � tek derlem budur. Toplam 12,942 birlikten sözcük türü
açısından de� erlendirmeye alınan toplam 10 temel sözcük türüne ait
harf birlikleri sayısı 9,575’dir. Söz konusu derlem büyüklü� ünü, 4,955
farklı kelime biçimi olu� turmaktadır, yani kelime esasında kelime
da� arcı � ı boyutu 4,955’dir. Bu 4,955 kelime biçiminden 2,525 tanesi
indeks terim olarak belirlenmi � tir. � ndeks terim olarak i � aretlenenler,
toplam 9,575 olan derlem boyutunun, 3,953 birli � ini olu� turmu � tur.
Gövde esasında kelime da� arcı � ı, 2,165’dir. Bu gövdelerden 1,393
tanesi indeks terim olan birli � in gövdesini te� kil etmektedir.
Gövdeleme ile BGG ba� arımının de� i � imi ara� tırması, tez
kapsamımızın dı � ındadır. Dolayısı ile, elde edilebilen yerlerde istatistik
olarak verilecek, ancak BGG ba� arımı esasında incelemeyecektir.
Türkçe yazılı metinlere ait indeks terimlerin, metnin içeri � ini
temsildeki önemini nicel olarak belirlemede, birliklerin (kelimeler,
sayılar v.b.) gözlenme sıklıkları, temel de� i � im ölçütü olarak
kullanılacaktır. Çalı � ma ile amaçlanan, elle i � aretlenmi � olan indeks
terimlerin, derlem içinde birliklerin gözlenme frekansları ile ne kadar
belirlenebildi � inin tespit edilmesidir, yani indeks terim olan birliklerin
de� i � iminin (veya ta� ınan enformasyonun), birliklerin frekanslarının
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
287
de� i � imi ile ne kadar izah edilebildi � idir. Bu ba� lamdaki beklenti,
dilbilimsel özelliklerin, frekanslarla ta� ınan enformasyon dı � ında da bir
miktar, daha do� rusu anlamlı düzeylerde enformasyon ta� ıdı � ıdır. E� er
frekanslarla ta� ınan enformasyon, zaten dilbilimsel özelliklerle ortaya
çıkarılacak enformasyonsa, dilbilimsel özelliklerin kullanılmasının bir
anlamı olmayacaktır (BGG sahasında, � u an yaygın olan kanı budur). �statistiksel olarak bu durum, frekanslarla dilbilimsel özelliklerin
ba� ımlı olması veya aralarında bir kar � ılıklı il i � ki (co-variance) olması
ile tanımlanabilir. Ancak bizim beklentimiz, ba� ımsız olmaları veya
kar � ılıklı i li � kilerinin olmamasıdır. Ba� ka bir söyleyi � le, birinin
de� i � iminin di � eri ile açıklanamaması, birinden di � erinin de� i � iminin
tahmin edilememesi gerekir. E� er frekansla dilbilimsel özellikler
ba� ımsızsa, dilbilimsel özelliklerin devreye alınması, metin içindeki
toplam de� i � imin frekans ile temsil edilen kısmı dı � ında kalan
kısımların da de� erlendirme içine katılabilmesine imkan tanıyacaktır.
Fakat, dilbilimsel özellikler ile izah edilen de� i � imin BGG ba� arımı
açısından anlamlı olup olmadı � ı, kullanılıp kullanılmaması gereklili � i
ise bir ba� ka meseledir. Örne� in bir geri-getirim yöntemi içerisinde,
frekans ile dilbilimsel özellikler tamamen di � eri ile simetrik, ters yönde
ve aynı miktarda enformasyonu temsil eder duruma getirilebilirler, e� er
bu yöntem de örne� in vektör uzayı modelini esas alıyorsa, bir vektör
di � er vektörün yarattı � ı tüm de� i � imi dengeleyece� i için, sonuç olarak
çok büyük bir ba� arım dü� ü� üne de sebep olabilir. Dolayısı ile,
ba� ımsız bir enformasyon varlı � ının tespitinin sonrasında, bu
enformasyonun, kullanılan yöntem veya yöntemler açısından da
incelenmesi gerekmektedir. Ancak, bir yöntemin, hatta bilinen tüm
yöntemlerin ba� arımlarında anlamlı bir artı � olmaması, tanımladı � ımız
özelliklere sahip herhangi bir ek de� i � im temsilinin, kökten faydasız
oldu� una delil olarak kabul edilemez. E� er varsa, bu ek de� i � imin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
288
faydasını ortaya koyacak bir yöntem bulunması çalı � malarını ba� latmak
için, delil olarak kabul edilebilir.
Çizelge 11.2: BilTD ve OSTAD derlemlerinde yapılmı � olan biçimbirimsel i � aretlemede temel sözcük türü kodları.
Sıra Kod Açıklama1 Noun � simler2 Adj Sıfatlar3 Adv Zarflar/Belirteçler4 Verb Fiil5 Pron Zamirler (ben, sen, o, nereye, hepimiz, kim, v.b.)6 Conj Ba� laçlar (ve, ama, ki, ile, v.b.)7 Det Belirleyenler (bir, her, bu, � u, her, hiçbiri, v.b.)8 Post � lgeçler (diye, gibi, için, do� ru, v.b.)9 Quest Soru eki ile ba� layıp ayrı yazılan sözcükler (mi, mı, mısınız v.b.)10 Interj Ünlemler (oh, off, nah, hadi, aaa, tabi, aferin, haydi, v.b.)11 Num Sayılar12 Dup Tekrar edilerek olu� turulmu� , yansımalı kelimeler.13 Punc Noktalama i � aretleri
1+1 Prop Özel � sim
Çizelge 11.2.’de, deneysel çalı � malarda kullanılacak BilTD ve
OSTAD derlemlerinin biçimbirimsel i � aretlemesinde, temel sözcük
türleri için tanımlanmı � kodlar listelenmi � tir. Bu bölümde yapılan
çalı � maların istatistikleri verilirken de söz konusu kodlar korunmu � tur.
Son satırda verilen “Prop” yani özel isim, aslen bir ana tür olarak
i � aretlenmemi � ancak, de� erlendirme içine alındı � ı için listeye dahil
edilmi � bir yan sözcük türü’dür. � � aretleme esnasında, Noun kodundan,
yani isimden sonra getirilerek ismin bir özel isim oldu� u
belirlenmektedir. Bu i � aretleme kodları Oflazer’ in (1993) Türkçe için
iki seviyeli dilbilimsel tanımlamasında kullandı � ı biçimbirim
i � aretlemesinden alınan kodlardır. Çizelgede 12. sırada verilen Dup
kodu (tekrar), aslen Bölüm 2.’de kelime gurubu kapsamına aldı � ımız
bir dilbilgisi özelli � idir. Tekrarları, kelime guruplarından ayrı tutmak,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
289
onları bir bütün olarak, ayrılmaz birlik � eklinde kabul edip (yani tek bir
nevi kelime), kelime türü � eklinde de� erlendirmek de makul bir
yakla� ım olabilir. Ancak, biz sözcük türü de� erlendirmemizde bu kodu
kullanmıyoruz ve çıkartıyoruz. Sıra numarası 11 ve 13 olan, Num ve
Punc, yani sayılar ve noktalama i � aretleri de tabii, de� erlendirmemiz
dı � ındadır. Dolayısı ile bu bölümdeki çalı � malarda, 10 temel kod ve bir
de özel isimleri belirleyebilmek için Prop yan kodu olmak üzere
toplam 11 kod kullanaca� ız. Özel isim de� erlendirmemiz de, ana
sözcük türleri de� erlendirmelerine ek olarak verilecektir.
Bölüm 10.’da Zipf güç kanunları incelenirken, içerik ve i � lev
kelime ayrı � tırması meselesi içerisinde, derlem içinde gözlenme sıklı � ı
yüksek olan birliklere odaklanmı � bir yöntem ile i � lev kelimelerle,
içerik kelimeler arasında bir sınır noktası da belirlemeye çalı � mı � tık.
Bu sınır noktasından yukarıda kalan birlikler i � lev kelimeler, sınırın
altında kalan kelimeler de içerik kelimeler olarak kuram gere� i kabul
edilmi � ti. Ancak, i � lev kelimeler olarak belirlediklerimizin arasında
içerik kelimeler; içerik kelimeler olarak belirlediklerimizin arasında da
i � lev kelimeler oldu� u da belirtilmi � ti. � � te bu durum, derlem üzerinde
görülme sıklı � ına dayalı olan tüm geri-getirim yöntemlerinin
ba� arımlarını etkileyen, daha do� rusu ba� arımlarını dü� üren durumdur.
Geleneksel geri-getirim yöntemlerinin hemen hepsi, görülme sıklı � ına
dayalı kurgulara sahiptir. Dolayısı ile mesele de geneldir. Derlemde
görülme sıklıklarını esas alan bir yöntemin kör noktası diyebilece� imiz
yer ise, dü� ük frekanslı kelimelerdir. Dü� ük frekanslı kelimelerin
kelime da� arcı � ının boyutları açısından önemi, yine Zipf güç kanunları
incelemesinde de� erlendirilmi � ti. Zipf kanunları incelenirken, kelime
da� arcı � ının derlem boyutu ile birlikte üstel ve do � ru orantıyla
büyüyece� i iddiasına, dü� ük frekanslı kelimeleri esas alan bir bakı � açısından Türkçe için deneysel olarak deliller göstermi � tik. Aslen,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
290
dü� ük frekanslı kelimelerin kelime da� arcı � ı boyutları açısından önemli
bir etmen olmasının yanında, indeks terim seçiminde de önemi
büyüktür. Çünkü, dü� ük frekans içersinde bir de� i � imden söz edilemez.
Bir kere gözlenen bir kelime, bir belgede tek bir yerde gözlenmi � tir. Oysa, geri-getirim yöntemleri frekans içindeki de� i � imleri
belirleyebildi � i ölçüde ba� arıma sahip olmaktadır. Dü� ük frekanslı
kelimelerin i � lev veya içerik olduklarının belirlenebilmesi için
gözlenme sıklı � ı dı � ında bir etmenden faydalanması gerekmektedir.
Söz konusu bu etmenle ek bir belirleyicilik kazanmalıdır. Aynı durum
aslında yüksek frekanslı birlikler ve orta frekanslı birlikler için de
geçerlidir. Dilbilgisi özellikleri bu yönde ba� vurulabilecek araçlardan
bir tanesidir. Geleneksel geri-getirim yöntemlerinde örne� in, özel isim
olan birlikler ister dü� ük frekanslı olsun, ister yüksek frekanslı olsun
içerik kelime olarak ele alınmaktadır.
Bu tez kapsamında, dilbilgisi özellikleri aynı bakı � açısından ele
alınıp, indeks terim (içerik kelime) olu� u belirleyicilik açısından
incelenmi � tir. � ndeks terimlerle ilgili çalı � ma iki a� amaya ayrılmı � tır. Birinci a� amada, derlemi olu� turan birlikler içerisinden indeks
terimlerin belirlenmesi üzerinde durulmu � . � kinci kısımda, seçilen
indeks terimlerin bulundukları metnin içeri � ini temsilde önemi
belirlemeye yönelik çalı � malar yapılmı � tır. � lerleyen kısımlarda
öncelikle “Genel Da� ılımlar” ba� lı � ı altında, dilbilgisi özelliklerinin
frekans esasında yalın da� ılımları tanımlanmı � ve ardından elle
i � aretlenmi � indeks terimler üzerinden da� ılımları verilmi � tir. � ndeks
terimlerin belirlenmesinde dilbilgisi özelliklerinin kullanımı bu � ekilde
ara� tırıldıktan sonra, seçilmi � indeks terimlerin bulundukları metnin
içeri � ini temsilde önemini ölçeklendirmek için geleneksel geri-getirim
yöntemlerinin � ngilizce derlemlerde ba� arım olarak en iyi olanlarının
a� ırlıklandırma yordamları frekans esasında Türkçe için sınanmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
291
Türkçe için de� erlendirme sonucunda en iyi olarak belirlenen geri-
getirim yönteminin ba� arım de� erleri, e� ik olarak kabul edilmi � ve son
olarak dilbilgisi özelliklerinin BGG sistemlerinin ba� arımına katkısı
istatistiksel olarak ara� tırılmı � tır.
11.1. Genel Da� ılımlar
11.1.1. Sözcük Tür ler i
Türkçe’de i � levsel açıdan kelimeler/sözcükler ele alındı � ında, üç
tür kelime vardır: isimler, fi iller ve edatlar. Yazılı dilin temel unsurları,
yani yazıda anlamı kar � ılayan unsurlar, isimler ve fiillerdir. Edatlar ise
yazılı anlatımın kuralları içinde, i � levsel olarak görevli, tek ba� larına
anlamları soyut ve havada kalan, ancak isimlerle ve fiillerle
kullanıldıklarında anlam kazanan yardımcı unsurlardır.
�� levsel olarak aslen isim soyundan gelen, yani isim ba� lı � ı
altında genel olarak toplanan, ancak görev olarak birbirlerinden farklı
alt guruplar da vardır: özel/cins isimler, sıfatlar, zamirler ve zarflar.
Özel isimler tek bir nesnenin, cins isimler ise bir gurup nesnelerin ve
kavramların adlarıdır. Sıfatlar nesnelerin vasıf isimleridir. Zamirler
nesneleri geçici olarak kar � ılamak için, dilde kullanılan ve sayıca kısıtlı
isimlerdir (bu, � u, o v.b.). Zarflarsa fiillerin zamanını, olu� � eklini,
yerini, v.b. tanımlayan isim soylu kelimelerdir. Edatlar da kullanı �
� ekline göre kendi içinde çe� itli guruplar altında toplanırlar: Ünlem
edatları, ba� lama edatları ve son çekim edatları. Fiiller de kendi
içlerinde yapılarına ve kullanılı � larına göre çe� itlere ayrılır: fiil ler, sıfat-
fii ller (partisipler-ortaç) ve isim-fiil ler (gerundiumlar).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
292
Türkçe’deki sözcük türlerinin dilbilimsel detayları Bölüm 2.’de
Türkçe ba� lı � ı altında detaylı � ekilde ele alınmı � tı. Burada bu sözcük
türlerinin yazılı metinler içindeki sayısal da� ılımları açısından
incelemesini yapaca� ız. Zipf kanunları ile tür ayrımına gitmeden
yaptı � ımız çalı � malara ek bir enformasyon olup olmadı � ını, daha
do� rusu kelimelerin frekansları ile türleri arasında kar � ılıklı il i � ki olup
olmadı � ını inceleyece� iz. Böyle bir ba� lantı ile, i � lev ve içerik
kelimelerin ayrımlarının yapılıp yapılamayaca� ı ikinci tartı � ma konusu
olacak. Dolayısı ile yazılı belgelerin sayısal temsillerine katkının olup
olmayaca� ının tartı � ması bu ba� lamdan verilecektir.
BilTD ve OSTAD derlemleri, ayrıca ikisinin harmanı ile
olu� turulan birle� ik derlem için, ana sözcük türlerinin kelime da� arcı � ı
içindeki oransal da� ılımları, kelime esasında Çizelge 11.1.1.1.’de,
gövde esasında Çizelge 11.1.1.2.’de verilmi � tir. Sözcük türü oransal
da� ılımı OSTAD derlemi için, hem kelime hem de gövde esasında �ekil 11.1.1.1.’de, çizge olarak da verilmi � tir.
Çizelgelerde de görüldü� ü gibi, her iki derlem ve dolayısı ile
birle� ik derlem için, isim türünde kelimeler (noun) kelime da� arcı � ı
içinde %50’ inin üzerinde bir orana sahiptir. � sim türünü, kelime
esasında fiil (verb) ve gövde esasında sıfat (adj) türü takip etmektedir.
OSTAD derleminde, di � er iki derlemden farklı olarak, isim türü oranı
gövde esasında %70’ in altında kalmı � tır (%58,4). Harman ile
olu� turulan BirTD derlemi a� ırlıklı olarak (yakla� ık 3/4), BilTD
derleminin etkisinde oldu� u için, tabii olarak yakın sonuçlar vermi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
293
Çizelge 11.1.1.1: Kelime esasında sözcük türlerinin kelime da� arcı � ı içindeki oransal da� ılımları.
Tür Frekans % Yı � . (%) Frekans % Yı � . (%) Frekans % Yı � . (%)Adj 7,063 7.2 7.2 2,054 11.4 11.4 7,786 7.4 7.4Adv 2,427 2.5 9.6 716 4.0 15.3 2,663 2.5 10.0Conj 32 0.0 9.7 27 0.1 15.5 35 0.0 10.0Det 1,388 1.4 11.1 14 0.1 15.5 1,393 1.3 11.3Interj 35 0.0 11.1 31 0.2 15.7 48 0.0 11.4Noun 69,160 70.3 81.5 11,014 60.9 76.6 72,743 69.4 80.8Postp 47 0.0 81.5 38 0.2 76.9 52 0.0 80.9Pron 313 0.3 81.8 180 1.0 77.9 335 0.3 81.2Ques 34 0.0 81.9 23 0.1 78.0 37 0.0 81.2Verb 17,849 18.1 100.0 3,981 22.0 100.0 19,688 18.8 100.0Toplam 98,348 100.0 18,078 100.0 104,780 100.0
BilTD OSTAD BirTD
Çizelge 11.1.1.2: Gövde esasında sözcük türlerinin kelime da� arcı� ı içindeki oransal da� ılımları.
Tür Frekans % Yı � . (%) Frekans % Yı � . (%) Frekans % Yı � . (%)Adj 3,536 12.4 12.4 1,358 19.0 19.0 3,797 12.8 12.8Adv 1,042 3.7 16.1 486 6.8 25.9 1,127 3.8 16.6Conj 32 0.1 16.2 27 0.4 26.2 35 0.1 16.7Det 988 3.5 19.7 13 0.2 26.4 992 3.3 20.0Interj 35 0.1 19.8 31 0.4 26.9 48 0.2 20.2Noun 20,192 71.0 90.9 4,165 58.4 85.3 20,941 70.4 90.6Postp 47 0.2 91.0 38 0.5 85.8 52 0.2 90.7Pron 46 0.2 91.2 29 0.4 86.2 52 0.2 90.9Ques 4 0.0 91.2 4 0.1 86.3 4 0.0 90.9Verb 2,502 8.8 100.0 978 13.7 100.0 2,699 9.1 100.0Toplam 28,424 100.0 7,129 100.0 29,747 100.0
BilTD OSTAD BirTD
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
294
Noun 60.92%
Postp 0.21%
Pron 1.00%
Ques 0.13%
Verb 22.02%
Adj 11.36%
Conj 0.15%
Adv4%
Det 0.08%
Interj 0.17%
(a)
Noun 58.42%
Postp 0.53%Pron
0.41%
Ques 0.06%
Verb 13.72%
Adj 19.05%
Conj 0.38%
Adv7%
Det 0.18%
Interj 0.43%
(b)
�ekil 11.1.1.1: OSTAD derlemi, kelime (a) ve gövde (b) esasında kelime da� arcı� ı
içinde sözcük türü oranları.
Sözcük türlerinin, “derlem içinde görülme sıklı � ı” açısından
oranları da, genel de� erlendirme içinde ele alaca� ımız ikinci unsurdur.
Tabi, görülme sıklı � ı açısından oranlardan bahsetti � imiz için kelime
esası veya gövde esası diye bir ayrıma gidilememektedir. Çünkü,
görülme sıklı � ı açısından kelimelerle gövdeleri arasında sözcük türü
ba� lamında bir fark yoktur. Dolayısı ile, kelime türlerinin derlem içinde
görülme sıklı � ı oranları topluca (kelime yada gövde esasında
yorumlanabilir), Çizelge 11.1.1.3.’de verilmi � tir. OSTAD derlemi için
sözcük türlerinin görülme sıklıklarına göre oranları ayrıca � ekil
11.1.1.2.’de çizge olarak da verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
295
Çizelge 11.1.1.3: Sözcük türlerinin derlem içinde görülme sıklıklarının oransal da� ılımları.
Tür Frekans % Yı � . (%) Frekans % Yı � . (%) Frekans % Yı � . (%)Adj 85,650 12.2 12.2 6,087 11.8 11.8 91,737 12.2 12.2Adv 31,124 4.4 16.6 3,510 6.8 18.7 34,634 4.6 16.8Conj 34,678 4.9 21.6 2,503 4.9 23.6 37,181 4.9 21.7Det 29,435 4.2 25.8 2,217 4.3 27.9 31,652 4.2 25.9Interj 430 0.1 25.8 132 0.3 28.1 562 0.1 26.0Noun 418,726 59.6 85.5 24,351 47.4 75.5 443,077 58.8 84.8Postp 15,730 2.2 87.7 1,298 2.5 78.0 17,028 2.3 87.0Pron 14,568 2.1 89.8 2,476 4.8 82.9 17,044 2.3 89.3Ques 1,898 0.3 90.0 296 0.6 83.4 2,194 0.3 89.6Verb 69,938 10.0 100.0 8,508 16.6 100.0 78,446 10.4 100.0Toplam 702,177 100.0 51,378 100.0 753,555 100.0
BilTD OSTAD BirTD
Derlem içinde gözlenme sıklı � ı açısından, kelime türleri bu sefer
üç derlemde de paralel oranlar sergilemi � tir. � sim türü birinci, sıfat türü
ikinci ve fiil üçüncü en büyük orana sahiptir.
Postp 2.53%
Pron 4.82%
Ques 0.58%
Verb 16.56%
Adj 11.85%
Conj 4.87%
Adv 7%
Det 4.32%
Interj 0.26%
Noun 47.40%
�ekil 11.1.1.2: OSTAD derlemi, derlem içinde gözlenme sıklı� ına göre sözcük türü
oranları.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
296
11.1.1.1 � ndeks terim da� ılımları
OSTAD derleminde, sözcük türlerinin indeks terim da� ılımları
Çizelge 11.1.1.1.1’de tablo halinde, � ekil 11.1.1.1.1.’de çizge olarak
verilmi � tir. “Ques” , yani soru sözcük türü de� erlendirmede yoktur.
Çizelge 11.1.1.1.1: OSTAD derleminde sözcük türlerinin indeks terim da� ılımları.
Söz.Türü indT f Söz.Türü indT fAdj 1 207 Noun 0 2,099Adj 0 1,019 Noun 1 3,690Adv 1 7 Postp 0 290Adv 0 375 Pron 1 0Conj 0 515 Pron 0 170Det 0 280 Verb 1 48
Interj 0 8 Verb 0 867Interj 1 0
Çizelgede, her sözcük türünün indeks terim (içerik) olarak
gözlenme sıklı � ı (indT=1) ve indeks terim olmadı � ı (i � lev) gözlemler
(indT=0) tablo halinde listelenmi � tir.
0.170.02 0.00 0.00 0.00
0.64
0.00 0.00 0.05
0.830.98 1.00 1.00 1.00
0.36
1.00 1.00 0.95
0%
20%
40%
60%
80%
100%
AdjAdv Con
jDet
Inte
rj
Noun
Postp
Pron
Verb
0
1
�ekil 11.1.1.1.1: OSTAD derleminde sözcük türlerinin indeks terim da� ılımları.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
297
Yukarıda verilen sözcük türlerinin kendi içinde oransal
de� erlendirmesinde, en yüksek oran (%64) ile isim sözcük türünde
çıkmı � tır. � sim sözcük türünü, %17 ile sıfatlar (Adj), %5 ile fii ller
(Verb) ve %2 ile zarflar (Adv) takip etmektedir. Genel toplam
üzerinden, indeks terimlerin sözcük türü da� ılımları da � ekil
11.1.1.1.2.’de verilmi � tir.
Noun93.4%
Adj5.2%Verb
1.2%
�ekil 11.1.1.1.2: � ndeks terimlerin sözcük türü da� ılımları.
Genel da� ılım göz önüne alındı � ında, indeks terimlerin %93’ ü
isim sözcük türünde gözlenmi � tir. Bu sonuç, genel kabul ile paraleldir.
Genel kabulde, metin içindeki harf birliklerinin, metin içeri � ine
anlamca katkıda bulunanlarının isim sözcük türünde oldu� u belirtilir.
Ancak, sözcük türlerinin kendi içinde indeks terim olu� da� ılımı göz
önüne alındı � ında, aslen “ isim sözcük türündeki kelimeler indeks
terimdir.” � eklinde bir önermenin yapılamayaca� ı da açıktır. Çünkü,
isim sözcük türü içinde indeks terim olu� un belirsizli � i %36 gibi
yüksek bir de� erdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
298
Lahtinen (2000), sözcük türlerinde aynı yakla� ımı � ngilizce için
kullanmı � tır. Oransal da� ılımları indeks terimlerin seçiminde ve metin
içinde önemini tespitte de kullanmı � tır. Yani sözcük türlerinin indeks
terim da� ılımlarını sadece indeks terim seçimi için de� il, ayrıca terimin
bulundu� u metnin içeri � ine anlamsal katkısı ile de ili � kilendirmi � tir. Lahtinen deneysel ara� tırmasının sonunda, dilbilimsel özelliklerin
indeks terimleri seçebildi � ini, metin içinde önemini tespitte de yardım
edebildi � ini bildirmi � tir.
Sözcük türü ve indeks terimlerin topluca da� ılımsal
de� erlendirmesi, Çizelge 11.1.1.1.2.’de tablo halinde verilmi � tir.
Çizelge 11.1.1.1.2: OSTAD derleminde, sözcük türü ve indeks terimlerin toplu de� erlendirmesi.
Söz.Türü 0 1 Toplam P(ind=0|.) P(ind=1|.)
frek 1,019 207 1,226P(SözT|.) 0.18 0.05 0.13
frek 375 7 382P(SözT|.) 0.07 0.00 0.04
frek 515 0 515P(SözT|.) 0.09 0.00 0.05
frek 280 0 280P(SözT|.) 0.05 0.00 0.03
frek 8 0 8P(SözT|.) 0.00 0.00 0.00
frek 2,099 3,690 5,789P(SözT|.) 0.37 0.93 0.60
frek 290 0 290P(SözT|.) 0.05 0.00 0.03
frek 170 0 170P(SözT|.) 0.03 0.00 0.02
frek 867 48 915P(SözT|.) 0.15 0.01 0.10
5,623 3,952 9,5760.59 0.41
0.95 0.05
ToplamP(ind)
1.00 0.00
1.00 0.00
0.83 0.17
0.98 0.02
�ndeks Ter im
Adj
Adv
Conj
Det
Interj
Noun
Postp
Pron
Verb
1.00 0.00
1.00 0.00
1.00 0.00
0.36 0.64
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
299
11.1.1.2 Özel isimlerin indeks terim da� ılımı
Özel isimler, isim sözcük türünün bir alt parçasıdır. Dolayısı ile,
katkısı tamamen isim sözcük türü tarafında kapsanır. Ancak, katkı isim
sözcük türü içerisinde kalmasına ra� men, indeks terim belirleyicili � i
açısından çok güçlüdür. Lahtinen (2000) tarafından da � ngilizce için
belirtildi � i gibi, özel isimler daima indeks terim olurlar. Bir özel isim,
bir ki � i ismi iken, ön ad ve soyadı birlikteli � inde sadece soyadının
indeks terim olarak alınması da rastlanan bir durumdur. OSTAD
derleminde yapılan elle i � aretlemelerde, toplam 495 farklı özel isme
rastlanmı � tır. Bu özel isimler derlemde, 883 kez gözlenmi � tir. Tüm
gözlemler indeks terimdir. Bir ba� ka söyleyi � le, özel isim olan her isim
sözcük türü, indeks terim olarak alınmı � tır.
11.1.2. Cümle Unsur lar ı
Türkçe bir cümlede temel unsurlar, fiil, fail, nesne, yer
tamlayıcısı ve zarf’ tır. Yani cümlede fii l ile onun gerektirdi � i unsurlar
bulunur. Hükmün geni � li � ine göre cümlede, cümle unsurlarından biri,
bir kaçı veya hepsi bulunur. Fiil ve fail cümlenin esas unsurları, nesne,
zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede
ancak bir fiil unsuru bulunur. Di � er unsurların ise cümlede aynı cinsten
bir veya birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç
nesne, birkaç yer tamlayıcısı ve birkaç zarf bulunabilir. Cümlede bu
unsurlardan ba� ka bir de ba� lama ve ünlem edatları veya ünlem
gurupları bulunabilir. Fakat bunlar esas hareketle, fii lle ilgili olmayan
ve cümleye sadece ilave edilmi � durumda bulunan unsurlardır.
Genellikle cümlelerin ba� larında, sonlarında ve cümleler arasında
bulunurlar. Parantez � eklinde cümle içine girdikleri de görülür. Bunlara
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
300
cümle dı � ı unsurlar denir. Cümle unsurlarının daha geni � açıklamaları
Bölüm 2.’de Türkçe ba� lı � ı atında ilgili bir kısım olarak verilmi � tir.
OSTAD derlemi cümle unsurlarının da� ılımını
inceleyebilece� imiz tek derlemdir. Bilgimiz dahilinde, cümle unsurları
i � aretli olan ba� ka bir Türkçe derlem yoktur. OSTAD derleminde
cümle unsurlarının i � aretlenmesi için kullanılan kodlar Çizelge
11.1.2.1.’de tablo halinde verilmi � tir.
Çizelge 11.1.2.1: OSTAD derleminde cümle unsuru i � aretlemesinde kullanılan kodlar.
Kod Açıklama* Cümle unsuru olarak belirlenemeyen yabancı kelimelerABLATIVE.ADJUNCT Yer isteyen soru kelimelesi (-den hali)APPOSITION � ki nokta ile açıklanan kelimeler v.b.CLASSIFIER isim-isim � eklinde tamlamalarda, birinci kelimeye verilen kodCOLLOCATION Kelime gurubuCOORDINATION Ba � laç koduDATIVE.ADJUNCT Yer isteyen soru kelimelesi (-e hali)DETERMINER Belirleyiciler (Bu, � u v.b.)ETOL Birle � ik fiilINSTRUMENTAL.ADJUNCT Araç isteyen soru kelimesi (Neyle, nasıl gibi)INTENSIFIER VurgulayıcılarLOCATIVE.ADJUNCT Yer isteyen soru kelimelesi (-de hali)MODIFIER Sıfatları adlara, zarfları sıfatlara veya fiillere, ilgi tümcelerini
fiillere ve zaman bildiren isimleri fiillere ba � layan kodNEGATIVE.PARTICLE De � il kelimesinin koduOBJECT Cümlenin nesnesiPOSSESSOR Belirtili isim tamlamasında tamlayana verilen kodQUESTION.PARTICLE Soru parçacı � ı (mı, mi gibi)RELATIVIZER � li � kilendiricilerS.MODIFIER Söylen ba � laçları (çünkü, fakat v.b.)SENTENCE Her tümceyi, tümce sonundaki noktalama i � aretine ba � larSUBJECT Cümlenin faili/öznesiVOCATIVE Seslenme
�ndeks terimlerin cümle unsurları üzerine da� ılımları, Çizelge
11.1.2.2.’de tablo olarak verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
301
Çizelge 11.1.2.2: � ndeks terimlerin cümle üzerindeki da� ılımı.
Cümle Unsuru Kod indT f Unsur Kod indT f* * 0 5 LOCATIVE.ADJUNCT Loc 0 169* * 1 0 LOCATIVE.ADJUNCT 1 235ABLATIVE.ADJUNCT Abl 0 54 MODIFIER Mod 0 2,171ABLATIVE.ADJUNCT 1 67 MODIFIER 1 387APPOSITION App 0 24 NEGATIVE.PARTICLE Neg 0 16APPOSITION 1 56 NEGATIVE.PARTICLE 1 0CLASSIFIER Clas 0 173 OBJECT Obj 0 940CLASSIFIER 1 598 OBJECT 1 1,198COLLOCATION Coll 0 0 POSSESSOR Poss 0 62COLLOCATION 1 6 POSSESSOR 1 288COORDINATION Coo 0 270 QUESTION.PARTICLE Que 0 2COORDINATION 1 11 RELATIVIZER Rel 0 2DATIVE.ADJUNCT Dat 0 133 S.MODIFIER S.M 0 73DATIVE.ADJUNCT 1 212 SENTENCE Sen 0 895DETERMINER Det 0 217 SENTENCE 1 96ETOL Etol 0 1 SUBJECT Sub 0 233INSTRUMENTAL.ADJUNCT Inst 0 18 SUBJECT 1 763INSTRUMENTAL.ADJUNCT 1 32 VOCATIVE Voc 0 4INTENSIFIER Ints 0 162 VOCATIVE 1 2INTENSIFIER 1 0
Cümle unsurları her zaman tek bir kelimeden olu� maz, birden
fazla kelimenin bir araya gelmesi ile olu� an kelime gurupları, daha
do� rusu tümceler (Collocation) cümlenin unsurları olabilirler. Dolayısı
ile, tek birlik üzerinde in� a etti � imiz indeks terim kurgusu ile cümle
unsurları aynı hesaplama birimine sahip olmadı � ı için, yani çekirdek
birlik boyutu olarak aynı ölçe� e sahip olmadıkları için bir uyumsuzluk
söz konusudur. Bu uyumsuzluk, bir cümle unsurunu olu� turan
birliklerden birisi, indeks terim olarak seçilmi � se, o cümle unsuru
indeks terim olarak kabul edilerek giderilmi � tir. Ayrıca, tahmin
edilece� i gibi, bir cümle unsurunu olu� turan birliklerden birden fazlası
da indeks terim olabilmektedir. Bu mesele kelime gurupları
incelemesinde ele alınacaktır. Burada yalın bir yakla� ım izlemek yeterli
görülmü� tür. Cümle unsurunun indeks terim olarak frekansı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
302
hesaplanırken, içerdi � i birliklerin indeks terim olanları sayılmı � tır. Dolayısı ile, örne� in bir cümle unsuru 2 indeks terim içeriyorsa,
frekansı 2 olarak hesaplanmı � tır. Bir cümle unsuru, sadece tek bir
kelime gurubu ile örtü� ece� i için böyle bir yakla� ım yanlı � olmamaktadır. Çizelgede, her cümle unsuru kodu için, “kod” sütununda
bir de kısa kod atanmı � tır. Bu kısa kodlar, istatistiklerin gösterimlerde
� ekilsel düzeni sa� lamak için olu� turulmu� tur.
�ekil 11.1.2.1.’de cümle unsurlarının kendi içinde, indeks terim
da� ılımları çizge olarak betimlenmi � tir.
0%10%
20%30%
40%50%60%
70%80%
90%100%
*
Ab
l
App
Cla
s
Col
l
Coo Dat
Det
Inst
Inte
Loc
Mo
d
Neg Ob
j
Poss
Qu
e
Rel
S.M
Sen Sub
Vo
c
0
1
�ekil 11.1.2.1: OSTAD derlemi, cümle unsurlarının indeks terim da� ılımları.
�ekilde cümle unsurlarının, indeks terim da� ılımları arasında,
kendi içinde en tutarlı olan unsur “kelime gurubu” (Coll) olarak
i � aretlenmi � olan birliklerdir. Ancak, OSTAD için hazırlanan kullanım
kılavuzunda, kelime gurubu koduna sahip olan birliklerin sonradan bir
program yardımı ile tek birli � e çevrildi � i ve sadece yanlı � i � aretlenmi �
olanların kaldı � ı söylenmi � tir. Dolayısı ile, tutarlılık
de� erlendirmesinde, kelime gurubu koduna sahip birlikler göz önüne
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
303
alınmamı � tır, ancak betimsel istatistiklerden de çıkarılmamı � tır. Genel
üzerinden, indeks terimlerin cümle unsurları üzerindeki da� ılımı da �ekil 11.1.2.2.’de verilmi � tir.
Sub19%
Inst1%
Loc6%
Dat5%
Clas15%
Abl2%
App1%
Sen2%
Poss7%
Obj30%
Mod10%
�ekil 11.1.2.2: OSTAD derleminde indeks terimlerin cümle unsuru da� ılımları.
Cümle unsurlarının, indeks terim da� ılımları hem kendi içinde
hem de genel üzerinden toplu de� erlendirmesi Çizelge 11.1.2.3.’de
verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
304
Çizelge 11.1.2.3: OSTAD derlemi, cümle unsuru ve indeks terim için toplu de
�
erlendirme.
Kod 0 1 Top P(ind=0|.) P(ind=1|.) Kod 0 1 Top P(ind=0|.) P(ind=1|.)
frek 5 0 5 frek 2,171 387 2,558
P(Kod|.) 0.00 0.00 0.00 P(Kod|.) 0.39 0.10 0.27
frek 54 67 121 frek 16 0 16
P(Kod|.) 0.01 0.02 0.01 P(Kod|.) 0.00 0.00 0.00
frek 24 56 80 frek 940 1,198 2,138
P(Kod|.) 0.00 0.01 0.01 P(Kod|.) 0.17 0.30 0.22
frek 173 598 771 frek 62 288 350
P(Kod|.) 0.03 0.15 0.08 P(Kod|.) 0.01 0.07 0.04
frek 1 5 6 frek 2 0 2
P(Kod|.) 0.00 0.00 0.00 P(Kod|.) 0.00 0.00 0.00
frek 270 11 281 frek 2 0 2
P(Kod|.) 0.05 0.00 0.03 P(Kod|.) 0.00 0.00 0.00
frek 133 212 345 frek 73 0 73
P(Kod|.) 0.02 0.05 0.04 P(Kod|.) 0.01 0.00 0.01
frek 217 0 217 frek 895 96 991
P(Kod|.) 0.04 0.00 0.02 P(Kod|.) 0.16 0.02 0.10
frek 18 32 50 frek 233 763 996
P(Kod|.) 0.00 0.01 0.01 P(Kod|.) 0.04 0.19 0.10
frek 162 0 162 frek 4 2 6
P(Kod|.) 0.03 0.00 0.02 P(Kod|.) 0.00 0.00 0.00
frek 169 235 404 5,625 3,951 9,575
P(Kod|.) 0.03 0.06 0.04 0.59 0.41
Toplam
P(ind)
Sub 0.23 0.77
Voc 0.67 0.33
S.M 1.00 0.00
Sen 0.90 0.10
Que 1.00 0.00
Rel 1.00 0.00
Obj 0.44 0.56
Poss 0.18 0.82
Mod 0.85 0.15
Neg 1.00 0.00
0.42 0.58
0.36 0.64
Inte 1.00 0.00
0.39 0.61
Det 1.00 0.00
0.17 0.83
Coo 0.96 0.04
0.30 0.70
Clas 0.22 0.78
1.00 0.00
Abl 0.45 0.55
*
App
Coll
Dat
Inst
Loc
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
305
Lahtinen (2000), yaptı�ı çalı � mada cümle unsurları için �
ngilizce’de benzer bir yol izlemi � tir. Lahtinen çalı � masında, cümle
unsurlarının kendi içinde indeks terim olu� da�ılımlarını kullanmı � tır.
Genel da�ılımı, yani indeks terimlerin cümle unsurları üzerindeki
da�ılımını kullanmamı � tır. Not edilmesi gereken bir önemli nokta
Lahtinen tarafından yapılan çalı � mada da, �ngilizce için kendi içinde en
yüksek olasılı�a sahip cümle unsuru olarak, isim tamlamalarının ilk
birli�inin bulunmasıdır.
�kinci unsur, cümlenin faili; üçüncü unsur edat
tümlecinde tamlayan22 (complement of preposition) adını verdi�i unsur
ve dördüncü unsur da nesnedir.
11.1.3. Sözcük Türü ve Cümle Unsuru Ortak De� er lendirme
Sözcük türünün ve cümle unsurlarının bireysel olarak indeks
terim da�ılımları kendi içlerinde de
�erlendirildi, burada birlikte
de�erlendirmesi yapılacaktır. Birlikte de
�erlendirme, sözcük türü ve
cümle unsurunun birlikte indeks terim da�ılımlarıdır. Çizelge
11.1.3.1.’de OSTAD derleminde yapılan elle i � aretleme verileri
kullanılarak hesaplanmı � , sözcük türü ve cümle unsuru belirlenmi � ken,
indeks terim olma (1) ve olmama (0) olasılıkları, tablo halinde
verilmi � tir.
22 Lahtinen, edat tümlecinde tamlayan cümle unsuru adını verdi � i kelime gurupları için “divorced from ETHICS” örne� ini vermi � tir. Bu gurubun edatı “ from” birli � idir. “ETHICS” (töre, ahlak) birli � i tamlayandır. “divorced” (bo� anma) birli � i de tamlanan.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
306
Çizelge 11.1.3.1: OSTAD derleminde, sözcük türü ve cümle unsuru birlikte indeks terim da
�
ılımı.
indT Adj Adv Conj Det Inter j Noun Postp Pron Verb indT Adj Adv Conj Det Interj Noun Postp Pron Verb
0 0.80 0 0.25 0.42 1.00 1.00 0.00
1 0.20 1 0.75 0.58 0.00 0.00 1.00
0 0.50 0.44 1.00 0 0.85 0.99 1.00 1.00 0.69 1.00 1.00 0.96
1 0.50 0.56 0.00 1 0.15 0.01 0.00 0.00 0.31 0.00 0.00 0.04
0 1.00 0.75 1.00 0.21 1.00 0 1.00 0.00 1.00
1 0.00 0.25 0.00 0.79 0.00 1 0.00 1.00 0.00
0 0.55 1.00 0.20 1.00 1.00 0 0.79 1.00 1.00 0.40 1.00 1.00 0.89
1 0.45 0.00 0.80 0.00 0.00 1 0.21 0.00 0.00 0.60 0.00 0.00 0.11
0 0.17 0 0.60 0.12 1.00
1 0.83 1 0.40 0.88 0.00
0 0.50 1.00 1.00 0.29 1.00 0 0.00 0.00 1.00 0.00
1 0.50 0.00 0.00 0.71 0.00 1 1.00 1.00 0.00 1.00
0 0.00 0.35 1.00 1.00 0 1.00
1 1.00 0.65 0.00 0.00 1 0.00
0 1.00 1.00 1.00 1.00 0 1.00 1.00 1.00 1.00
1 0.00 0.00 0.00 0.00 1 0.00 0.00 0.00 0.00
0 0.00 0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
1 1.00 1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0 0.35 1.00 0 0.56 1.00 0.18 1.00 1.00 0.80
1 0.65 0.00 1 0.44 0.00 0.82 0.00 0.00 0.20
0 1.00 1.00 0.00 1.00 0 1.00 1.00 1.00 0.00
1 0.00 0.00 1.00 0.00 1 0.00 0.00 0.00 1.00
Sub
Voc
Que
Rel
S.M
Sen
Mod
Neg
Obj
Poss
Etol
Inst
Inte
Loc*
Abl
App
Clas
Coll
Coo
Dat
Det
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
307
11.1.4. Kelime Guruplar ı
OSTAD derlemi, kelime gurupları i � aretlenmi � bir derlemdir.
Derlemde kelime gurupları Türkçe dilbilgisi kuralları dahilinde tespit
edilmi � tir. BGG sistemlerinde kelime guruplarının kullanımı, genel
olarak birlikte gözlenme olasılıkları açısından ele alınmakta ve indeks
terim olarak bu biçimde de� erlendirilmektedir. Bölüm 2.’de Türkçe
bahsinde etraflıca ele aldı � ımız kelime gurupları, dilbilgisi kurallarına
uygun olan biçimlerdir. BGG sistemlerinde kullanılan halinde,
kelimelerin birlikte, ardı ardına belirli bir gözlenme sıklı � ından daha
fazla görülmeleri esas alınır. Dolayısı ile, örne� in derlemde bir kere
gözlenen ardı � ık kelimeler, kelime gurubu olarak kabul edilmezler.
Bölüm 5.3.’de belgelerin BGG sistemlerinde sayısal olarak temsili için
kullanılan yordam tanıtılırken, kelime guruplarını tespit için bahsedilen
yöntemler tanıtılmı � tı. Burada, OSTAD derleminde i � aretlenmi � kelime
guruplarının istatistikleri verilecektir.
OSTAD derleminin elle indeks terimleri i � aretlenmi � kısmında,
içerdi � i kelime sayısı 2 ile 9 arasında de� i � en toplam 1060 kelime
gurubu vardır. Söz konusu 1060 kelime gurubu, derlem içinde 1150 kez
gözlenmi � tir. Yani, bir kelime gurubu ortalama 1.08 (1150/1060) kez
derlem içinde gözlenmi � tir. 1150 gözlemin, 1111’ i indeks terim olarak
i � aretlenmi � tir. Yani, herhangi bir kelime gurubunun indeks terim
olması ihtimali, yakla� ık 0.97’dir. Kelime guruplarının indeks terim
da� ılımı, içerdikleri kelime sayıları esasında Çizelge 11.1.4.1.’de özet
tablo olarak verilmi � tir. � ndeks terim olu� , kelime gurubu esasında
de� erlendirilmi � olup, bireysel kelimelerin indeks terim olup olmadı � ı
ile il i � kilendirilmemi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
308
Çizelge 11.1.4.1: OSTAD derleminde, kelime guruplarının indeks terim da� ılımları.
Kel. Sayı 0 1 Toplam Kel. Sayı 0 1 Toplam
40 836 876 6
0.05 0.95 0.448 0.003
194 0
0.099 0.000
48 1
0.025 0.001
24 1
0.012 0.001
6 Toplam 40 1,111 1,150
0.003 P(ind) 0.03 0.97
6
0
1
1
0
0
0
0
194
48
24
6
0
0
0
0
6
7
8
9
6
2
3
4
5
Çizelgede görüldü� ü gibi, 3 ve yukarısında kelime sayısına sahip
olan tüm kelime gurupları indeks terim olarak seçilmi � tir. Ancak,
içerdi � i kelime sayısı 3 ve yukarısında olan birliklerin derlemde birden
fazla gözlenenlerinin sayısı yok denecek kadar azdır: 3 kelimeden
olu� an gurupların toplamı 10 adettir, bunlardan 9 tanesi 2 kere, 1 tanesi
3 kere gözlenmi � tir; 4 kelimeden olu� an gurupların toplamı 2 adettir,
hepsi 2 kere gözlenmi � tir; 5 kelimeden olu� an gurupların toplamı 2’dir
ve hepsi 2 kere gözlenmi � tir; 6 kelimeden olu� an gurupların toplamı
1’dir ve 2 kere gözlenmi � tir; 8 ve 9 kelimeden olu� an gurupların iki
kere gözleneni ise yoktur.
Geleneksel olarak, indeks terim ba� lamında kelime gurubu olarak
ele alınan ardı � ık birliklerde, kelime sayısı ço� unlukla 2’dir. Kelime
sayısı 3 ve üzeri olan kelime gurupları indeks terim ba� lamında ele
alınıp incelenmemi � tir (Lahtinen, 2000).
Tez kapsamında, kelime guruplarının indeks terim ba� lamında
incelenmesi, 2 kelime ile olu� turulan guruplarla sınırlıdır. Kelime
guruplarını olu� turan kelimelerin sözcük türlerinin olu� turdu� u
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
309
kombinasyon için indeks terim da� ılımları incelenerek, kelime
gurupları ile ilgili genel da� ılım çalı � ması yapılmı � tır.
�çerdi � i kelime sayısı 2 olan gurup sayısı 876’dır. Bunlardan,
836’sı indeks terimdir. Bu gurupların içerdi � i kelimelerin sözcük
türlerinin indeks terim da� ılımı Çizelge 11.1.4.2.’de tablo halinde
verilmi � tir.
Çizelge 11.1.4.2: OSTAD derleminde 2 kelimeden olu � an kelime guruplarını, sözcük türü kombinasyonlarının indeks terim da� ılımları.
SözT1 SözT2 0 1 Toplam SözT1 SözT2 0 1 Toplam
86 6 92 585 21 606
0.935 0.065 0.965 0.035
669 178 847 222 3 225
0.790 0.210 0.987 0.013
28 1 29 1869 595 2464
0.966 0.034 0.759 0.241
132 3 135 52 1 53
0.978 0.022 0.981 0.019
2 6 8 587 21 608
0.250 0.750 0.965 0.035
33 1 34 4265 836 5101
0.9706 0.0294Verb Noun
Noun
Adj
Adv
Noun
Pron
Verb
Toplam
Adv Noun
Interj Noun
Adj
Adj
Noun
Verb
Çizelge olu� turulurken, öncelikle indeks terim olan kelime
guruplarının sözcük türü dizilimleri tespit edilmi � , daha sonra bu
dizilimlerin derlem içinde genel gözlenme sıklıkları bulunmu� tur. Bu
sayede bir sözcük türü dizilimine ait indeks terim olma olasılı � ı elde
edilmi � tir. Bu yöntemle bulunan olasılıklar, dilbilgisi kurallarına uygun
kelime gurupları olasılıklarıdır. BGG sistemlerinde yaygın olarak
kullanılan, birlikte gözlenme sıklı � ı ile kelime guruplama yönteminden
farklıdır. Aslen, bu � ekilde kelime gurubu incelemesi, sözcük türlerinde
ba� lam enformasyonunun de� erlendirilmesi demektir. Bir ba� ka
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
310
söyleyi � le, yine sözcük türlerini esas alan bir indeks terim da� ılımı
çıkarmaktır. Ancak, bu defa bir sözcük türü kendisinden bir önceki
sözcük türü ile ba� lam ili � kisi de göz önüne alınarak
de� erlendirilmektedir. Bu durum sözcük türü üzerinde n-gram dil
modeli kurulması olarak dü� ünülebilir. � çerdi � i kelime sayısı 2 olan
kelime gurubu 2-gram, 3 olan kelime gurubu 3-gram � eklinde
de� erlendirilmektedir. Dolayısı ile, kelime gurubu incelememizden
çıkartaca� ımız sonuçlar, sözcük türü incelememize ek olarak
de� erlendirilmelidir, yani sözcük türü incelemesinin ba� lam katkısı
olarak ele alınmalıdır. Kelime guruplarının, sözcük türü
enformasyonunda ba� lam katkısı olarak ele alınabilmesi ile ilgili
belirtilmesi gereken çok önemli bir � art vardır; o da kelime guruplarının
ardı � ık kelime dizileri olarak kabul edilmesidir. Türkçe için bu � art
de� erlendirildi � inde, genel olarak kabullenmenin yanlı � oldu� u
söylenemez. Tabii istisnalar da mevcuttur. Ardı � ıklık ve kelime
gurupları ile ilgili söylenmesi gereken bir önemli nokta daha vardır.
OSTAD derleminde indeks terim olarak i � aretlenmi � kelime guruplarını
olu� turan bireysel kelimelerin ço� unlu� u, kelime esasında indeks terim
olarak zaten i � aretlenmi � olanlardır. Bu durum, BGG sistemlerinde
neden kelime gurupları ile çalı � manın ba� arımı arttırmadı � ına bir sebep
olarak ele alınabilir. Kelime gurupları genel uygulamada, BGG
sistemlerinin tek kelime indeks terim listesine ek olarak alınırlar.
Ancak, gurup halinde indeks terim listesinde bulunan kelimeler zaten
bireysel olarak listededirler. Kelimelerin yakınlık ili � kisi ile
olu� turulmu� gurubun bireysel kelimeleri, e� er derlemde sadece kelime
gurubu düzeni içerisinde gözlenmi � se, yani herhangi bir bireysel kelime
gurup düzeni dı � ında derlemde gözlenmemi � se, indeks terim listesinde
tek olarak yer aldı � ı zamanki enformasyonu ile, gurup düzeni içinde
temsil etti � i enformasyonu birbirine e� it olur diyebiliriz. Bir ba� ka
söyleyi � le, kelimeler söz konusu gurup hali dı � ında kullanılmıyorsa,
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
311
bireysel olarak listelenerek olu� turulacak bir indeks terim listesinde,
gurup halinde ta� ıdıkları enformasyon da içerilir. Örne� in, “ � ebin
Karahisar” gibi bir gurubun, bireysel kelimeleri “ � ebin” ve “Karahisar”
indeks terim listesinde yer aldı � ında, gurubun da listeye alınması,
kelime frekansı esasına dayalı yöntemlerle a� ırlıklandırma yapılması
taktirinde ek bir enformasyon sa� lamaz. Dolayısı ile, BGG
sistemlerinin ba� arımında bir artı � beklenemez.
Çizelge 11.1.4.2.’de 2 kelimeden olu� an kelime guruplarının,
sözcük türü dizilerinin verilen indeks terim da� ılımı içinde sözcük türü
dizilerinin indeks terim olu� (1) olasılıkları oldukça dü� üktür.
Listelenen guruplar, dilbilgisi kuralları ile tutarlı olan dizilimlerdir:
“Adj-Adj” için yabancı sermayeli; “Adj-Verb” için kıymetli
arkada� lardır; “Noun-Pron” için ba� bakanlık müste� arı'nınki
verilebilecek örneklerdir.
11.2. BGG Sistem Ba� arımı üzer ine � ncelemeler .
Bir derlem için, derlemi olu� turan tüm belgelere ait kelime
listesinden, indeks terim olarak seçilecek olanları belirleme ile bir
indeks terimin belirli bir belgenin içeri � i içinde önemini belirleme aslen
farklı i � lerdir. BGG sistemleri içinde, indeks terimlerin adaylar
(derlemi olu� turan tüm kelimeler) arasından belirlenmesi i � i sayısal
belge temsili (Bölüm 5.3) içinde halledilir. Bir indeks terimin belirli bir
metin için önemini belirleme i � i, geri-getirim yönteminin asli görevidir.
Geri-getirim yöntemleri bu özelliklerinin güçü nispetinde birbirlerinden
ayrılırlar. Bir indeks terimin, bir belgenin içeri � ine yaptı � ı katkının
nicel olarak ölçeklendirilmesine, a� ırlıklandırma adı verilir. Geri-
getirim yöntemlerinin tamamı, kurgularına uygun olarak bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
312
a� ırlıklandırma yöntemi önerirler. Geleneksel geri-getirim
yöntemlerinde yaygın olarak kullanılan a� ırlıklandırma yöntemleri
Bölüm 6.’da (Geri-Getirim Modelleri) ayrıntılı � ekilde tanıtılmı � tır.
Zipf güç kanunları incelemesinde içerik ve i � lev kelimeler adı ile
indeks terim belirleme i � i BGG sahasında genel geçer olan frekans
esasındaki kuramlar üzerinden ele alınmı � tı (Bölüm 10). Bu u� ra� indeks terim belirlemedir. � çerik kelimeler olarak adlandırılan kelimeler
aslen indeks terimlerdir. � � lev kelimelerse, sayısal belge temsilinin bir
alt süreci olan durma kelimelerinin ayıklanması içinde kullanılan
listede yer alacak kelimelerdir. BGG sistemleri, içerik kelimeler, yani
indeks terimler bu � ekilde belirlendikten sonra, her indeks terimi
derlemde terimin gözlendi � i her belge ile ili � kilendirirler, daha do� rusu
her belge-indeks terim çifti için sayısal bir a� ırlık de� eri hesaplarlar.
Bu hesaplamaların indeks terimlerin frekanslarına dayalı olanları,
Bölüm 7.2.’de verilen Luhn kuramını esas alarak önemi
ölçeklendirirler.
Yukarıda verilen bakı � açısı ve uygulamada izlenen yol, BGG
sistemlerinin genel geçer bakı � açısı ve yoludur. Ancak, indeks
terimlerin seçimi ve öneminin belirlenmesi için bir ba� ka bakı � açısı
daha kullanılabilir. Geleneksel olarak izlenen uygulamadaki yol içinde,
seçim ve önem iki bölüt u� ra� olarak ele alınmaktadır. Aslında, seçim
ve önem birbirinden bu denli ba� ımsız de� ildir. “Belge içeri � ine en çok
katkıda bulunan kelimeler, indeks terim olarak seçilmelidir” önermesi
ba� ımsız olmadıklarını açıkça ortaya koymaktadır. Bu önerme, aynı
zamanda tüm BGG sistemlerinin ortak hedefidir. Fakat, geleneksel
bakı � açısında, önemsiz kelimeler bir ön kabullenme ile zaten belgeler
incelenmeden önce belirlenmi � tir. Yani, yazılı dilin kuralları gere� i
kullanılması gereken, ancak içeri � e katkısı olmadı � ı dü� ünülen
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
313
kelimeler önemsiz olarak kabul edilir. Durma listeleri bu kelimelerden
olu� turulur ve her belgeden bu kelimeler ayıklanır. Önemsiz oldu� u
dü� ünülen kelimeler, örne� in sözcük türü olarak edatlar olabilir. Bu
sözcük türündeki kelimeler gerçekten, dilbilgisi kuralları gere� i
kullanılır. Ama, “belgenin içeri � ine katkısı açısından önemi yoktur”
� eklinde bir kabullenme, daha belgeler belli de� ilken pek do� ru
olmayabilir. Örne� in, bir derlem, dilbilgisi ile ilgili belgelerden
olu� uyorsa ve edatları anlatan belgeler varsa, BGG sisteminden bir
ba� arım beklenmesi söz konusu olamaz. Tabii, kabullenme tamamen
yanlı � tır da denemez. Bu � ekilde önceden önemsiz oldu� u ba� tan kabul
edilen kelimeler, frekans yakla� ımı içinde yüksek de� erlere sahip
olanlardır. Zipf güç kanunları incelemesinde, i � lev kelimeler bu yüzden
belirli bir frekansın üzerinde gözlenme sıklı � ına sahip olanlardan
olu� turulmu� tur. Özetleyecek olursak, geleneksel BGG sistemleri
içinde indeks terimlerin seçimi açısından önem kavramı, görülme
sıklı � ı ile izah edilmektedir. Burada kastedilen önem, tabii terimin
belge içeri � ine yaptı � ı katkının büyüklü� ü ile orantılıdır.
Tanımladı � ımız bakı � açısından geri-getirim yöntemlerinin önerdi � i
a� ırlıklandırma yöntemleri dü� ünüldü� ünde, her iki i � levi de yerine
getirdi � i söylenebilir. A � ırlıklandırma yöntemi, bir terim ile bir belgeyi
önem açısından a� ırlıklandırırken, aynı zamanda o terimin indeks terim
olarak seçilme a� ırlı � ını da belirlemektedir. Uygulamada, önemsiz
terimlerin, yani i � lev kelimelerin ba� tan ayıklanması, geri-getirim
yönteminin belirleyicili � i açısından bir gürültü olu� turmasından ve
ba� arımı dü� ürmesinden kaynaklanmaktadır. Deneysel çalı � malarda,
söz konusu kabullenme yapılmayacaktır, yani ba� tan aday kelimeler
önemli veya önemsiz � eklinde ayrılmayacaktır. Bu sayede, geleneksel
uygulamaların izledi � i yolun en ba� ında kalınacak, daha do� rusu hiçbir
ön kabullenme olmaksızın ba� arımlar ele alınabilecek, dolayısı ile
yansız bir de� erlendirme sa� lanacaktır. Geleneksel bakı � açısı kabul
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
314
edilmedi � i için, ne durma listesi içindeki kelimeler ayıklanacak, ne
gövdeleme yapılacak, ne de bu bakı � açısının do� rultusunda ba� arım
sa� ladı � ı gösterilen ba� ka yöntemler devreye alınacaktır. Derlemde
gözlenen tüm kelimelere e� it � ans tanınacak, bu � ekilde yalın bir
de� erlendirme içinde katkı sa� lanıp sa� lanmadı � ı sınanmı � olacaktır.
Geleneksel bakı � açısı do� rultusunda katkı sa� ladı � ı ispatlanmı �
yöntemlerin kullanılması, yalın de� erlendirme sonucu ister olumlu,
ister olumsuz olsun üzerine yapılması gereken deneylerdir. Burada
sınanmaya çalı � ılan, dilbilgisi özelliklerinin en temelde katkı sa� layıp
sa� lamadı � ıdır, yani dilbilgisi özelliklerinin ek bir enformasyon ta� ıyıp
ta� ımadı � ının belirlenmesidir. Bir bakı � açısı içerisinde yer alan
yöntemlerle, e� er varsa söz konusu ek enformasyonun, ne tür bir ili � ki
içinde oldu� unun ara� tırılması bir ba� ka u� ra� tır ve tez kapsamımızın
dı � ındadır.
Tez kapsamında hedefimiz, dilbilgisi özellikleri ile geri-getirim
ba� arımını arttırmak, yani katkı sa� lamaktır. Bir katkı olup olmadı � ının
anla� ılması için, öncelikle geleneksel yöntemlerin Türkçe için yalın
olarak ba� arımları belirlenecek ve elde edilen en iyi ba� arım de� eri e� ik
düzey olarak kabul edilip, dilbilgisi özelliklerinin anlamlı bir de� i � im
yaratıp yaratmadı � ı açısından sınanacaktır.
11.2.1. Türkçe için E � ik Ba� arım
Türkçe için ba� arım açısından sınanıp, en iyisi e� ik de� er olarak
belirlenecek geri-getirim yöntemleri üç tanedir: Okapi (Robertson and
Walker, 2000), Ltu (Buckley et al., 1996), TFxIDF. Ayrıca, kelimelerin
sadece görülme sıklıkları, yani tf olarak adlandıraca� ımız bir kontrol
yöntemimiz de vardır. Dolayısı ile deneysel çalı � ma dört geri-getirim
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
315
yöntemi üzerinden gerçekle� tirilecektir. Deneysel derlem olarak,
OSTAD kullanılacaktır. Geri-getirim yöntemlerinin ba� arımlarının
sınanması için kullanılacak yöntem, üstel-puanlama’ dır (Bölüm 8).
Türkçe için sınanacak geri-getirim yöntemlerinin biçimsel ifadeleri,
Denklem 11.2.1.1.’de Okapi, Denklem 11.2.1.2.’de Ltu ve Denklem
11.2.1.3.’de TFxIDF olmak üzere verilmi � tir.
df
dfN
tfdlavg
dltf
)5.0
5.0log(
_5.15.0 +
+−
++
(11.2.1.1)
dlavg
dldf
Ntf
_2.08.0
)log()1)(log(
+
+ (11.2.1.2)
df
Ntf )log(* (11.2.1.3)
Denklemlerde, tf terimi, bir terimin belge içindeki görülme
sıklı � ını; df terimi bir terimin gözlendi � i belge sayısını; dl terimi,
belgenin uzunlu� u; avg_dl terimi, derlemdeki belgelerin ortalama
uzunlu� u; N terimi, derlem içindeki toplam belge sayısını temsil
etmektedir. Aslen denklemlerde verilen ifadeler, a� ırlıklandırma
hesaplamalarıdır. Bu hesaplamaların tamamı, vektör uzayı geri-getirim
modelini esas almaktadır. Geri-getirim yöntemi olarak da
adlandırılmalarının sebebi, a� ırlıklandırma hesabının, bir geri-getirim
yönteminin özünü olu� turmasından kaynaklanır. Okapi ve Ltu, son
zamanlarda, � ngilizce için yapılan çalı � malarda en yüksek ba� arımları
elde etmi � yöntemlerdir. TFxIDF ise, vektör uzayı modelinin bilinen ilk
hesaplama yöntemidir. Aslen, Okapi ve Ltu, TFxIDF ifadesinden
türetilmi � tir. Dayandıkları mantık aynıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
316
Söz konusu yöntemlerin, OSTAD derlemi üzerinde deneysel
olarak, üstel-puanlama yöntemi ile ba� arım sınamasının sonuçları,
Çizelge 11.2.1.2.’de tablo halinde, � ekil 11.2.1.1.’de ise çizge halinde
verilmi � tir.
Çizelge 11.2.1.2: Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.
Üstel PuanTF 1.2731TFxIDF 1.2959Okapi 1.2763Ltu 1.2908
TF
TFxIDF
Okapi
Ltu
1.2700
1.2750
1.2800
1.2850
1.2900
1.2950
1.3000
Üstel Puan
�ekil 11.2.1.2: Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak,
üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.
Alınana sonuçlara göre, TFxIDF yöntemi Türkçe için di � er
yöntemlerden çok daha yüksek bir ba� arım sergilemi � tir. Geri-getirim
yöntemlerinin üçü de, istatistiksel olarak 0.05 anlamlılık düzeyinde
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
317
birbirlerinden farklıdır (Friedman test istatisti � i23, p-de� eri 0.04). Ba� ta belirtildi � i gibi, terimlerin yalın gözlenme sıklıkları ile kontrol için
olu� turdu� umuz tf yöntemi, beklendi � i gibi en kötü sonucu vermi � tir. Kontrolün amacı, varsa farklılı � ın, yani de� i � imin yönünü tayin
edebilmektir. � statistiksel farklılık sınamaları, de� i � imin yönü
konusunda bilgi vermezler. Üstel-puanlama yönteminin, ortalama
duyarlılık ile oransal sonuçlar verdi � i belirtilmi � tir, ancak Türkçe için
yaratılan farklılı � ın iyi yönde oldu� unu da garanti altına almak için
kontrol yapılmı � tır.
Sonuç olarak, TFxIDF Türkçe için, deneysel derlemimiz olan
OSTAD üzerinde en yüksek ba� arımı sa� layan yöntem olmu� tur. Bu
sonuç, � ngilizce için alınan sonuçlar ile tezat olu� turmaktadır. � ngilizce
için yapılan sınamalarda, Okapi en iyi ba� arımı göstermi � , ardından
sırasıyla Ltu ve TFxIDF gelmi � tir. Bunun sebebi aslında açıktır. Okapi
ve Ltu yöntemleri, parametrik yöntemlerdir. Parametreler, � ngilizce
talim derlemlerinde elde edilen en yüksek ba� arım noktalarındaki
de� erlere e� ittir. Dolayısı ile, ba� ta � ngilizce olmak üzere, talim
edildikleri derleme inceltilmi � tir. Türkçe için aynı sonuçları vermeleri,
beklenen bir durum de� ildir. Ancak, Ltu yönteminin Okapi
yönteminden daha genellenebilir oldu� unu da söylemek gerekir.
11.2.2. � ndeks Ter im Seçimi ve A � ır lıklandırma
Bir geri-getirim yöntemi, belge içeri � ini temsil açısından
terimlere, önemleri ile orantılı olarak a� ırlıklandırma yapmayı
ba� ardı � ı miktarda, bir BGG sisteminin ba� arımını arttırabilir (Bölüm
23 Friedman istatisti � i, parametrik olmayan bir yöntemdir. Aslen 2-yönlü ANOVA parametrik istatisti � inin, parametrik olmayan kar � ılı� ıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
318
8.3). Bir ba� ka söyleyi � le, bir geri-getirim yöntemi belgeler için içeri � e
katkıda bulunan terimleri, yani indeks terimleri, i � lev terimlerden yani,
içeri � e katkısı olmayan terimleri birbirinden ayırt edebildi � i miktarda,
BGG sisteminin ba� arımını arttırabilir.
OSTAD derleminde, seçilen her belge için elle indeks terimler
i � aretlenmi � tir. Dilbilgisi özelliklerinin katkısını ölçmek için, Türkçe
için en yüksek geri-getirim ba� arımına sahip olan TFxIDF yöntemi ile
atanmı � a� ırlıklar e� ik belirleyicilik olarak kullanılacaktır. TFxIDF
yöntemi ile indeks terimlerin belirlenebilmesi ile dilbilgisi özellikleri
de kullanılarak belirlenmesi arasında anlamlı bir farklılık olup
olmadı � ına bakılacaktır. Dolayısı ile, ba� arım üzerindeki etkisi de aynı
zamanda ortaya konmu� olacaktır. OSTAD derleminde yapılan söz
konusu deneysel çalı � malarda, belge yerine paragraflar kullanılmı � tır.
TFxIDF yöntemi ile a� a� ıdaki paragraf için hesaplanarak atanmı �
a� ırlıklar Çizelge 11.2.2.1.’de örnek olarak verilmi � tir.
“ AB'ye uyum süreci nedeniyle hazırlanan azınlık cemaatleri vakıflarının mal edinmelerini düzenleyen yönetmelik kapsamına alınmayan Süryani ve Protestanlar isyan etti . Yönetmelikle , sadece Lozan Antla � ması'na göre azınlık statüsü tanınan Rumlar , Ermeniler ve Yahudi cemaatlerine mülk edinme hakkı verilmesi tartı � ma yarattı . “
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
319
Çizelge 11.2.2.1: Örnek paragrafın TFxIDF a� ılıkları.
Bir lik TFxIDF ind Bir lik TFxIDF indazınlık 14.0741786 1 tartı � ma 7.622051819 1alınmayan 8.62205182 0 rumlar 7.622051819 1cemaatleri 8.62205182 1 hazırlanan 7.622051819 0edinmelerini 8.62205182 0 cemaatlerine 7.622051819 1ermeniler 8.62205182 1 ab'ye 7.037089319 1isyan 8.62205182 1 düzenleyen 7.037089319 0lozan 8.62205182 1 edinme 7.037089319 0protestanlar 8.62205182 1 mülk 7.037089319 1statüsü 8.62205182 0 kapsamına 6.622051819 0süreci 8.62205182 0 yönetmelikle 6.622051819 1vakıflarının 8.62205182 1 uyum 6.300123725 0yönetmelik 8.62205182 1 mal 5.814696897 1yahudi 7.62205182 1 sadece 5.814696897 0yarattı 7.62205182 0 nedeniyle 5.037089319 0verilmesi 7.62205182 0 göre 4.229734397 0süryani 7.62205182 1 ve 3.090472445 0tanınan 7.62205182 0
Çizelge’de örnek paragraf için verilen TFxIDF de� erlerinde
görüldü� ü gibi, örne� in “yahudi” ve “ yarattı” terimleri aynı a� ırlı � a
sahiptir. E� er TFxIDF mükemmel bir a� ırlıklandırma yapıyor olsaydı,
tüm indeks terimlerin, a� ırlı � ın azalan sıralamasında üst kısımlarda;
tüm i � lev kelimelerde sıralamanın altlarında olması gerekirdi. Aslen
“ tartı � ma yaratmak” birle� ik olarak, “ tartı � ma” ve “ yaratma”
kelimelerinden önem olarak farklıdır. Paragrafın konusu: azınlık
statüsünün Süryaniler ve Protestanlar arasında yarattı � ı tartı � ma ve
isyandır.
TFxIDF yöntemi ile atanmı � a� ırlıkların azalan sırasına göre
terimler listelendi � inde, söz konusu belge (paragraf) için terimlerin
önemlerine göre de azalan bir sıralama yapılmı � olmaktadır. Dolayısı
ile, 1. sırada listelenen terim en önemli, son sırada listelenen terim de
en önemsiz terim olmaktadır. E� er bu belge, içindeki her hangi bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
320
terim veya terimler için sorgulanacak olursa, belgenin sistem tarafından
geri-getirilen sonuç listesinde, verilen bu sıralama ile do� ru orantıl ı
olarak di � er belgelere göre bir sıralamaya konacaktır. � ndeks terimleri,
i � lev kelimelerinden daha yukarda olan bir belge, genel sonuç
listesindeki sıralamada da üst sıralarda olacaktır. Dolayısı ile, BGG
sisteminin ba� arımı olması gereken ideal noktaya do� ru
yakınsayacaktır. Yöntemlerin ba� arımlarını kar � ıla� tırmak için, her
yöntemin sıralamada indeks terimlerin ne kadar önce listeledi � i ölçüt
olarak kullanılabilir. Bu tür bir ölçütün sayısal de� erleri, Bölüm 8.1.’de
anlatılan duyarlılık esasına dayalı olarak elde edilebilir. Belirli bir
yöntemin, bir belgenin terimleri için verdi � i sıralamada, yukarıdan
a� a� ı inerken kar � ıla� ılan indeks terim sayısının sıra numarasına oranı
bize duyarlılık de� erini verecektir. Örnek paragraf üzerinden, TFxIDF
ile yapılan a� ırlıklandırma sonucunda hesaplanan duyarlılık de� erleri
Çizelge 11.2.2.2.’de tablo halinde verilmi � tir.
Çizelge 11.2.2.2: Örnek paragrafın, TFxIDF a� ırlıkları üzerinden duyarlılık de� erleri.
Bir lik TFxIDF ind Sıra Duy Bir lik TFxIDF ind Sıra Duyazınlık 14.0742 1 1 1.000 tartı � ma 7.6221 1 18 0.611alınmayan 8.6221 0 2 0.500 rumlar 7.6221 1 19 0.632cemaatleri 8.6221 1 3 0.667 hazırlanan 7.6221 0 20 0.600edinmelerini 8.6221 0 4 0.500 cemaatlerine 7.6221 1 21 0.619ermeniler 8.6221 1 5 0.600 ab'ye 7.0371 1 22 0.636isyan 8.6221 1 6 0.667 düzenleyen 7.0371 0 23 0.609lozan 8.6221 1 7 0.714 edinme 7.0371 0 24 0.583protestanlar 8.6221 1 8 0.750 mülk 7.0371 1 25 0.600statüsü 8.6221 0 9 0.667 kapsamına 6.6221 0 26 0.577süreci 8.6221 0 10 0.600 yönetmelikle 6.6221 1 27 0.593vakıflarının 8.6221 1 11 0.636 uyum 6.3001 0 28 0.571yönetmelik 8.6221 1 12 0.667 mal 5.8147 1 29 0.586yahudi 7.6221 1 13 0.692 sadece 5.8147 0 30 0.567yarattı 7.6221 0 14 0.643 nedeniyle 5.0371 0 31 0.548verilmesi 7.6221 0 15 0.600 göre 4.2297 0 32 0.531süryani 7.6221 1 16 0.625 ve 3.0905 0 33 0.515tanınan 7.6221 0 17 0.588
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
321
Çizelgede duyarlılık hesabı yapılırken, sıra numarası her terim
için bir artarak verilmi � tir. Aslen, aynı a� ırlıktaki terimlerin e� it sıra
numaralarına sahip olmaları gerekmektedir. Ancak, aynı a� ırlı � a sahip
terimler de bir � ekilde kendi içinde sıralanmak zorundadır. Bu gurup içi
sıralama için, TFxIDF bir belirleyicilik sa� layamamaktadır. Dolayısı
ile, aynı a� ırlıkta olan terimler rasgele bir sıraya sahip olabilir. Bizde
rasgele bir sıralama seçtik. Bu noktada, Zipf güç kanunları
incelemesinde kelime da� arcı � ını olu� turan kelimelerin, derlemde
yalnızca bir kez gözlenenlerinin, kelime da� arcı � ının %50’ye yakınını
olu� turdu� unu bir kez daha hatırlatmak istiyoruz. TFxIDF veya türevi
bir a� ırlıklandırma yöntemi ile terimler ele alındı � ında, bir kez
gözlenen terimlerin tamamı aynı sıra numarasına sahip olacaktır. Bu da,
derlemdeki belgeleri olu� turan kelimelerin yakla� ık yarısı konusunda
TFxIDF yönteminin belirleyicili � i olamayaca� ı anlamına gelmektedir.
11.2.3. Dilbilgisi Özellikler inin Ba� arıma Etkisi
Türkçe için, dilbilgisi özelliklerinin indeks terimler üzerindeki
da� ılımları ve indeks terimlerin dilbilgisi üzerindeki da� ılımları
çıkarılmı � tı (Bölüm 11.1). Bu da� ılımların BGG sistemlerinin ba� arımı
üzerindeki etkisi, belge içinde terimleri sıralarken indeks terimleri
sıralamada ne kadar önce listeledi � i i le ölçülecektir. TFxIDF Türkçe
için, kar � ıla� tırılan yöntemler arasında ba� arımı en yüksek olandır.
Dolayısı ile, e� er indeks terimler dilbilgisi özellikleri ile sa� lanan
sıralamada, TFxIDF ile sa� lanan sıralamadakinden anlamlı düzeylerde
önce listeleniyorsa; dilbilgisi özelliklerinin indeks terim seçiminde,
dolayısı ile BGG sistemlerinin ba� arımları üzerinde, “anlamlı düzeyde
katkı olmadı � ı” önermesini reddedebilecek istatistiksel delilin,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
322
elimizdeki derlemden elde edildi � i veya elde edilemedi � i sonucuna
varılacaktır.
TFxIDF ile sa� lanan sıralama ile, her dilbilgisi özelli � i üzerinden
sa� lanan sıralamalar, istatistiksel olarak anlamlı bir farklılı � a sahip
olup olmadıkları açısından kar � ıla� tırılacaktır. Bu iki kar � ıla� tırmalar
için kullanılacak parametrik olmayan istatistik, Wilcoxon i � aret testidir.
Wilcoxon i � aret testi, iki adet ili � kili veri kümesinin aynı da� ılımdan
geldi � i hipotezini sorgular. Bizim durumumuzda, iki veri kümesi,
TFxIDF ile olu� turulan sıralama ve bir dilbilgisi özelli � i i le olu� turulan
sıralamadır. � li � kili olmalarının sebebi, aynı terim için sıra
belirtmelerinden kaynaklanır. Anlamlı farklılık bulmaya çalı � tı � ımız
durum da, dilbilgisi özelli � i ile yapılan sıralamada, indeks terimlerin
TFxIDF ile yapılan sıralamadakinden daha üstlerde yer almasıdır.
Örnek paragraf için verilen çizelgede, yöntemin sıralamasına kar � ılık
gelen “duyarlıklık” de� erleri, sıralamanın indeks terimlere ne kadar
duyarlı oldu� unu vermektedir. Bir ba� ka yöntem ile yapılan
sıralamanın duyarlılı � ı farklı olacaktır. E� er elimizde iki yöntem varsa,
bu yöntemlerle önce a� ırlıklar atayıp, sıralamalar elde edilirse ve
örne� in her iki sıralama için duyarlılıklar hesaplanırsa; iki yöntemin
duyarlılıkları arasında anlamlı bir farklılık olup olmadı � ına, Wilcoxon
test istatisti � i i le bakılabilir ve hangi yöntemin indeks terimleri
sıralamada daha yukarıda topladı � ı belirlenebilir. Ancak, bu
anlattı � ımız senaryo ile, iki yöntemin bir belge üzerindeki sınaması
yapılabilir, bir çok belgeden olu� an bir derlemde, genel olarak anlamlı
bir farklılık olup olmadı � ına bakmak için bir uyarlama yapmak gerekir.
Uyarlamanın mantı � ı � öyledir: bir belgede indeks terimlerin ne kadar
yukarıda toparlandı � ını, e� it ölçekte tek bir de� ere indirgeyip, belge
içinde terimler için yaptı � ımız sınamayı, derlem içinde belgeler
üzerinde gerçekle� tirebiliriz. Her belgenin e� it ölçekte, tek bir de� er ile
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
323
indeks terimlerini sıralamada ne kadar yukarda kümeledi � ini ölçmek
için, Bölüm 8.2.’de tanıtılan Rnorm de� erleri kullanılabilir. Rnorm
ölçütünün özgün tanıtımı, yapılan bir sorgu için sonuç kümesinde
alakalı belgelerin ne kadar önce listelendi � ini belirleme amacıyla
verilmi � tir. Bu tanımlama, basitçe elimizdeki duruma benzetilebilir. Bir
belgenin içeri � ini, temsilde önemi olan kelimeler indeks terimlerdir.
E� er bir yöntem belge içinde, indeks terimleri sıralamada bir ba� ka
yöntemden daha yukarıda kümeliyorsa, yani indeks terimlere daha fazla
a� ırlık atıyorsa, bu yöntemin geri-getirece� i sonuç listesinde, söz
konusu belge daha üst sıralarda olacaktır. Yani, her belge içinde, bir
yöntemle elde edilmi � sıralama için, Rnorm de� erleri hesaplanır ve bu
de� erlerle yapılan belge sıralamasının da, belgelerin, indeks terimlerle
olu� turulabilecek olası tüm sorgulara kar � ı, en iyi sıralamasını (Tanım
8.2.1.’de belirtilen olasılık sıralama ilkesi) verdi � i kabul edilirse; iki
yöntemden belgeler için elde edilecek Rnorm de� erleri ile, yine
Wilcoxon test istatisti � i kullanılarak, bu defa derlem genelinde anlamlı
farklılık sınanabilir. Bu tezde, dilbilgisi özellikleri ile olu� turulan
sıralama ve TFxIDF ile elde edilen sıralamalar, yukarıda anlatıldı � ı gibi
düzenlenerek derlem genelinde anlamlı farklılık sınamaları yapılmı � tır.
Dilbilgisi özelliklerinden, sözcük türü ve cümle unsuru hem ayrı
olarak hem de birlikte ba� arım üzerindeki etkisi açısından
de� erlendirilecektir. Kelime gurubunun (2 kelimeden olu� an guruplar)
katkısı ise ayrıca de� erlendirilecektir.
11.2.3.1 Sözcük türünün ba� arım de� erlendirmesi
Sözcük türlerinin tek ba� ına belge içindeki terimlere atanacak
a� ırlıklar, sözcük türünün indeks terim olması olasılı � ıdır. Özel isim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
324
sözcük türü de bu de� erlendirmeye alınmı � tır. TFxIDF için
kullandı � ımız örnek paragrafa, sözcük türleri ile atanmı � a� ılıklar ve
kar � ılık gelen duyarlılık de� erleri Çizelge 11.2.3.1.1.’de tablo halinde
verilmi � tir.
Çizelge 11.2.3.1.1: Örnek paragrafın, sözcük türü ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.
Bir lik SözT A � ır lık ind Sıra Duy Bir lik SözT A � ır lık ind Sıra Duyab'ye Noun 1.0000 1 1 1.00 nedeniyle Noun 0.6378 0 18 0.67ermeniler Noun 1.0000 1 2 1.00 edinmelerini Noun 0.6378 0 19 0.63lozan Noun 1.0000 1 3 1.00 edinme Noun 0.6378 0 20 0.60protestanlar Noun 1.0000 1 4 1.00 isyan Noun 0.6378 0 21 0.57rumlar Noun 1.0000 1 5 1.00 kapsamına Noun 0.6378 0 22 0.55süryani Noun 1.0000 1 6 1.00 azınlık Noun 0.6378 1 23 0.57yahudi Adj 1.0000 1 7 1.00 cemaatleri Noun 0.6378 0 24 0.54yönetmelik Noun 0.6378 1 8 1.00 cemaatlerine Noun 0.6378 0 25 0.52yönetmelikle Noun 0.6378 1 9 1.00 alınmayan Adj 0.1705 0 26 0.50süreci Noun 0.6378 0 10 0.90 hazırlanan Adj 0.1705 0 27 0.48tartı � ma Noun 0.6378 1 11 0.91 düzenleyen Adj 0.1705 0 28 0.46uyum Noun 0.6378 0 12 0.83 tanınan Adj 0.1705 0 29 0.45vakıflarının Noun 0.6378 0 13 0.77 yarattı Verb 0.0525 0 30 0.43verilmesi Noun 0.6378 0 14 0.71 sadece Adv 0.0183 0 31 0.42statüsü Noun 0.6378 0 15 0.67 göre Postp 0.0000 0 32 0.41mal Noun 0.6378 1 16 0.69 ve Conj 0.0000 0 33 0.39mülk Noun 0.6378 1 17 0.71
Çizelgede, sözcük türü ile atanan a� ırlıkların, TFxIDF ile atanan
a� ırlıklardan daha iyi bir sıralama yaptı � ı gözle de görülmektedir.
Sözcük türü ile yapılan a� ırlık atamasında 1 de� eri olanlar, özel
isimlerdir. Dolayısı ile, özel isimlerin etkisi oldukça yüksektir. TFxIDF
ve sözcük türü ile atanan a� ırlıkların, indeks terimleri sıralama içinde
kümeledikleri yerler için, derlem genelinde Wilcoxon i � aret testi ile
yapılan kar � ıla� tırma sonuçları Çizelge 11.2.3.1.2.’de tablo halinde
verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
325
Çizelge 11.2.3.1.2: OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve sözcük türü a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
SözT - TFxIDF N Ortalama Toplam Z Sig(-) Sıralar 39 76.5513 2985.5000 -14.6673 0.00(+) Sıralar 312 188.4311 58790.5000E � itlik 43Toplam 394
Çizelge’de Wilcoxon test istatisti � i için elde edilen sonuçlar
görülmektedir. Bundan sonraki tüm sonuçlar da benzer � ekilde
verilece� i için, burada tablo detaylı olarak anlatılacak, ilerleyen
kısımlarda, sadece sonuçlar yorumlanacaktır. “SözT-TFxIDF” ba� lı � ı,
testin hangi de� i � kenler arasında gerçekle� ti � ini belirtir. Testte, iki
de� i � kenin e� le� tirilmi � de� erleri (Rnorm) arasındaki farklar bulunur.
Tabii, birinci de� i � ken, yani “SözT” kısaltması ile temsil edilen sözcük
türü, için de� er, ikinci de� i � ken, yani “TFxIDF” için de� erden büyükse,
fark pozitif olaca� ından, (+) sıra numaraları elde edilir. E� er, tersi ise,
(-) negatif sıra de� erleri elde edilir. E� er, iki de� i � kenin de� erleri, söz
konusu belge için e� itse, “e� itlik” olur. Testte, pozitif olan sıra
numaraları, negatif olan sıra numaraları ve e� itlik durumları kendi
içinde toplanır. “N” sütununda pozitif, negatif ve e� it olarak tespit
edilen sıra numaralarının sayısı vardır, en alt satırda da, “Toplam” sıra
numarası verilmi � tir. “Ortalama” sütunu, her üç gurubun kendi içinde
sıra numaralarının, mutlak de� er toplamları (“Toplam” sütunu)
üzerinden ortalamalarını listeler. � statistik, mutlak de� er toplamı en
küçük olan gurup için gerçekle� tirilir: bizim durumumuzda (-) farka
sahip de� erlerin sıra numaraları toplamı en küçük oldu� u için, test bu
gurup üzerine kurulmu � tur. “Z” sütununda, (-) sıra gurubundaki, sıra
numaralarının mutlak de� er toplamı, standart de� er olarak verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
326
“Sig” sütunundaki de� er, iki yöntemle atanan de� erlerin (Rnorm)
birbirinden anlamlı olarak farklı olup olmadı � ını gösterir. Bu de� erin:
büyük olması, “ farklılı � ın olmadı � ı” hipotezini reddedecek delilin,
deney kümesinden elde edilemedi � ini gösterir. Bizim durumumuz için
de� er 0’dır, yani anlamlılı � ın 0.05 düzeyinde, iki yöntem arasında bir
farklılık bulunmu� tur. Dolayısı ile, deneysel derlemimiz için, sözcük
türü enformasyonu esasında bir BGG sisteminin ba� arımı ile TFxIDF
esasında bir BGG sisteminin ba� arımlarının e� it olaca� ı hipotezini
reddedebilecek kadar delil vardır sonucuna varıyoruz. Yarıca, pozitif
(+) guruba dahil olan sıra numaralarının mutlak de� er toplamlarının,
negatif (-) guruba dahil olan sıra numaralarının mutlak de� er
toplamından büyük olması sebebiyle, farklılı � ın, sözcük türü lehinde
oldu� una da karar veriyoruz.
11.2.3.2 Cümle unsurlarının ba� arım de� erlendirmesi
Cümle unsuru incelemesinde, sözcük türü için kullandı � ımız
yöntemin benzeri kullanılacaktır. Bu defa, sözcük türü yerine cümle
unsurunun indeks terim da� ılımları a� ırlık olarak kabul edilecektir.
Örnek paragrafın cümle unsurları ile atanmı � a� ılıklar ve kar � ılık gelen
anma ve duyarlılık de� erleri Çizelge 11.2.3.2.1.’de tablo halinde
verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
327
Çizelge 11.2.3.2.1: Örnek paragrafın, cümle unsurları ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.
Bir lik CümU A � ır lık ind Sıra Duy Bir lik CümU A � ır lık ind Sıra Duyazınlık Clas 0.7782 1 1 1.00 edinmelerini Obj 0.5622 0 18 0.56mülk Clas 0.7782 1 2 1.00 ermeniler Obj 0.5622 1 19 0.58uyum Clas 0.7782 0 3 0.67 tartı � ma Obj 0.5622 1 20 0.60yahudi Clas 0.7782 1 4 0.75 tanınan Mod 0.1517 0 21 0.57yönetmelik Clas 0.7782 1 5 0.80 süreci Mod 0.1517 0 22 0.55verilmesi Sub 0.7671 0 6 0.67 sadece Mod 0.1517 0 23 0.52vakıflarının Sub 0.7671 0 7 0.57 yönetmelikle Mod 0.1517 1 24 0.54süryani Sub 0.7671 1 8 0.63 göre Mod 0.1517 0 25 0.52rumlar Sub 0.7671 1 9 0.67 düzenleyen Mod 0.1517 0 26 0.50statüsü Sub 0.7671 0 10 0.60 cemaatleri Mod 0.1517 0 27 0.48protestanlar Sub 0.7671 1 11 0.64 nedeniyle Mod 0.1517 0 28 0.46edinme Sub 0.7671 0 12 0.58 hazırlanan Mod 0.1517 0 29 0.45cemaatlerine Dat 0.6116 0 13 0.54 alınmayan Mod 0.1517 0 30 0.43kapsamına Dat 0.6116 0 14 0.50 isyan Sen 0.0959 0 31 0.42ab'ye Dat 0.6116 1 15 0.53 yarattı Sen 0.0959 0 32 0.41lozan Obj 0.5622 1 16 0.56 ve Coo 0.0391 0 33 0.39mal Obj 0.5622 1 17 0.59
TFxIDF ve cümle unsuru ile atanan a� ırlıkların, indeks terimleri,
sıralama içinde kümeledikleri yerler için, derlem genelinde Wilcoxon
i � aret testi ile yapılan kar � ıla� tırma sonuçları da, Çizelge 11.2.3.2.2.’de
tablo halinde verilmi � tir.
Çizelge 11.2.3.2.2: OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve cümle unsuru a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
CümU - TFxIDF N Ortalama Toplam Z Sig(-) Sıralar 45 100.4556 4520.5000 -13.8936 0.00(+) Sıralar 307 187.6466 57607.5000E � itlik 42Toplam 394
“Sig” de� eri 0’dır, yani anlamlılı � ın 0.05 düzeyinde, cümle
unsuru ile TFxIDF arasında, bir farklılık bulunmu� tur. Dolayısı ile,
deneysel derlemimiz için, cümle unsuru enformasyonu esasında bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
328
BGG sisteminin ba� arımı ile TFxIDF esasında bir BGG sisteminin
ba� arımlarının e� it olaca� ı hipotezini reddedebilecek kadar delil vardır
sonucuna varıyoruz. Ayrıca, pozitif (+) guruba dahil olan sıra
numaralarının mutlak de� er toplamlarının, negatif (-) guruba dahil olan
sıra numaralarının mutlak de� er toplamından büyük olması sebebiyle,
farklılı � ın, cümle unsuru lehinde oldu� una da karar veriyoruz.
11.2.3.3 Sözcük türü ve cümle unsuru birlikte de� erlendirme
Örnek paragrafın cümle unsurları ile atanmı � a� ılıklar ve kar � ılık
gelen anma ve duyarlılık de� erleri Çizelge 11.2.3.2.1.’de tablo halinde
verilmi � tir.
Çizelge 11.2.3.3.1: Örnek paragrafın, cümle unsuru ve sözcük türü ile birlikte atanan a� ırlıkları üzerinden duyarlılık de� erleri.
Bir lik SözT CU A � ır lık ind Sıra Duy Bir lik SözT CU A � ır lık ind Sıra Duyab'ye Noun Dat 1.0000 1 1 1.00 edinmelerini Noun Obj 0.5999 0 18 0.56ermeniler Noun Obj 1.0000 1 2 1.00 mal Noun Obj 0.5999 1 19 0.58lozan Noun Obj 1.0000 1 3 1.00 tartı � ma Noun Obj 0.5999 1 20 0.60protestanlar Noun Sub 1.0000 1 4 1.00 isyan Noun Sen 0.3576 0 21 0.57rumlar Noun Sub 1.0000 1 5 1.00 nedeniyle Noun Mod 0.3097 0 22 0.55süryani Noun Sub 1.0000 1 6 1.00 cemaatleri Noun Mod 0.3097 0 23 0.52yahudi Adj Clas 1.0000 1 7 1.00 süreci Noun Mod 0.3097 0 24 0.50verilmesi Noun Sub 0.8189 0 8 0.88 yönetmelikle Noun Mod 0.3097 1 25 0.52vakıflarının Noun Sub 0.8189 0 9 0.78 tanınan Adj Mod 0.1543 0 26 0.50statüsü Noun Sub 0.8189 0 10 0.70 düzenleyen Adj Mod 0.1543 0 27 0.48edinme Noun Sub 0.8189 0 11 0.64 hazırlanan Adj Mod 0.1543 0 28 0.46azınlık Noun Clas 0.8008 1 12 0.67 alınmayan Adj Mod 0.1543 0 29 0.45mülk Noun Clas 0.8008 1 13 0.69 yarattı Verb Sen 0.0486 0 30 0.43uyum Noun Clas 0.8008 0 14 0.64 sadece Adv Mod 0.0144 0 31 0.42yönetmelik Noun Clas 0.8008 1 15 0.67 ve Conj Coo 0.0000 0 32 0.41kapsamına Noun Dat 0.6451 0 16 0.63 göre Postp Mod 0.0000 0 33 0.39cemaatlerine Noun Dat 0.6451 0 17 0.59
TFxIDF ile atanan a� ırlıklar ile sözcük türü ve cümle unsuru ile
atanan a� ırlıkların, indeks terimleri, sıralama içinde kümeledikleri
yerler için, derlem genelinde Wilcoxon i � aret testi i le yapılan
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
329
kar � ıla� tırma sonuçları da, Çizelge 11.2.3.3.2.’de tablo halinde
verilmi � tir.
Çizelge 11.2.3.3.2: OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF ile sözcük türü ve cümle unsuru birlikte, yapılan a� ırlıklandırma ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
SözCüm - TFxIDF N Ortalama Toplam Z Sig(-) Sıralar 13 89.0769 1158.0000 -15.7303 0.00(+) Sıralar 342 181.3801 62032.0000E � itlik 39Toplam 394
“Sig” de� eri 0’dır, yani anlamlılı � ın 0.05 düzeyinde, sözcük türü
ve cümle unsurunun birlikte kullanılması ile TFxIDF arasında bir
farklılık bulunmu� tur. Dolayısı ile, deneysel derlemimiz için, sözcük
türü ve cümle unsurunun birlikte kullanılmasından elde edilen
enformasyon esasında bir BGG sisteminin ba� arımı ile TFxIDF
esasında bir BGG sisteminin ba� arımlarının e� it olaca� ı hipotezini
reddedebilecek kadar delil vardır, sonucuna varıyoruz. Ayrıca, pozitif
(+) guruba dahil olan sıra numaralarının mutlak de� er toplamlarının,
negatif (-) guruba dahil olan sıra numaralarının mutlak de� er
toplamından büyük olması sebebiyle, farklılı � ın, cümle unsuru lehinde
oldu� una da karar veriyoruz.
11.2.3.4 Kelime guruplarının de� erlendirilmesi
Kelime gurupları üzerine genel indeks terim da� ılımları
incelenirken belirtti � imiz gibi, kelime guruplarını, sözcük türü dizileri
olarak ele alıyoruz. Dolayısı ile, tek kelimeden olu� mu� indeks terim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
330
listesinde, a� ırlıklandırma yöntemine (Okapi, Ltu ve TFxIDF) ek
olarak kullanıyoruz. Herhangi bir yöntemle, kelime gurubunu
katı � tırmak için izlenen yol, seçilebilecek en basit yoldur. Farklı olarak,
daha karma� ık dil modelleri üzerinde, elbette çalı � ılabilir. Ancak, yalın
olarak etkiyi aramak tez kapsamımıza aldı � ımız hali ile yeterlidir.
Kelime gurupları, sözcük dizileri olarak ele alındı � ı için,
sınanacak yöntemlerde kullanılacak birlikler de uygun � ekilde
düzenlenmi � tir. Örne� in, kelime “Türkiye” ise, isim olan sözcük türü,
kelimeye kodu olan Noun eklenmi � hali i le, yani “NounTürkiye”
� eklinde de� erlendirmeye alınmı � tır. Bu 1-gram tanımıdır ve aslen
kelime gurubu ifade etmez. Kelime gurubu için, 2-gram kullanılmı � tır, yani bir önceki kelimenin sözcük türü, 1-gram ile olu� turulan birli � in
tekrar önüne eklenmi � tir. Örne� e devam edersek, diyelim ki bir önceki
kelime “büyük” , yani söz-dizisi “ büyük Türkiye” ise, sıfat olan sözcük
türü kodu Adj’de eklenerek, “AdjNounTürkiye” � eklinde bir birlik
yaratılmı � tır. Böylece, kelimenin sözcük türü olmayan yalın hali
“Türkiye” için, sadece kendisine ait sözcük türü ile “NounTürkiye”
kurulan birlik için ve bir öncesindeki kelimenin de sözcük türü
eklenmi � hali olan “AdjNounTürkiye” birli � i için geri-getirim
yöntemlerinin a� ırlıklandırma hesapları yapılmı � tır. Sözcük türü
enformasyonunun katı � tırılmasından da anla� ılaca� ı gibi, aslen bu
sınamada, derlemde bulunan birlik sayısı arttırılmı � , yani ba� lam da
hesaba katılarak yöntemlerin ba� arımları kar � ıla� tırılmı � tır. Aslen
sınadı � ımız bu yöntemin, tam bir kelime gurubu sınaması oldu� u
söylenemez, ancak kelime gurupları olu� turma u� ra� ı, maliyetli bir i �
oldu� u için, “kelime gurubunun etkisi anlamsızdır” genel kanısını
yıkmaya çalı � manın yanı sıra, yöntemin de basit olması gerekmektedir;
Dolayısı ile, bu yolla sınama yapmak her iki durumu da kolladı � ı için
makul bir seçim olarak gözükmektedir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
331
�ekil 11.2.3.4.1.’de, olu� turulan tüm birlikler için,
de� erlendirmeye alınan her geri-getirim yönteminin üstel-puanları
çizge olarak verilmi � tir.
TFxIDF TFxIDF TFxIDF
Okapi
Ltu Ltu Ltu
TF
TF TF
Okapi Okapi
1.2500
1.2550
1.2600
1.2650
1.2700
1.2750
1.2800
1.2850
1.2900
1.2950
1.3000
1.3050
TF 1.2731 1.2734 1.2762
TFxIDF 1.2959 1.2967 1.2982
Okapi 1.2763 1.2743 1.2685
Ltu 1.2908 1.2919 1.2934
Durum1 Durum2 Durum3
�ekil 11.2.3.4.1: OSTAD derleminde, kelime guruplarının geri-getirim ba� arımı
üzerine etki sınamasına ait üstel-puanlar.
�ekilde, her yöntemin, her birlik çe� idi için üstel-puanları hem
çizge olarak betimlenmi � , hem de tablo olarak listelenmi � tir. “Durum1”
sütununda, kelimenin kendisinden olu� turulan yalın � ekli için her
yöntemin üstel-puanları; “Durum2” sütununda, kelime ve kendisine ait
sözcük türü ile olu� turulan birlik için her yöntemin üstel-puanları;
“Durum3” sütununda da, kelime, kendisine ait sözcük türü ve bir
önceki kelimenin sözcük türü ile olu� turulan birlik için her yöntemin
üstel-puanları listelenmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
332
�ekilden de anla� ılabilece� i gibi, geleneksel TFxIDF
a� ırlıklandırması istatistiksel olarak, anlam düzeyi %10 (α=0.10,
p=0.08) ile, di � er yöntemlerden daha ba� arılıdır. Tüm yöntemler de,
“Durum” etkisinden ba� ımsız olarak, birbirlerinden %5 (α=0.05,
p=0.04) anlamlılık düzeyinde farklıdır (Friedman test istatisti � i).
Hiçbir yöntemin “Durum” de� i � keni üzerindeki da� ılımı, anlamlı
düzeyde bir de� i � iklik göstermemi � tir. Bir ba� ka söyleyi � le, yöntemler
kendi içinde, olu� turulan üç birlik için anlamlı düzeyde farklılık
göstermemi � tir. Ancak, çizgede ba� lam kullanıldı � ında, yani kelime
gurubunun tanımladı � ımız sözcük türü dizisi � eklindeki hali devreye
girince, yöntemlerin kendi içinde farklıla� ma e� iliminde oldu� u
söylenebilir. Friedman testi ile alınan istatistik de� erinin p de� erinin
%36 olması da, bunu desteklemektedir. Çünkü, de� er, %10 oldu� u
takdirde anlamlı bir farklılık oldu� u söylenebilecektir. �imdilik, kelime
gurupları ile ilgili kararımız “kelime guruplarının, tanımladı � ımız
� ekilde sözcük türü dizisi olarak, yani ba� lam etkisi biçiminde
kullanılması durumunda, yöntemlerin kendi içinde anlamlı düzeylerde
farklılık yaratmadı � ı hipotezini, reddedebilecek yeterli kanıtı deneysel
derlemimizden elde edemedik” � eklinde verilebilir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
333
12. SONUÇ
Bu tezin amacı, Türkçe yazılı belgeler için, bir bilgi geri-getirim
sistemlerinde dilbilgisi özelliklerini, özgün (novel) ve orijinal (original)
bir çalı � ma sayesinde kullanıma sunmak ve ba� arımda mevcudun
ötesine geçebilmektir. Özgün ile kastetti � imiz, BGG sahasında
geleneksel olarak kullanılan mevcut yöntem ve anlayı � ların, farklı
uygulama alanlarına ta� ınması, yani Türkçe üzerine çalı � mak; orijinal
ile kastetti � imizse, sahada genel geçer olan evrensel kabullenmelerin ve
bilinenlerin dı � ında yeni yöntemler ve bakı � açıları ortaya koymaktır.
Tezde, söz konusu iki vasfı kar � ılamak için, de� i � ik u� ra� sahalarının
içine giren, bir dizi ara� tırma ortaya konmu� ve hedefte olan
“ba� arımda mevcudun ötesine geçme” , hem u� ra� sahalarının kendi
içinde tam olarak, hem de bütünselli � e katkıları açısından kısmen
sınanmı � tır. Yapılan ara� tırmaların ve geli � tirilen yöntemlerin tamamı,
Türkçe odaklı oldu� undan ve uyarlama ile kullanılabildi � inden, hepsi
özgündür. Ancak, hepsi kuramsal ve fikren orijinal yanlar ta� ımalarına
ra� men, aralarında orij inallik derecelendirilebilir. Bu bölümde yapılan
çalı � maların sonuçları verilirken, orijinallik derecelerine de
de� inilecektir.
Tezin temel kapsamı, bilgi geri-getirim ve hesaplamalı dilbilim
sahalarıdır. Uygulamada Türkçe oldu� u için, Türkçe dilbilgisi de
kapsama, yan unsur olarak dahildir. Geli � tirilen yöntemler ve
ara� tırmalar istatistik/olasılık esasında oldu� undan, kapsam bu bakı �
açısına giren yöntem ve kuramlarla sınırlanmaktadır. Yönelim a� ırlık
olarak, bilgi geri-getirim sahasına do� rudur. Ancak, hesaplamalı
dilbilim sahası da, Türkçe dilbilgisi özelliklerinin kullanımı söz konusu
oldu� u için, bilgi geri-getirim sahasına uygun olarak inceltilmi � hali ile,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
334
geni � yer tutmaktadır. Tez kapsamında yapılan çalı � malar, yukarıda
belirtilen özellikleri ve özet sonuçları ile birlikte, maddeler halinde
verilmi � tir.
1. Geli � tirilen yöntemler: Tez kapsamında, u� ra� olarak hesaplamalı dilbilim sahasına giren, ancak BGG sistemlerinde kullanılmak üzere uyarlanmı � 4 de� i � ik amaca sahip yöntem geli � tirilmi � tir. Yöntemlerin tamamı, kelime da� arcı � ı (sözlük) kullanmamaktadır. Sebebi ise, hesaplamalı dilbilim sahasında genel kabullenme olan ve tez kapsamında incelenip do � ru oldu� una dair delil bulunamayan, “ do� al dillerin kelime da� arcıklarının kapalı, yani sınırlı oldu� u” hipotezidir. Yöntemler, kelime da� arcı � ının açık, yani sınırsız olaca� ı kabullenmesine uygun olarak geli � tirilmi � tir.
1.1. Türkçe yazılı belgelerin tespiti için bir yöntem önerilmi � ve deneysel olarak ba� arımı sınanmı � tır. Yöntemin orijinal yanı, kelimelerin Türkçe hecelemeye uygunlu� una dayalı olarak seçim yapmasıdır. Ayrıca, hiçbir sözlük v.b. liste kullanmamaktadır. � ngilizce ve Türkçe olmak üzere, karı � ık
� ekilde olu� turulmu� derlemlerde, hecelenme oranlarına göre yapılacak ayıklama ile, Türkçe belgelerin � ngilizce belgelerden ayırt edilebilece� i gösterilmi � tir.
1.2. Türkçe yazılı metinlerde, cümle sonunun tespiti için bir yöntem önerilmi � ve deneysel olarak ba� arımı incelenmi � tir. Yöntem istatistik/olasılık esasındadır ve orijinal yanı, Türkçe heceleme ile cümle sonu tespiti yapmasıdır. Ayrıca, hiçbir sözlük v.b. liste kullanmamaktadır. Deneysel olarak kullanılan derlem için, %96,24 ba� arım sa� lamı � tır.
1.3. Türkçe kelimeleri, gövdelemek için bir yöntem önerilmi � ve deneysel olarak ba� arımı sınanmı � tır. Yöntem istatistik/olasılık esasında kurgulanmı � tır. Türkçe harflerin çiftlerinden olu� an bir liste kullanmaktadır. Dolayısı ile, olu� an listenin boyutu sınırlıdır. Yöntem kurgu olarak tümüyle orijinaldir. Deneysel olarak ula� ılan ba� arım, %95,8’dir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
335
1.4. Türkçe kelimelerin sözcük türlerini tespit için bir yöntem önerilmi � ve deneysel olarak sınanmı � tır. Yöntem istatistik/olasılık esasına dayanmaktadır. Kurgusu gizli Markov zinciri dil modeline dayanmaktadır. Orijinal olan yanı, kelimelerin sözcük türlerini tespit ederken, kelime sonlarından alınan belirli sayıda harf dizisine göre karar vermesidir. Deneysel olarak yapılan çalı � malarda ula� ılan en iyi sonuç, %85,9’dur. Türkçe için yayınlanan en yüksek ba� arım, %93,95’dir (Hakkani-Tür ve arkada� ları, 2002). Ancak, yöntem sözlük kullanmakta ve gizli Markov zinciri dil modeline ek olarak kelimelerin biçimbirimsel analizlerine ihtiyaç duymaktadır. Önerdi � imiz yöntem, kelime da� arcı � ı açısından kapalıdır. Ayrıca, biçimbirimsel analize gereksinim duymamaktadır.
2. Genel istatistikler: Türkçe yazılı belgelerden olu� turulan derlemlerin, Zipf güç kanunları esasında uyumluluk sınamaları yapılmı � tır. Zipf güç kanunlarına uyum, BGG sistemleri için geli � tirilen yöntemlerin kuramsal tabanını olu� turmaktadır. Ayrıca, Zipf güç kanunları çerçevesinde, Türkçe derlemlerin kelime da� arcı � ının, boyut olarak incelemesi ve açık/kapalı olu� unun sınamaları da gerçekle� tirilmi � tir.
2.1. Ara� tırma kapsamına alınan her derlem için gövde esasında ve kelime esasında tanımlayıcı istatistikler yapılmı � tır.
2.2. Her derlem için Zipf ve Mandelbrot ifadelerine uyum sınamaları, hem gövde esasında hem de kelime esasında yapılmı � tır. Sınamalar sonucunda, Türkçe için W=1000 parametre de� eri olan Mandelbrot ifadesi en iyi uyumu göstermi � tir. � ngilizce için yapılan aynı çalı � mada, Mandelbrot ifadesi ile en iyi uyum sa� lanmı � , ancak W parametresi 100 de� erinde kalmı � tır. Mandelbrot, W parametresinin dilin kelime biçimi olarak zenginli � ini ölçeklendirdi � ini belirtmektedir, dolayısı ile Türkçe, � ngilizce’den, kelime biçimi olarak daha zengin çıkmı � tır (eklemeli dil olarak, Türkçe için beklenen bir sonuçtur).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
336
2.3. Türkçe için, kelime da� arcı � ının yapılan incelemelerinde, boyut olarak, derlem boyutu arttıkça sınırsız � ekilde artaca� ı, yani açık oldu� u, hipotezini çürütecek bir delili elimizdeki derlemlerden elde edilememi � tir. Deneysel sınamalarımıza esas te� kil eden ölçüt olarak, Zipf birinci kanun ifadesindeki do� rusal uyumun e� imi kullanılmı � tır. Kelime da� arcı � ının açık oldu� unu reddedebilmek için, deneysel olarak Zipf birinci kanun ifadesindeki e� imin, 1’den küçük olması gerekmektedir, ancak, hiçbir sınamada e� im 1’den küçük çıkmamı � tır. Alınan bu sonuç, hesaplamalı dilbilim sahasında genel kabulün tersidir. Genel kabul: “ do� al diller için kelime da� arcı � ının, derlem boyutu sonsuza giderken kapalı oldu� u, yani sabit bir sayıya yakınsayaca� ıdır” . Oysa, deneysel sınamalarımızda, böyle yakınsanacak sabit bir sayının oldu� una dair delil bulunamamı � tır.
2.4. Türkçe için, kelime da� arcı � ının, derlem boyutu ile üstel bir i li � ki ile büyüme gerçekle� tirdi � i kabul edildi � inde, kelime
da� arcı � ının boyutunu hesaplamak için kullanılabilecek, ρN ifadesindeki katsayısı olarak: gövdeler için 0.4441≈gρ ,
kelimeler için 0.7821≈ρ bulunmu � tur. � fadede, N derlem boyutunu temsil etmektedir.
2.5. Türkçe derlemlerin, kelime da� arcıklarının içerdi � i kelime biçimlerinin, derlem içinde gözlenme sıklıklarına göre incelemeleri de yapılmı � tır. Bu kapsamda, derlem içinde bir kez gözlenen (hapaks kelimeler), iki kere gözlenen, üç kere gözlenen v.b. dü� ük frekanslı kelimeler detaylı olarak incelenmi � , kelime da� arcı � ını olu� turan kelime biçimlerinin oran olarak tahlilleri yapılmı � tır. Kelime da� arcı � ı içinde, bir kez gözlenen kelimelerin, sayıca oranının: kelime esasında yakla� ık %50, iki kere gözlenen kelime biçimleri de eklendi � inde oranın %65’e ula� tı � ı; gövde esasında bir kez gözlenenlerin yakla� ık %36,5, iki kere gözlenen gövde biçimleri de eklenince oranın %50’ye ula� tı � ı tespit edilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
337
2.6. Kelime da� arcı � ı kapsamında, Zipf ikinci kanunu ele alınmı � ve kelime da� arcı � ını olu� turan farklı kelime biçimlerinin, derlemde gözlenme sıklıkları ile orantılı olarak, kelime da� arcı � ındaki oranlarını hesaplamak için biçimsel ifadeler olu� turulmu� tur. Kelime biçimlerinin farklı derlem boyutları için, önerilen ifadelerle tahmin edilen de� erleri i le gerçekle� en de� erleri kar � ıla� tırmalı olarak verilmi � tir.
2.7. BGG sistemleri açısından önemli bir konu olan, metin içinde i � lev ve içerik olan kelimelerin, birbirlerinden ayırt edilmesi için, Zipf güç kanunları esasında frekansa dayalı bir yöntem hem gövdeler hem de kelimeler için sınanmı � ve sonuçları incelenmi � tir. BGG sistemlerinde, sayısal belge temsili için, metinlerde yer alan kelimelerin, içeri � e katkıları bulunanları seçilmektedir. Bu içeri � e katkıda bulunan kelimelere indeks terimler adı verilmekte; belgeler indeks terimlerin bir listesi
� eklinde temsil edilmektedir. � ncelemede, içerik kelime olarak ele alınan yazım birlikleri, indeks terimler olmaktadır.
3. Dilbilgisi özelliklerinin BGG sistemlerinde kullanımı: Tez hedefimizin ana çalı � ması, bu kapsam içinde gerçekle� mi � tir. Dilbilgisi özelli � i olarak: sözcük türlerinin (isim, fiil, sıfat v.b.), cümle unsurlarının (fiil, fail/özne, nesne v.b.) ve kelime guruplarının BGG sistemlerinin ba� arımları üzerindeki etkileri sınanmı � tır.
3.1. Sözcük türlerinin, cümle unsurlarının ve sözcük türü ile cümle unsurları birlikte kullanılarak, elle i � aretlenmi � indeks terimler üzerindeki olasılık da� ılımları çıkartılmı � tır. Kelime guruplarının indeks terimler üzerindeki da� ılımı da ayrıca verilmi � tir.
3.2. � ngilizce derlemlerde en yüksek ba� arım de� erlerine sahip olan TFxIDF, Okapi ve Ltu geri-getirim yöntemleri, Türkçe için, ba� arım açısından sınanmı � ve TFxIDF yönteminin, OSTAD derlemi üzerinde en iyi sonucu verdi � i tespit edilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
338
3.3. OSTAD derleminin seçilen kısmı için, sözcük türlerinin indeks terimler üzerindeki olasılık da� ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba� arımdan anlamlı düzeyde farklılık sa� landı � ı, tespit edilmi � tir. Sözcük türleri içinde özel isimler, ayrı olarak ele alınmı � ve kullanılmı � tır.
3.4. OSTAD derleminin seçilen kısmı için, cümle unsurlarının indeks terimler üzerindeki olasılık da� ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba� arımdan anlamlı düzeyde farklılık sa� landı � ı, tespit edilmi � tir.
3.5. OSTAD derleminin seçilen kısmı için, sözcük türlerinin ve cümle unsurlarının, indeks terimler üzerindeki birle� ik olasılık da� ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba� arımdan anlamlı düzeyde farklılık sa� landı � ı, tespit edilmi � tir.
3.6. OSTAD derleminin seçilen kısmı için, kelime gurubu olarak sadece 2 kelimeden olu� anlar üzerinde bir inceleme yapılmı � tır. �ncelemede, kelime gurupları, harf birlikleri dizisi olarak ele
alınmamı � , harf birliklerine kar � ılık gelen sözcük türleri de� erlendirilmi � tir. Bu sayede, kelime gurubunun, sözcük türleri üzerinden, yalın � ekilde ba� lam enformasyonu ile temsili sa� lanmı � tır. Deneysel sınanmalar için, sözcük türleri, kelimelerin önlerine basitçe eklenmi � ve frekanslar yeni birlikler için tekrar olu� turulmu� tur. Olu� turulan yeni birlikler için TFxIDF, Okapi ve Ltu geri-getirim yöntemleri ile a� ırlıklar hesaplanmı � tır. Sınama sonucunda, üç geri-getirim yönteminin de, aynı ba� arıma sahip oldu� u hipotezini çürütecek, delil bulunamamı � tır.
Tez kapsamında yapılan çalı � malardan çıkan özet sonuçlar
� öyledir: 1-) Hesaplamalı dilbilim sahasında genel kanı olan kapalı,
yani boyut olarak sınırlı kelime da� arcı � ını destekleyecek delil Türkçe
için derlemlerimizde bulunamamı � tır. 2-) Hesaplamalı dilbilim
yöntemlerinde, genel kurgu içinde sözlük kullanımı gerektiren u� ra� ları
için, Türkçe’nin kendine özgü kuralları sayesinde, sözlük kullanmaya
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
339
ihtiyaç duymayacak e� leniklerinin yapılabilece� i gösterilmi � tir. 3-)
BGG sahasında, yaygın kanı olan, dilbilgisi özelliklerinin geri-getirim
ba� arımına anlamlı katkısı olmadı � ına dair görü� ün aksi yönünde,
OSTAD derlemi üzerinde yapılan çalı � malarla delil verilmi � tir. Sözcük
türü ve cümle unsuru enformasyonunun, indeks terimler üzerindeki
olasılık da� ılımı ile, ba� arımda anlamlı farklılık yaratıldı � ı tespit
edilmi � tir. 4-) Zipf güç kanunları esasında, Türkçe derlemlerin çe� itli da� ılım özellikleri belirlenmi � , kelime da� arcıklarının kapalı/açık olu� u
konusu irdelenmi � ve hem kelime da� arcı � ı boyutu için hem de kelime
biçimlerinin da� arcık içindeki sayılarını tahmin için derlemde
gözlenme sıklıklarını esas alan, hesaplama ifadeleri verilmi � tir.
Listelenen lehte çalı � maların yanı sıra, Türkçe kelimelerin sözcük
türleri için önerilen yöntem, kabul edilebilir ba� arım sınırları (%90-
%95) içinde de� ildir. Ancak, yöntemin verilen hali ile dahi, önerimin
olabilirli � i için yeterli kanıt oldu� u ve üzerinde daha fazla çalı � ma
yapılması gerekli � ine inanıyoruz. Kelime gurupları ile yapılan
çalı � mada aynı � ekilde, olumsuz sonuç vermi � tir. Bu konuda da,
ara� tırmanın derinle� tirilerek yapılması ile müspet sonuçlara
çıkılabilece� i konusunda, zayıfta olsa delillerimiz mevcuttur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
340
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
341
13. GEL ����� M NOKTALARI VE TARTI � MA
Bu tezin hedefi olan BGG sistemlerinde dilbilim özelliklerinin
(sözcük türü ve cümle unsuru) kullanımı ile geri-getirim ba� arımının
anlamlı düzeyde arttırılması Türkçe için ba� arılmı � tır. Aynı ba� lamda,
Türkçe ile yapısal olarak benzerlik gösteren di � er diller için, örne� in
Fince veya Macarca’da da aynı ba� arımların sa� lanabilece� i güdüsü ile
ara� tırma yoluna gidilebilir. Ayrıca, kelime guruplarında istatistiksel
olarak anlamlı bir ba� arım artı � ı olmadı � ı sonucuna çıkmamıza ra� men,
kelime guruplarının önerdi � imiz � ekli ile ele alınmasının dı � ında, ba� ka
kurgularla ba� arım artı � ı sa� lanaca� ı dü� ünülmektedir.
Hesaplamalı dilbilim sahasındaki u� ra� konularının içerisinde,
önerdi � imiz dört yöntemden biri olan, sözcük türü tespiti için ba� arım
kabul edilebilir düzeylerde gerçekle� memi � tir. Elde etti � imiz %85
ba� arımın ba� lam kullanımı ile elde edilmesi, yakla� ımın tartı � ılabilir
oldu� unu ancak geli � tirilmesi gereklili � ini ortaya koymaktadır. Geli � im
için iki yön önerilmektedir: 1-) Kullanılan olasılık yumu� atma yöntemi
olan Kneser ve Ney metodunun Türkçe için yeniden uyarlanması
ve/veya yeni bir yumu� atma yöntemi geli � tirmek; 2-) Sondan alınan
birlikler üzerinde dilbilgisi kurallarına dayalı bir düzenleme yapılması
(örne� in, “ ?dır, ?dir, ?dur, ?dür” gibi dört farklı birli � in tek bir üst
birlikte toplanması), yani sondan alınan birliklerin da� ılımlarının,
deneysel olasılıklarına, daha do� rusu gerçek olasılıklarına
yakınsamasının dilbilimsel özellikler ile desteklenmesi.
Dilbilimsel özellikler ile izah edilen de� i � imin, BGG ba� arımı
açısından anlamlı olup olmadı � ı, kullanılıp kullanılmaması gereklili � i, uygulamalar açısından tam çözümlenmemi � bir meseledir. Örne� in bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
342
geri-getirim yöntemi içerisinde, söz gelimi vektör uzayı modelinde, bir
vektör (frekans de� i � imi), di � er vektörün (dilbilgisi özellikleri ile tespit
edilen de� i � im) tam ters yönünde meydana gelebilir ve sonuç olarak
uygulamada da çok büyük bir ba� arım dü� ü� üne sebep olabilir. Söz
konusu durum istatistiksel olarak tespit edilebilir bir konudur. Örne� in,
dilbilgisi özellikleri ve bilinen tüm yöntemler birer de� i � ken olarak
kabul edilip, toplam de� i � ime katkıları açısından do � rusal regrasyon
yöntemi ile bütün olarak de� erlendirilebilir, yani bireysel olarak tüm
de� i � kenlerin kar � ılıklı etkile� imleri ve uygulamada toplam ba� arıma
katkıları ölçülebilir.
Zipf kanunları çerçevesinde yazılı Türkçe için yapılan tanımlayıcı
istatistikler, Türkçe’de gövdelerin bugün mevcut olan kuramlar
esasında, � ngilizce gibi analitik diller için geli � tirilen geri-getirim
yöntemlerine daha uygun oldu� unu göstermi � tir. Dolayısı ile, Türkçe
için bilgi geri-getirim sistemlerinin tasarımlarında iki seçenek ortaya
çıkmaktadır: 1-) E� er analitik diller için geli � tirilen yöntemler
kullanılacaksa, Türkçe için kelimelerin yazılı � ekli yerine, gövdelerin
kullanılması, 2-) Kelimeler kullanılacaksa, geri-getirim yöntemlerinin
Türkçe kelimelerin, Zipf kanunları çerçevesinde bu tezde de incelenen
da� ılımları göz önüne alınarak uyarlanması. Dilbilgisi özelliklerinin,
kelimeler esasında geri-getirim ba� arımını arttırdı � ı bu tez ile
gösterilmi � tir. Ancak, gövdeler esasında bir inceleme yapılmamı � tır. Aynı zamanda, yaptı � ımız çalı � mada dilbilgisi özellikleri, geleneksel
yöntemlerle yer de� i � tirilerek, yani geleneksel yöntemlerin yerine
kullanılmı � tır. Dilbilgisi özellikleri ve geleneksel yöntemlerin bir
melezi olu� turularak ba� arımların sınanması da mümkündür.
Tüm çalı � malarımızın ı � ı � ı altında, Türkçe için daha çok çalı � ma
yapılmasının gerekli oldu� unu belirtmemiz gerekir. Örne� in, yazılı
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
343
Türkçe için tek biçimbirimsel analiz kurgusu ve uygulaması olan,
Kemal Oflazer tarafından geli � tirilen biçimbirim analizcisi dı � ında da
çalı � malara ihtiyaç vardır. Her dilbilim uygulaması kendine has
özellikler ve � artlar ortaya koymaktadır, tekbir yöntemin tüm ihtiyaçları
kar � ılaması beklenemez. Dolayısı ile, genelde her uygulamaya
uyarlanabilir soyut bir kurguya sahip, özelde de bilgi geri-getirim
sahasına uygun bir biçimbirim analiz yönteminin geli � tirilmesi
gerekmektedir. Hesaplamalı dilbilim sahası içerisinde geli � tirdi � imiz,
gövdeleme ve sözcük türü tespit yöntemleri biçimbirim analizine
gereksinim duymayacak � ekilde tasarlanmı � tır. Bunun bir sebebi
mevcut biçimbirim analizinin bilgi geri-getirim için çok pahalı
olmasıdır. Ancak biçimbirim analizi, bütünsel dilbilim analizleri için ön
� arttır; her zaman, bu tezde gerçekle� tirdi � imiz � ekilde, dilbilgisi
özelliklerinin tek ba� ına ve ba� ımsız belirlenmesi uygun olmayabilir.
Bu çalı � manın Türkçe üzerine yaptı � ımız, yapaca� ımız ve
yapılacak ara� tırma çalı � maları için topluca bir de� erlendirme, genel
üzerinden bir güdüleme sa� layaca� ı ümit edilmektedir. Dünyanın
mevcut gidi � atı do � rultusunda, sayısal ortamda yeterince temsil
edilmeyen, daha do� rusu hesaplamalı yöntemler açısından yeterince
geli � tirilmeyen ve üzerinde çalı � ılmayan dillerin, gelecekte yok olaca� ı
görü� ündeyiz. Çünkü, bir dili canlı ve ileti � imde kullanı � lı yapan � ey,
ki � iler arasında iletilmek istenen enformasyonu, temsil etmedeki gücü
ve söz konusu dil üzerinden ileti � im kuran ki � ilerin sayıca çoklu� udur.
Gelece� in küresel ileti � im aracı, � nternet veya bir türevi olacaktır.
Ancak, kesin olan � udur ki, alt yapısı hesaplama temelinde kalacaktır.
Dolayısı ile, Türkçe’nin sayısal ortamda, hesaplama yönünden eksiksiz
temsili çok önemlidir. Bu yönde yapılacak her çalı � manın, bizi bir adım
daha gelece� e ta� ıdı � ı unutulmamalıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
344
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
345
TÜRKÇE- � NG � L � ZCE TER � MLER SÖZLÜ � Ü
Terim � ngilizce Kar � ılı � ı
Anlam Semantic
Bakı � -açısal Pragmatic
Belge (Doküman) Document
Belge Özetleme Document Summerization
Biçim-bilim Morphology
Bilgi Knowledge
Bilgi/Haber Geri-Getirim Information Retrieval
Derlem Corpus
Dil Modeli Language Model
Dilbilim Linguistics
Dura� an Stationary
Düzenli deyim Regular Expression
Düzenli deyim dilbilgisi Regular Expression Grammar
Düzensizlik/belirsizlik (Çeli � ki) Entropy
Enformasyon Özümseme Information Extraction
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
346
En-yüksek Düzensizlik Maximum Entropy
Ergodik Ergodic
E� -anlamlılar Sözlü� ü Thesaurus
E� siz Sayılara Ayrı � tırma Singular Value Decomposition
Gizli Anlam � ndeksleme Latent Semantic Indexing
Gövdeleme Stemming
Göz-atma Browse
Haber (enformasyon) Information
Hesaplamalı Dilbilim Computational Linguistics
� ndeks Terimler Index Terms
� stikrarsızlık (Karı � ıklık/ � a� kınlık) Perplexity
Karar A � acı Esaslı Sınıflandırıcı Decision Tree Classifier
Kar � ılıklı Mutual
Kelime Da� arcı � ı Vocabulary
Konu� ma-algılama Speech Recognition
Konu� ma-harmanlama Speech Synthesis
Kümeleme Clustering
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
347
Kural Tabanlı/Esaslı Rule Based
Makine Çevirisi Machine Translation
Makine Ö� renimi Machine Learning
Melez Hybrid
Metin Hizalama Text Alignment
Öz (Özgül, özgün) Self
Saklı Markov Modeli Hidden Markov Model (HMM)
Saklı Markov Zinciri Hidden Markov Chain
Sayısal/Mantıksal Belge Görüntüsü Document Logical View
Ses-bilim Phonology
Seyrek veri Sparse Data
Silsile Stochastic
Simge/Birlik Token
Simgele� tirme/Birle� tirme Tokenization
Sinir A � ı (Yapay Sinir A � ı) Neural Network
Sistem (Dizge) System
Sonlu Durum Makinesi Finite State Machine
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
348
Sonuç-çıkarma a� ı Inference Network
Sorgu Geni � letme Query Expansion
Söylev Discourse
Sözcük/kelime türü Part-of-Speech (POS)
Sözcük/kelime türü i � aretleme Part-of-Speech Tagging
Sözdizimsel Çözümleme Syntactic Parsing
Sözlük-bilim Lexicology
Ta� ma Burstness
Temel Bile� en � ncelemesi Principle Component Analysis
Vekil yazılım Software Agent
Veri Data
Yayılım Çizimi Scatter Plot
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
349
KAYNAKLAR
Allan, J. (editor), Aslam, J, Belkin, N., Buckley, C., Callan, J., Croft, B. (editor), Dumais, S., Fuhr, N., Harman, D., Harper , D.J., Hiemstra, D., Hofmann, T., Hovy, E., Kraaij , W., Laffer ty, J., Lavrenko, V., Lewis, D., L iddy, L., Manmatha, R., McCallum, A., Ponte, J., Prager, J, Radev, R., Resnik, P., Robertson, S., Rosenfeld, R., Roukos, S., Sanderson, M., Schwartz, R., Singhal, A., Smeaton, A., Turt le, H., Voorhees, E., Weischedel, R., Xu, J., Zhai, C., 2003, Challenges in Information Retrieval and Language Modeling, SIGIR Forum 37(1).
Aberdeen, J., Burger , J., Day, D., Hirschman, L., Robinson, P. and Vilain, M ., 1995, Mitre: Description of the alembic system used for muc-6, In The Proceedings of the Sixth Message Under-standing Conference (MUC-6), Columbia, Maryland. Morgan Kaufmann.
Aduriz, I . Alegr ia, J.M. Ar r iola, X. Artola, A. Diaz de I llarraza, N. Goj enola, E.K. and Maritxalar . M ., 1995, Different issues in design of a lemmatizer/tagger for Basque. In SIGDAT-95 (EACL-95 workshop).
Atalay, N.B., Oflazer , K . and Say, B., 2003, The annotation process in the Turkish Treebank, in Proceedings of the EACL Workshop on Linguistically Interpreted Corpora - LINC, Budapest, Hungary.
Baayen, R.H., 1996, The effect of lexical specialization on the growth curve of the vocabulary. Computational Lingusitics, 22, pp.455-480.
Baayen, R.H., 2001, Word patterns and story shapes: the statistical analysis of narrative style. Literary and Linguistic Computing 2, pp.61-70.
Baeza-Yates, R. and Ribeiro-Neto, B., 1999, Modern Information Retrieval. 2nd edn. Addison-Wesley, England.
Barton, G. E., 1986, Computational complexity in two-level morphology. In ACL Proceedings, 24th Annual Meeting.
Baker, J. K ., 1975, Stochastic modeling for automatic speech understanding. In D. Raj Reddy (eds.), Speech Recognition: Invited papers presented at the 1974 IEEE symposium, New York: Academic Press. Reprinted in (Waibel and Lee 1990), pp.297-307.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
350
Berghel, H., 1997, Cyberspace 2000: Dealing with Information Overload, Communications of the ACM, 40(2): 19–24.
Bir türk, A., 1998, Türkçenin yönetim ve ba� lama kuramı yakla� ımı ile bilgisayarla çözümlenmesi. Doktora. Orta Do� u Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 168 sayfa.
Blair D.C., 1990, Language Representation in Information Retrieval, Elsevier, Amsterdam.
Borko, H. and Bernier , L.B., 1978, Indexing concepts and methods,. Academic Press Inc., New York.
Brants, T. and Samuelsson, C., 1995, Tagging the Teleman Corpus, In Proceedings of the tenth Nordic Conference of Computational Linguistics.
Brants, T., 2000, TnT - a statistical part-of-speech tagger, In Proceedings of the 6th Applied NLP Conference, ANLP-2000, Seattle, WA.
Br ill, E., 1995a, Transformation-based error driven learning and natural language processing: A case study in part of speech tagging. Computational Linguistics, 21(4):543-566.
Brill, E., 1995b Unsupervised learning of disambiguation rules for part of speech tagging. In Proceedings of the Third Workshop on Very Large Corpora, Cambridge, MA.
Brin S. and Page, L, 1998, The anatomy of a large-scale hypertextual web search engine - Google Search Engine, avalible at (2004): http://dbpubs.stanford.edu:8090.
Broglio J., Callan J.P. and Croft W.B., 1994, INQUERY system overview. In Proceedings of the TIPSTER Text Program (Phase I). San Francisco, CA Morgan Kaufmann, pp 47-67.
Buckland, M., 1991, Information and Information Systems, Greenwood Press, Westport, USA.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
351
Buckley, C., Salton, G., Allen, J. and Singhal., A., 1995, Automatic query expansion using SMART: TREC-3. In Harman, Donna K. (editor). Overview of the Third Text REtrieval Conference (TREC-3). NIST Special Publication 500-225, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.69-80.
Buckley, C., Singhal, A. and Mitra, M., 1996, New retrieval approaches using SMART. In D.K. Harman, editor, Proceedings of the Fourth Text Retrieval Conference (TREC-4), Gaithersburg.
Burgin, R. and Dillion, M., 1992, Improving disambiguation in FASIT, Journal of the American Society for Information Science.
Callan, J.P., Croft. W.B. and Harding., S.M., 1992, The INQUERY retrieval system, in Database and Expert Systems Applications: Proceedings of the International Conference, Valencia Spain, pp. 78-83.
Chanod, J.P. and Tapanainen, P., 1995, Tagging French –comparing a statistical and constrained-based method. In EACL-95.
Chen, S.F. and Goodman, J., 1998, An empirical study of smoothing techniques for language modeling. Technical Report, TR-10-98, Center for Research in Computing Technology, Harvard University, Cambridge, Massachusetts.
Chomsky, N., 1957, Syntactic Structures. The Hague: Mouton.
Church, K .W., 1988, A stochastic parts program and a noun phrase parser for unrestricted text, In Proceedings of the Second Conference on Applied Natural Language Processing, Austin, Texas.
Cleveland, D.B. and Cleveland, A.D., 1983, Introduction to Indexing and Abstracting, Libraries Unlimited, Inc., Littleton, Colorado.
Cole, R (chief ed.), Mar iani, J., Uszkoreit, H., Mar ile, G.B. (man. ed.), Zaanen, A., Zampolli, A. (man. ed.), and Zue, V., 1997, State of the Art of the Human Language Technologies, Cambridge University Press and Giardini, UK.
Cover, T.M. and Thomas, J.A., 1991, Elements of Information Theory, John Wiley & Sons, New York.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
352
Craven, T., 2002, Introduction to Information Retrieval, Lecture Notes, MIT, USA, (unpublished) URL: http://instruct.uwo.ca/mit/026-98/index.htm
Croft, W.B., Turtle, H.R. and Lewis, D.D., 1991, The uses of phrases and structured queries in information retrieval, Proceedings of the 14th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 32-45.
Cussens, J., Dzeroski, S. and Er javec, T., 1999, Morphosyntactic tagging of Slovene using Progol, In Dzeroski, S., & Flach, P. (Eds.), Inductive Logic Programming: Proc. of the 9th International Workshop (ILP-99) Bled, Slovenia, Springer-Verlag.
Dalkılıç, M.E. and Dalkılıç, G., 2001, Some measurable language characteristics of printed Turkish, Proc. of the XVI International Symposium on Computer and Inf. Sciences, pp. 217-224.
Demir, C., 1993, Türkçe için bir ATN grameri. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 1993, 94s.
Derouault, A.M. and Mer ialdo, B., 1986, Natural language modeling for phoneme-to-text transcriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence (8), pp.649-742.
Dermatas, E. and Kokkinakis, G., 1995, Automatic stochastic tagging of natural language texts. Computational Linguistics, 21(2):137-164
DeRose, S., 1988, Grammatical category disambiguation by statistical optimization, Computational Linguistics, 14(1).
Ekmekçioglu, F. Ç., Lynch, M. F. and Willett, P., 1996, Stemming and n-gram matching for term conflation in Turkish texts, Information Research, 1(1) Available at: http://informationr.net/ir/2-2/paper13.html
Ergin, M., 1999, Türk Dil Bilgisi, Bayrak Yayın/Da� ıtım, Fatih, � stanbul.
Evans, D. and Leffer ts, R., 1994, Design and evaluation of the CLARIT-TREC-2 system, In Harman, D., editor, National Institute of Standards and Technology Special Publication No. 500-215 on the The Second TextREtrieval Conference (TREC-2), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
353
Feldweg, H., 1995, Implementation and evaluation of a German HMM for POS disambiguation. In EACL SIGDAT Workshop.
Faloutsos, C. and Oard, D.W., 1995, A survey of information retrieval and filtering methods, Technical Report CS-TR-3514, University of Maryland, College Park, MD.
Foskett, A.C., 1996, The Subject Approach to Information, Fifth Edition, Library Association Publishing Ltd., London, U.K.
Garside, R., 1987a, The CLAWS word-tagging system. In Garside R., Leech, F., and Sampson, G., editors, The Computational Analysis of English. Longman.
Garside, R. and Leech, F., 1987b, The UCREL probabilistic parsing system. In Roger Garside, Geoffrey Leech, and Geoffrey Sampson (eds.), The Computational Analysis of English: A Corpus-Based Approach, Longman, London, 66-81.
Good, I .J., 1953, The population frequencies of species and the estimation of population parameters. Biometrica, 40(3 and 4), pp. 237-264.
Greene, B.B. and Rubin, M. G., 1971, Automated grammatical tagging of English. Department of Linguistics, Brown University.
Güngördü, Z., 1993, Türkçe için bir sözcüksel-i � levsel gramer. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 138 sayfa.
Haj i � , J. and Hladká, B., 1998, Tagging inflective languages: Prediction of morphological categories for rich, structured tag set. In Proceedings of COLLING/ACL’98, Montreal, Canada.
Hakkani, D.Z., 1996, Serbest ö� e sıralı bir dil olan Türkçe için yüzeysel üretici tasarımı ve gerçekle� tirilmesi. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 135 sayfa.
Hakkani-Tür , D.Z., Oflazer, K . and Tür, G., 2002, Statistical morphological disambiguation for agglutinative languages, Computers and the Humanities.
Hankamer, J., 1984, Turkish generative morphology and morphological parsing, In Second International Conference on Turkish Linguistics. Istanbul.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
354
Herdan, G., 1960, Type-token mathematics. The Hague: Mouton.
Hersch, W.R., Elliot, D.L ., Hickam, D.H., Wolf, S.L., Molnar, A. and Lechtenstien, C., 1995, Towards new measures of information retrieval evaluation, Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 164-170.
Hiemstra, D. and de Jong, F., 2001, Statistical language models and information retrieval: natural language processing really meets retrieval, Glot International 5(8), 288-294.
Hull D., 1996, Stemming Algorithms: A Case Study for Detailed Evaluation, Journal of theAmerican Society for Information Science, Vol 47(1): 70-84pp.
Hull, D.A., Grefenstette, G., Schulze, G.M., Gaussier , E., Schutze, H. and Pedersen, J.O., 1997, Xerox TREC-5 Site Report: Routing, Filtering, NLP, and Spanish Tracks. In Voorhees EllenM. and Donna K. Harman (editors). The Fifth Text Retrieval Conference (TREC-5). NIST Special Publication 500-238, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp. 167-180.
Ingwersen, P., 1992, Information Retrieval Interaction. Taylor Graham Publishing, London.
Jacobs, P., 1994, GE in TREC-2: Results of a Boolean approximation method for routing and retrieval, In Harman, D., editor, National Institute of Standards and Technology Special Publication No. 500-215 on the The Second Text REtrieval Conference (TREC-2), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
Jacqemin, C. and Royaute, J., 1994, Retrieving terms and their variants in a lexicalized unification-based framework, Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 132-141.
Jain, S. and Sharma, A., 1993, Probability is more powerful than team for language identification from positive data, Proceedings of the sixth annual conference on Computational learning theory, ACM Press, Santa Cruz, California, pp.192-198.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
355
Jain, S. and Sharma, A., 1994, On the intrinsic complexity of language identification, Proceedings of the seventh annual conference on Computational learning theory, ACM Press, New Brunswick, New Jersey, pp. 278-286.
Jelenic, F. and Mercer , R., 1980, Interpolated estimation of Markov source parameters from sparse data. In Proceedings of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands: North-Holland.
Jelenik, F., 1985, Markov source modeling of text generation. In J.K. Skwirzynski (eds.), The Impact of Processing Techniques on Communications, volume E91 of NATO ASI series, Dordrecht: M. Nijhoff, pp.569-598.
Jin, R., Faloutsos, C. and Hauptmann, A.G., 2001, Meta-Scoring: Automatically evaluating term weighting schemes in IR without Precision-Recall, In Proceedings of the 24th ACM SIGIR Conference on Research and Development in Information Retrieval, New Orleans, Louisiana.
Jones, K .S. and Kay, M., 1973, Linguistics and Information Science, Academic Press, New York.
Jones, K .S. and Kay, M., 1976, Linguistics and Information Science: A Postscript, In Donald E. Walker, Hans Karlgren, and Martin Kay (eds.) Natural Language in Information Retrieval – Perspectives and Directives for Research, Skriptor, Stocholm.
Jones, K .S., 1999, What is the Role of NLP in Text Retrieval, In Tomek Strzalkowski (ed.), Natural Language Information Retrieval, Kluwer, Boston.
Jurafsky D. and Martin J. M., 2000, Speech and Language Processing. Prentice-Hall, New Jersey USA.
Karlgren, J., 2000, The basics of information retrieval. Swedish institute of Computer Science, Survey, SICS, 49p, (unpublished).
Katz, S.M., 1987, Estimation of probabilities from sparse data for the language model component of a speech recognizer. IEEE Transactions on Acoustic, Speech and Signal Processing, ASSP-35(3), pp. 400-401.
Kenser , R. and Ney, H., 1995, Improved backing-off for m-gram language modeling. In Proceedings of IEEE International Conference on Acoustic, Speech and Signal Processing, volume 1, pp.181-184.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
356
Klein, S. and Simpson, R. A., 1963 Computational approach to grammatical coding of English words. JACM (10):344-337.
Kochen, M., 1983, Library science and information science. Broad or narrow? In Machlup, Fritz and Una Mansfield (editors), The Study of Information. John Wiley & Sons, Inc., New York, pp.371-377.
Korfhage R.R., 1997, Information Storage and Retrieval, Wiley, New York, NY.
Korkmaz, T., 1996, Sistemik-fonksiyonel gramer yakla� ımı ile türkçe metin üretimi. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 132 sayfa.
Kornai, A., 2002, How many words are there?, Glottometrics (4), pp.61-86.
Koskenniemi, K ., 1983, Two-level morphology: a general computational model for word-form recognition and production. In, Publications of the Department of General Linguistics, Vol.11. University of Helsinki, Helsinki .
Köksal A., 1979, Bilgi Eri � im Sorunu ve Bir Belge Dizinleme ve Er � im Dizgesi Tasarım ve Gerçekle� tirimi, Fen Bilimleri Enstitüsü, Bilgisayar Bilimleri Mühendisli � i Anabilim Dalı Doçentlik Tezi, Hacettepe Üniversitesi, Ankara.
Krovetz R., 1993, Viewing Morphology as an Inference Process, Proceeding 16th International Conference Research and Development in Information Retrieval, ACM, pp. 191-202.
Kupiec, J., 1992, Robust part-of-speech tagging using hidden markov models. Computer Speech and Language, pp.252-242.
Kupiek, J. M ., 1993, A robust linguistic approach for question answering using an on-line encyclopedia, Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 181-190.
Kut, A., Alpkoçak, A. and Özkarahan, E., 1995, Bilgi bulma sistemleri için otomatik Türkçe dizinleme yöntemi. Bili � im Bildirileri, Dokuz Eylül Üniversitesi, � zmir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
357
Lahtinen, T., 2000, Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods. Phd Thesis, Department of General Linguistics, University of Helsinki, Finland, ISBN 951-45-9639-0.
Lancester, F.W., 1968, Information Retrieval Systems: Characteristics, Testing and Evaluation, Wiley Ltd., New York.
Lancaster , F.W., 1991, Indexing and abstracting in theory and in practice. Library Association Publishing Ltd., London.
Levinger, M., Ornan U. and I tai, A., 1995 Learning morpho-lexical probabilities from an untagged corpus with and application to Hebrew, Computational Linguistics, 21(3):383-404.
Lewis, D.D., 1992, An evaluation of phrasal and clustered representations on a text categorization task, Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 37-50.
Lewis, D.D. and Spark-Jones, K ., 1996, Natural language processing for information retrieval, Communications of the ACM, Vol. 39, No. 1, pp. 92-101.
Lextek International Inc., 2004, Language Identifier, 1051 E. Fir Ave Provo, UT 84604 USA Tel: 801.375.8332. URL: http://www.languageidentifier.com/
Losee, R. M., 1996, How part-of-speech tags affect text retrieval and filtering performance, Computational Linguistics.
Lovins, J.B., 1968, Developing of a Stemming Algorithm. In: Mechanical Translation and Computational Linguistics, Vol. 11, pp22-31.
Liddy, E.D. and Myaeng, S.H., 1993, DR-LINK: A system update for TREC-2, In Merchant, R., (ed.), Proceedings of the TIPSTER Text Program Phase I, San Mateo, California. Morgan Kaufmann.
Liddy, E.D., 1998, Enhanced text retrieval using natural language processing, Bulletin of the American Society for Information Science, 24(4).
Lidstone, G.J., 1920, Note on the general case of the Bayes-Laplace formula for inductive or a posteriori probabilities. Transactions of the Faculty of Actuaries, 8, pp. 182-192.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
358
Lins, D.R and Gonçalves, P, 2004, Automatic language identification of written texts, Proceedings of the 2004 ACM symposium on Applied computing, pp. 1128-1133.
Luhn, H.P., 1958, The automatic creation of literature abstracts. IBM Journal of Research and Development, 2, pp.159-165.
Luhn, H.P., 1960, Keyword-in-context index for technical literature (KWIC index), American Documentation 11:288-295.
Lyons, J., 1968, Introduction to Theoretical Linguistics, Cambridge University Press, Cambridge, Great Britain.
Lyons, J., 1977, Semantics 1, Cambridge University Press, Cambridge, Great Britain.
Manning, C.D. and Schütze, H., 2003, Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, London, England.
Mandelbrot, B., 1952, An information theory of the structure of the language based upon the theory of the statistical matching of messages and coding. In W. Jackson (ed.), Second Symposium on Information Theory, London.
Mandelbrot, B., 1961, On the theory of word frequencies and on related markovian models of discourse. In: R. Jackson (ed.), Structure of Language and its Mathematical Aspects, American Mathematical Society, pp.190-219.
Marshall, I ., 1987, Tag selection using probabilistic methods. In Roger Garside, Geoffery Sampson, and Geoffery Leech (eds.). The Computational Analysis of English: a copusbased approach, Longman, London, pp42-65.
Megyesi, B., 1999, Improving Brill’ s POS tagger for an agglutinative language. In Pascale Fung and Joe Zhou, (eds.), Proceedings of the Joint SIGDAT Conference on Emperical Methods in Natura� Language Processing and Very Large Corpora, Collage Park, Maryland, USA, pp275-284.
Mercer, R.L., 1993, Inflectional morphology needs to be authenticated by hand. In Working Notes of AAAI Spring Symposium on Building Lexicons for Machine Translation. Stanford, CA, AAAI Press, pp.91-99.
Miller , G.A., 1990, WordNet: An on-line lexical database, International Journal of Lexicography, 3(4).
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
359
Mikheev, A., 1997, Tagging sentence boundaries, Language Technology Group, University of Edinburgh.
Mitra, M., Buckley, C., Singhal, A. and Cardie, C., 1997, An analysis of statistical and syntactic phrases. In Proceedings of the RIAO’97, McGill University, Montreal, pp. 200–216.
Mizutani, S., (1989), Ohno’s lexical law: Its data adjustment by linear regression. In: S. Mizutani (ed.), Japanese Quantitiative Linguistics, Bachum: Brockmeyer, pp.1-13.
Ney, H., Essen, U. and Kneser, R., 1994, On structuring probabilistic dependencies in stochastic language modeling. Computer, Speech and Language, 8, pp.1-38.
Oard, D.W., 1997, Cross-language Bibliography, avalible at : http://citeseer.nj.nec.com/oard97crosslanguage.html.
Oflazer , K ., 1993, Two Level Description of Turkish Morphology. In: Proceedings of EACL’98. Utrecht, the Netherlands.
Oflazer , K . and Kuruöz, �., 1994, Tagging and morphological disambiguation of
Turkish text. In Proceedings of the fourth Applied Natural Language Processing Conference, ACL, pp144-149
Oflazer , K . and Tür , G., 1996, Combining hand-crafted rules and unsupervised learning in constrained-based morphological disambiguation, In Eric Brill and Kenneth Chuchh (eds.), Proceedings of the ACL-SIGDAT Conference on Emperical Methods in Natural Language Processing.
Oflazer , K . and Tür, G., 1997, Morphological disambiguation by voting constraints, In Proceedings of the thirty-fifth Annual Meeting of the Association for Computational Linguistics (ACL’97/EACL’97), Madrid, Spain.
Oflazer , K ., Say, B., Hakkani-Tür, D. and Tür, G., 2003, Building a Turkish Treebank, Chapter in Building and Using Parsed Corpora, Anne Abeillé (Ed.), Kluwer Academic Publishers.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
360
Orgun M.A., 1985, Gömü-Dili: Çok Dilli Bilgi Eri � im Gömülerinin Bilgisayar Ortamında Etkile� imli Biçimde Geli � tirilmesini Destekleyecek Bir Yazılım Dizgesinin Tasarımı ve Gerçekle� tirimi, Fen Bilimleri Enstitüsü, Bilgisayar Bilimleri Mühendisli � i Anabilim Dalı Yüksek Mühendislik Tezi, Hacettepe Üniversitesi, Ankara.
Palmer, D.D. and Hearst, M.A., 1997, Adaptive multilingual sentence boundary disambiguation, Computational Linguistics.
Peshkin, L ., and Savova, V., 2004, Part-of-speech tagging with minimal lexicalization, V. Invited chapter in Current Issues in Linguistic Theory (CILT), Publisher: John Benjamins, Amsterdam, Philadelphia.
Popovic M. and Willett P., 1992, The Effectiveness of Stemming for Natural Language Access to Slovene Textual Data, Journal of The American Society for Information Science, Vol 43, pp. 384-390.
Porter, M.F., 1980 An Algorithm for Suffix Stripping. In: Program, Vol.14, No.3, 130-137.
Powers, D.M., 1998, Applications and explanations of Zipf’s laws. In: D. Powers (ed.), NEMLAP3/CONLL98, New methods in language processing and Computational natural language learning, pp.151-160.
Ratnaparki, A., 1996, A maximum entropy model for part-of-speech tagging. In Proceedings of EMNLP.
Resnik, P., 1999, Mining the Web for bilingual text, Proceedings of the 37th conference on Association for Computational Linguistics, ACM, College Park, Maryland, pp. 527-534.
Reynar, J.C. and Ratnaparkhi, A., 1997, A maximum entropy approach to identifying sentence boundaries, In Proceedings of the Fifth A CL Conference on Applied Natural Language Processing (ANLP'97), Washington, D.C.
Riley, M.D., 1989, Some applications of tree-based modeling to speech and language indexing, In Proceedings of the DARPA Speech and Natural Language Workshop, pages 339-352. Morgan Kaufman.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
361
Riloff, E., 1995, Little words can make a big difference for text classification, Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 130-136.
Robertson, S.E. and Sparck Jones, K ., 1997, Simple, proven approaches to text-retrieval. Technical report 356, Computer Laboratory, University of Cambridge.
Robertson, S.E. and Walker , S., 2000, Okapi / Keenbow at TREC-8. In Proceedings of the eighth Text Retrieval Conference TREC-8, pp. 151–162, Gaithersburg, NIST Special Publications 500-246.
Salton, G., 1971, The SMART Retrieval System Experiments in Automatic Document Processing, Prentice Hall.
Salton, G. and Buckley, C., 1988, Term-weighting approaches in automatic text retrieval. Information Processing & Management, vol.24(5), pp.513-523.
Salton, G. and McGill, M.J., 1983, Introduction to Modern Information Retrieval, McGraw Hill Publishing Company, New York.
Sánchez León, F. and Nieto Serrano, A.F., 1995, Development of a Spanish version of the Xerox tagger, CRATER/WP6/FR1.
Samuelsson, C., 1996, Relating Turing’s Formula and Zipf’s Law. Proc. Forth Workshop on Very Large Corpora.
Sever , H., Karaka� , Ü., Akal, F., Olgun, B. ve Sezer , E., 1997, Ka� garlı Mahmut Bilgi Geri-Getirim Sistemi, Teknik Rapor, Devlet Planlama Te� kilatı Destek No: 97K121330, Hacettepe Üniversitesi, 157s, (yayınlanmamı� ).
Sever , H. and Bitir im, Y., 2003, The analysis and evaluation of stemming algorithms for Turkish, 10th International Symposium on String Processing and Information Retrieval (SPIRE'03), Manaus, Brazil, October 8-10. Lecture Notes in Computer Science (LNCS), Springer, 2857: 238-51.
Sezer E., 1999, Smart Bilgi Eri � im Sistemi'nin Türkçe yerelle� tirilmesi ve otomatik gömü üretimi. Yüksek Lisans. Hacettepe Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 1999, 124 sayfa.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
362
Simon, H.A., 1955, On a class of skew distribution function. Biometrica 42, pp.425-440.
Sher idan, P. and Baller ini., J.P., 1996. Experiments in multilingual information retrieval using the SPIDER System, Proceedings of the 19th Annual International ACM SIGIR Conference on Research and development in Information Retrieval SIGIR 96: 58–65.
Shannon, C.E., 1949. The mathematical theory of communication. In Shannon, C.E. and Waver, W. (editor). The Mathematical Theory of Communication. The University of Illinois Press, Urbana, 3-91.
Schmid, H., 1994, Part-of-Speech Tagging with Neural Networks. Proceeding of COLING-94, pp172-176.
Sibun, P. and Spitz, A.L., 1994, Language determination: natural language processing from scanned document images, Proceedings of the fourth conference on Applied natural language processing, Morgan Kaufmann Publishers Inc., Stuttgart, Germany, pp.15-21.
Smeaton, A., 1992, Progress in the application of natural language processing to information retrieval tasks. The Computer Journal, 35(3).
Smeaton, A.F., O'Donnell, R. and Kelledy, F., 1995, Indexing structures derived from syntax in TREC-3: System description, In National Institute of Standards and Technology Special Publication on the The Third Text REtrieval Conference (TREC-3), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
Soergel, D., 1985, Organizing Information: Principles of Database and Retrieval Systems. Orlando: Academic Press, 9-20.
Solak, A. and Can., F., 1994, Effects of stemming on Turkish text retrieval. Technical report BUCEIS-94-20, Bilkent University, Ankara.
Sparck Jones, K ., 1972, A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation, vol.28(1), pp.11-20.
Sparck Jones, K ., 1995, Reflections on TREC. Information Processing & Management, vol.31(3), pp.291-314
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
363
Stolz, W. S., Tannenbaum P. H. and Carstensen, F. V. A., 1965, stochastic approach to the grammatical coding of English. Communications of ACM (8): 399-405.
Strassel, S., Maxwell, M. and Cier i, C., 2003, Linguistic resource creation for research and technology development: A recent experiment, ACM Transactions on Asian Language Information Processing (TALIP), 2(2): 101-117.
Strzalkowski, T., 1995, Natural language information retrieval. Information Processing & Management 31 (3), 397–417.
Strzalkowski, T., Carballo, J.P. and Mar inescu, M., 1995, Natural Language information retrieval: TREC-3 report. In National Institute of Standards and Technology Special Publication on the The Third Text REtrieval Conference (TREC-3), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
Strzalkowski, T., L in, F. and Perez-Carballo, J., 1998, Natural Language Information Retrieval TREC-6 Report. In Voorhees EllenM. and Donna K. Harman (editors). The Sixth Text REtrieval Conference (TREC-6). NIST Special Publication 500-240, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-366.
Suzuki, I ., Mikami, Y., Ohsato, A. and Chubachi, Y., 2002, A language and character set determination method based on N-gram statistics, ACM Transactions on Asian Language Information Processing (TALIP), pp. 269-278.
Tautanova, K . and Manning C., 2000, Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. In Proceedings of EMNLP/VLC.
Thagard, P., 1990. Information and concepts. In Hanson, Philip P. (editor). Information, language and cognition. The University of British Columbia Press, Vancouver, Canada, 168-174.
Turner, G.R., 1997, Relationship between vocabulary, text length and Zipf’s law. Avail at: http://www.btinternet.com/g.r.turner/ZipfDoc.htm.
Tür, G., 2000, A Statistical Information Extraction System. PhD Thesis, Bilkent University, Ankara, Turkey.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
364
Türkiye Bili � im Derne� i, 2003, Bili � im Terimleri Sözlü� ü, URL: http://eski.tbd.org.tr/sozluk.html
Türk Dil Kurumu, 2003a, Bilgisayar Terimleri Kar � ılıklar Kılavuzu, URL: http://www.tdk.gov.tr/bilter im
Türk Dil Kurumu, 2003b, Güncel Türkçe Sözlük, URL: URL: http://www.tdk.gov.tr/sozluk.html
Van Rijsbergen, C.J., 1979, Information Retrieval (2nd ed.), Butterworths, London.
Viterbi, A.J., 1967, Error bounds for convolution codes and an asymptotically optimal decoding algorithm. IEEE Transaction on Information Theory, pp. 260-269.
Voorhees, E., Gupta, N.K. and Johnson-Laird, B., 1995, The collection fusion problem. In National Institute of Standards and Technology SpecialPublication on the The Third Text REtrieval Conference (TREC-3), pages 95-104, Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
Voorhees E.M. and Harman, D.K., 1998. Overview of the Sixth Text Retrieval Conference (TREC-6). In Voorhees Ellen M. and Donna K. Harman (editors). The Sixth Text REtrieval Conference (TREC-6). NIST Special Publication 500-240, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.1-24.
Voorhees E.M. and Harman, D.K., 1998b. The seventh Text REtrieval Conference (TREC-7). NIST special publication, Galthersburg, Maryland, November 9-11. http ://trec.nist.gov/pubs.html.
Voutilainen, A., 1998, Does tagging help parsing? A case study on finite state parsing, Lauri Karttunen (ed), International Workshop on Finite State Methods in Natural Language Processing (FSMNLP'98), Association for Computational Linguistics, Somerset, New Jersey, pp.25-36.
Yao Y.Y., 1995, Measuring retrieval effectiveness based on user preference of documents, Journal of the American Society for Information Science, l 46:133-145.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
365
Weaver, W., 1949, Recent contributions to the mathematical theory of communication. In Shannon, C. E. and Weaver, W. (editors). The Mathematical Theory of Communication. The University of Illinois Press, Urbana, 94-117.
Witten, I .H. and Bell, T.C., 1991, The zero-frequency problem: Estimating the probability of novel events in adaptive test compression. IEEE Transactions on Information Theory, 37(4), pp. 1085-1094.
Zhai, C., Tong, X., Miliçc-Frayling, N. and Evans., D.A., 1997, Evaluation of Syntactic Phrase Indexing - CLARIT NLP Track Report. In Voorhees Ellen M. and Donna K. Harman (editors). The Fifth Text REtrieval Conference (TREC-5). NIST Special Publication 500-238, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-358.
Ziegenhain, U., Arranz, V., Bisani, M., Bonafonte, A., Castell, C., Conejero, D., Hartikainen, E., Maltese, G., Oflazer, K ., Rabie, A., Razumikin, D., Shammass, S. and Zong C., 2003, The LC-STAR: Lexica and corpora for speech-to-speech translation technologies. Technical Report, IST-2001-32216, Siemens AG, CT IC 5, München, Germany. URL: http://www.lc-star.com
Zipf, G. K ., 1929, Relative frequency as a determination of phonetic change. Harvard Studies in Classical Philology, 40:1-95.
Zipf, G. K ., 1949, Human Behaviour and the Principles of Least Effort. Cambridge, MA, Addison-Wesley.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
366
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
367
EKLER
EK-1 : BGG sahasında önceki çalı � malar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
368
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
369
EK-1
BGG Sahasında Yapılan Önceki Çalı � malar
BGG sahasında bu güne kadar onlarca uygulama sistemi, farklı
guruplar tarafından ticari ve akademik amaçlı geli � tirilmi � tir. Tanıtaca� ımız sistemlerden, ticari olanlar LEXIS/NEXIS, DIALOG,
Dow QR, INSPECT, STAIRS, MEDLARS ve GARALDI (Türkçe);
akademik olanlarsa SMART, INQUERY, DR-LINK, TÜRDER ve
KMBGG sistemleridir (Ka� garlı Mahmut Bilgi Geri-Getirim Sistemi).
LEXIS/NEXIS sistemi ticari bir geri-getirim sistemidir. Sistem
hukuk (LEXIS) ve gazete (NEXIS) yazıları geri-getirimi üzerine
yo � unla� mı � tır. Sorgu yöntemi olarak boole e� le� tirme yordamını esas
alır, yani geri-getirilen belgeler, sorguda yazılan kelimelerle bire-bir
e� le� enleri içerenlerdir. Sorgu olu� turmada iki joker-karakter
kullanımına izin vermektedir: “ * ” karakteri herhangi bir tek harfi
(örne� in “ bilg*” ile “ bilgi” , “bilgiç” , “bilim” ve “bilgin” kelimeleri
ama “bilimsel” de� il) ve “ !” karakteri herhangi bir kelimeye
getirilebilecek � ngilizce dilbilimsel eki (örne� in, “ transport!” kelimesi
“ transportation” , “ transporting” vb. kelimeleri). (“ * ” için verilen
örnekte, böyle basite indirgenmi � bir nevi gövde üretiminin Türkçe için
kullanımında ne tür sakıncaları olabilece� i de rahatlıkla
görülebilmektedir. Yöntem analitik diller için uygundur, ancak kelime
türetmek için ek sistemi kullanan dillere uygun de� ildir. “bilim” ve
“bilgin” ). En son sürümlerinde do� al dilde yazılan sorguları kullanma
e� ilimindedir. Bunun sebebi geri-getirim modeli olarak vektör uzayını
benimsemesidir. Belge temsilinde: durma kelimelerini ayıklama ve
kelime gurupları tespit alt adımlarını kullanır. Sorgu olu� turma ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
370
sonuç listesinde göz-atma (browsing) hizmeti Z39.50 standardına
uygundur.
DIALOG sistemi ticari bir sistemdir. Sistem i � dünyası, hukuk,
resmi, tıbbi, gazete, insan, bilim, sosyal bilimler ve teknoloj i
sahalarında belgeler üzerinde i � lem yapar. Sorgu olu� turma ve
e� le� tirme yöntemi boole yordamıdır. Sistem sorguda “?” joker-
karakter kullanımına izin verir. Böylece bir kelimenin farklı yazım
biçimlerinin, örne� in “bilgi” , “bilgiler” ve “bilgin” kelimeleri “ bilgi?”
� eklindeki tek bir biçimde temsil edilebilmektedir. E� -anlamlılar
sözlü� ü kullanımı yoktur. Kullanıcının sorgularını kaydetmesine izin
verilir ve e� er sistemin hedefindeki belge uzayına kayıtlı sorgu ile
alakalı yeni bir belge eklenirse, kullanıcı uyarılır (routing/filtering).
DOW JONES NEWS/RETRIEVAL (Dow QR) sistemi ticari bir
sistemdir. Sistem 1900 civarında haber kayna� ını taramaktadır. Di � er
ticari sistemlerde oldu� u gibi sorgu olu� turma ve e� le� tirme yöntemi
boole yordamıdır. Sorgu ayrıca, tarih, kategori ve konu ba� lı � ı, belge
kısımları ve belirli kaynaklar esasında kısıtlanabilmektedir.
TOPIC sistemi de ticari bir geri-getirim sistemidir. Sistemin
kullanıcıya sa� ladı � ı � ey, kendi BGG sistemini kurabilmesi için geri-
getirim hizmetleridir. TOPIC “ içerik” olarak adlandırılan bir
hiyerar � iye dayalıdır, yani sisteme indekslemesi için yüklenen belge
kümesindeki konu ba� lıkları, bir hiyerar � iye göre sistem tarafından
düzenlenir. Sistem, ba� lıkları düzenlerken de� eri 0 (sıfır) i le 1 (bir)
arasında de� i � en nicel bir ili � ki/alaka ölçütü kullanır. Sorgu ile alakalı
bulunan sonuç kümesi belgeleri, bu hesaplanan alaka de� erinin azalan
sırasında listelenir. TOPIC “gövdeleme” yordamı kullanır. Ayrıca
joker-karakter kullanımına da izin verir: “ ?” tek harf, “ *” herhangi bir
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
371
karakter dizisi ve “ [a-z]” iki kö � eli parantez içine alınmı � karakter
kümesi. Sorgu olu� tururken, kullanıcı sorguda kullandı � ı terimlere 0
(sıfır) ile 1 (bir) arasında a� ırlıklar vererek, e� le� tirme yordamını
yönlendirebilir.
INSPEC fizik, elektrik elektronik, bilgisayar ve kontrol, bilgi
teknolojileri alanında çıkan yayınların 1969’dan bu yana toplandı � ı bir
veritabanıdır. 1977 yılında seksen ülkenin faydalandı � ı bir sistem
haline gelmi � tir. INSPEC veritabanına Internet’ ten eri � mek ya da
veritabanının tamamını veya bir kısmını CDROM ortamına
kaydedilmi � � ekli i le almak mümkündür. � u an INSPEC bünyesinde
altı milyon civarında kayıt bulunup, yılda ortalama 300.000 kayıt ilave
edilmektedir.
STAIRS sistemi IBM tarafından geli � tiri lmi � ticari bir sistemdir.
Sayısal belge temsilinde: kelimeler ba� tan belirli bir sayıda harfi
içerecek � ekilde sondan kesilir. Belgeler ile terimler arasında alakaya
göre bir a� ırlık de� eri atanır. E� -anlamlılar sözlü� ü yardımı ile terimler
e� anlamlıları ile de� i � tirilir. Sorgu hazırlama boole kurgusuna uygun
yapılır. Ancak, yakalamada vektör uzayı modelini kullanır.
MEDLARS (Medical Literature Analysis and Retrieval System),
tıbbi konulara odaklanmı � bir sistemdir. MEDLARS sisteminin en
önemli özelli � i MESH (Medical Subject Heading) adı verilen, tıbbi
metinlerin indekslenmesinde kullanılan terimleri ve birbiri ile anlamsal
ili � kilerini içeren tıp konu ba� lıkları sözlü� üdür. MEDLARS
sisteminde, gelen belgelerin dizinlenmesi tıp alanında uzmanla� mı � ve
sistemi bilen ki � ilerce yapılmaktadır. Sistemden yararlanmak isteyen
kullanıcı ihtiyaç duydu� u bilgiyi elle bir kalıba i � ler. MEDLARS
bünyesinde çalı � an danı � manlar bu bilgileri çözümleyerek ve MESH
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
372
sözlü� ünü de dikkate alarak duyulan ihtiyacı sistemin öngördü� ü
biçimde yeniden ifade ederler ve sonuçlar kullanıcıya çevrim-dı � ı
sunulur.
GARALDI Türkiye’nin ilk ticari bilgi eri � im sistemidir, TTGV
destekli bir proje niteli � inde olan GARILDI (Gazete Ar � ivi ve � leti � im
Dizgesi), Aybim Bilgisayar Tic. Lim. tarafından gerçekle� tirilmi � tir. GARILDI sisteminin ilk sürümü Sabah gazetesinin Internet’ teki
adresine konmu� tur. � u an Sabah, Cumhuriyet gazetelerini ve Aktüel,
Gezi, Para, Topsante, Cosmopolitan, Gurme, Power, Otohaber,
PcMagazin, Baazar gibi birçok derginin ar � ivine eri � mek mümkündür.
SMART, Cornell üniversitesinde geli � tirilmi � akademik amaçlı
bir sistemdir ve tüm bilgi geri-getirim sistemlerinin atası olarak bilinir
(Salton, 1971; Salton and McGill, 1983). Sistem : 1-) tamamen
otomatik indeksleme kullanır. 2-) belgelerin otomatik kümelemesini ve
küme ortaçlarının (centroids) hesabını yapar. 3-) Sorgu ve belge
arasındaki alaka hesaplamalarını yapar, alakalı belgeleri, belgelerin
sorgu ile olan alaka derecelerine göre azalan sırada listeler. 4-)
Belgeleri ve sorguları, vektör uzayında a� ırlıklandırılmı � vektörler
olarak temsil eder. 5-) Sistemde, kullanıcıdan geri-bildirilecek
enformasyon sorgu inceltme amaçlı olarak kullanır. SMART sistemi,
ara� tırma sahasında çok yaygın bir � ekilde kullanılmaktadır ve di � er
geli � tirilen bilgi geri-getirim sistemlerinin ba� arım ölçümlerinde taban
çizgisidir.
INQUERY sistemi Massachusetts üniversitesinde geli � tirilmi � tir (Callan et al, 1992). Sistem, geri-getirim yöntemi olarak olasılık
kuramını esas alan yordamlar kullanmaktadır. ARPA sponsorlu� undaki
TIPSTER projesinin ilk aya� ında (TREC-I) çok büyük veri-
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
373
tabanlarının, olasılık kuramına dayalı geri-getirim yöntemlerin
denenmesi çalı � malarında kullanılmı � tır (Broglio et al., 1994).
Kullanılan veri-tabanının büyüklü� ü yakla� ık 3 gigabyte civarındadır.
INQUERY olasılık esaslı sonuç-çıkarma a� ı modelini (Inference
Network) esas almaktadır. Sistemde uygulanan bu olasılık esaslı
yöntem (aslen Bayes kuramı olarak anılan sonuç çıkarma yöntemidir),
elde edilen delillerin topluca kullanımını imkanlı kılar. Daha do� rusu,
INQUERY, de� i � ik metin temsilleri (kelimeler, kelime gurupları,
paragraflar veya elle belirlenmi � anahtar kelimeler) ve aynı sorguların
farklı uyarlamalarının (do � al dilde olu� turulanlar veya boole esaslılar)
tutarlı bir biçimde olasılık tabanında bir yapılanma içinde
birle� tirilmesini olanaklı kılmaktadır. INQUERY, dilbilimsel
özelliklerin de sınanabildi � i bir sistemdir. TREC-I kapsamında
özellikle gövdeleme ve kelime guruplarının kullanımı yo � un bir � ekilde
sınanmı � tır. Ancak geri-getirim ba� arımında sa� lanan geli � im ya kayda
de� er bir miktar olmamı � ya da uygulanmasının maliyetine kar � ın
yetersiz kalmı � tır. Sadece kelime guruplarının sorgu inceltme için
kullanımında, umut veren bir takım geli � imler sa� lanabilece� i
belirtilmi � tir.
DR-LINK (Document Retrieval through Linguistic Knowledge)
yine TIPSTER projesi kapsamında Syracuse Üniversitesi tarafından
geli � tirilmi � tir (Liddy and Myaeng, 1993). DR-LINK dilbilim
kuramlarını esas alarak � imdiye kadar geli � tiri lmi � tek sistemdir. Sistem
sayısal belge temsili için di � er bilinen tüm sistemlerden farklı olarak,
kelime/belge a� ırlıkları ile olu� turulan belge vektörü yerine,
kelimelerin “ içerik” belirteçleri ile olu� turulmu� vektörleri
kullanmaktadır. Ancak yapılan bu etraflı çalı � manın sonuçları da
di � erlerinden farklı olmamı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
374
TÜRDER, 1979 yılında Aydın Köksal’ ın Doçentlik tezi
kapsamında Hacettepe üniversitesi Bilgisayar Mühendisli � i bölümü
bünyesinde gerçekle� tirilmi � , vektör uzayı modelinde kısmen geri-
bildirimli bir bilgi geri-getirim sistemidir (Köksal, 1979). TÜRDER
esas olarak tasarım boyutunda kalmı � , bir kısmı gerçekle� tirilmi � tir. Sistemin gerçekle� tiriminde bildiri, kitap, makale, konu� ma/konferans
yayınları, tez, rapor � eklindeki bilimsel yayınları güvenli bir � ekilde
saklamak ve etkin eri � im sa� lamak amaçlanmı � sa da asıl amaç A.
Köksal tarafında � u biçimde ifade edilmektedir:
” TÜRDER, Türkçe Belge Dizinleme ve Eri � im Dizgesi, bilgi eri � im dizgesi tasarımı, geli � tir im ve i � letimine ili � kin çok yönlü kavramsal ve uygulamalı sorun alanlarında deneyler yapılabilmesi için gerekli ö� elerden olu� an, deneysel bir bilgi eri � im dizgesidir.”
(Köksal, 1979)
TÜRDER sisteminde, kelimeler sondan kesilerek indeksleme
yapılmaktadır. En yüksek ba� arımın ba� tan 5 harf kalacak � ekilde
sondan kesme ile elde edildi � i bildirilmi � tir. Bu çalı � ma, Türkçe’de ilk
gövdeleme giri � imi olması sebebiyle dikkat çekicidir. Türkçe’de
gövdeleme ile BGG sistemlerinde geri-getirim ba� arımının
arttırılaca� ına deneysel bir kanıt olu� turmu� tur.
KMBGG sistemi (Ka� garlı Mahmut Bilgi Geri-Getirim Sistemi)
Hacettepe Üniversitesi tarafından yürütülmü� bir di � er projedir. Aslen,
Türkçe için SMART geri-getirim sistemi üzerinde geni � çaplı bir
uyarlanma çalı � masıdır (Sever vd., 1997). KMBGG sistemi dilbilimsel
yöntemler olarak e� -anlamlılar sözlü� ü (Thesaurus) ve kelime-
da� arcı � ına dayalı kural tabanlı gövdeleme kullanmaktadır. Ayrıca
Türkçe için, SMART üzerinde ek uyarlama çalı � maları da
gerçekle� tirilmi � tir. Bu çalı � ma, Türkçe’nin kendine has dilbilimsel
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
375
özelliklerinin BGG sahasında kullanımına ilk örnek olması açısından
büyük önem ta� ımaktadır. Örne� in, dilbilimsel gövdeleme i � leminin
BGG cemiyetinde yaygın olan kanının aksine, geri-getirim ba� arımını
arttırdı � ı, ilk bu çalı � mada uygulamalı olarak görülmü� tür.
Sistem seviyesinde yukarıda verdiklerimizin dı � ında ayrıca
TIPSTER projesi altında ve ba� ka platformlarda bir çok toplantı
yapılmı � ve çok de� i � ik çalı � ma gurupları analitik diller ve orta-Avrupa
dilleri için BGG sistemlerinde hesaplamalı dilbilim kullanımı
konusunda geni � ara� tırmalar yürütmü� lerdir. Alınan sonuçlar anlamlı
düzeylerde ba� arım artırımı ortaya koyamamı � tır. Dolayısı ile, BGG
cemiyeti içerisinde kanaatin de� i � mesine yardımcı olmamı � sa da,
çalı � maların incelenmesi uygulanan dilbilim yöntemlerinin hangi
dilbilim çözümleme seviyelerinde gerçekle� ti � inin belirlenmesine
yardımcı olacaktır.
Tanıtaca� ımız çalı � ma guruplarından ilki New York
üniversitesidir (Strzalkowski et al., 1995). Gurubun çalı � maları
hesaplamalı dilbilim yöntemlerinin, geleneksel istatistik esaslı BGG
sistemlerinde destekleme � eklinde kullanımı ile ba� arımın arttırılması
yönündedir. Toplam 2 gigabyte metnin tam söz-dizimsel
çözümlemesini yapmı � lardır. Bunu yaparken “ içeri � i” ta� ıyan
kelimelerin tespit edilmesine ve bu kelimeler arasındaki ili � kilerin
belirlenmesine u� ra� mı � lardır. Daha sonra elde ettikleri enformasyonu
sorguların geni � letilmesi ve inceltilmesi u� ra� larında kullanmı � lardır.
Kullandıkları süreçler tamamen otomatiktir ve verilen u� ra� ın büyük
bir kısmını, kullanılan dil-bilimsel yöntemlerin hızlı ve verimli
çalı � masına harcamı � lardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
376
�kinci gurup “General Electric” firmasının ara� tırma ve geli � tirme
gurubudur (Jacobs, 1994). Hesaplamalı dilbilim yöntemleri ile bir
alı � tırma derleminden, enformasyon özetleme u� ra� ı sergilemi � lerdir.
Daha sonra elde edilen enformasyon, TREC çalı � malarının
yönlendirme (routing) etabında elle olu� turulan süzgeçler (filters) için
kullanılmı � tır.
TREC içindeki di � er bir gurup CLARITECH’dir (Evans and
Lefferts, 1994). Gurup CLARIT adını verdikleri istatistik esaslı bir
BGG sistemi tasarlamı � tır. Tasarımın dilbilimsel yönleri, sadece kelime
gurubu olarak “ isim tamlamalarını” kullanması ve otomatik bir e� -anlamlılar sözlü� ü olu� turmasıdır. Daha sonra isim tamlamaları sorgu
geni � letmek için kullanılmı � tır.
Dublin City Üniversitesinden bir gurupsa, belgeleri söz-dizimsel
çözümlemeden geçirerek, a� aç yapısı içerisinde temsil etmi � lerdir. Bu
gurubun yakla� ımı ile geri-getirim sonuç kümesini olu� turmak için
kullanılan e� le� tirme i � lemi, a� aç yapısında arama yapma � ekline
dönü� mektedir (Smeaton et al, 1995).
Siemens � irketinden bir gurup da WordNet24 (Miller, 1990)
kelime a� ını kullanarak sorgu geni � letme çalı � maları yapmı � tır (Voorhees et al., 1995).
Özellikle, Avrupa’da çok dilli bilgi geri-getirim önemli
meselelerin ba� ında gelmektedir. Bu yüzden “Avrupa Birli � i Ara� tırma
ve Mühendislik alt programı” hesaplamalı dilbilim yöntemleri
kullanımının geli � tirildi � i projeleri desteklemektedir. Desteklenen
24 WordNet kelimelerin sözlük anlamları arasında ili � kilerin betimlendi � i bir a� dır, yani kelime-a� ıdır.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
377
çalı � malar içerisinde CRISTAL, Fransızca gazetelerdeki makalelerde
çok dilli geri-getirim yapılmasını sa� layan bir sistemdir. RENO benzer
� ekilde yazılı Fransızca resmi belgeler üzerinde çalı � an bir sistemdir.
SIMPR kelime guruplarını indekslemek için biçim-bilimsel
özelliklerden yararlanan bir di � er projedir. Orta-Avrupa dillerinde
yapılan çalı � maların özetleri için, Smeaton (1992) tarafından yapılan
ara� tırma güzel bir saha çalı � masıdır. Ayrıca özel olarak 7 (yedi) orta-
Avrupa dilli için sözcük türü belirleme çalı � malarının bir saha
ara� tırması da Dermatas and Kokkinakis’ in (1995) makalesinde
bulunmaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
378
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
379
ÖZGEÇM ���
Yazar, 1970 yılında � zmir’de do� mu � tur. � lk, orta ve lise
ö� renimini Eski � ehir’de tamamladıktan sonra, 1988 yılında, yüksek
ö� renim görmek üzere Ankara’ya, Ortado� u Teknik Üniversitesine
gitmi � tir. 1994 yılında, � statistik bölümünden mezun olan yazar,
Ankara’da yüksek ö� reniminin son yılı da dahil olmak üzere üç yıl
boyunca özel sektörde sivil havacılık, dı � ticaret ve bili � im teknolojileri
sahalarında çalı � mı � tır. 1996 yılında, Mu� la Üniversitesinde � statistik
ve Bilgisayar bölümünde göreve ba� lamı � tır ve hala Mu� la
Üniversitesinde çalı � maktadır.
1996-1998 yılları arasında yüksek lisansını “Web Robotları”
konusunda, Sinan Neftçi ile Mu� la Üniversitesinde tamamlayan yazar,
1998 yılında Ege Üniversitesi, Uluslararası Bilgisayar Enstitüsünde
doktora çalı � masına ba� lamı � tır.
Mu� la Üniversitesinde 1996-2001 yılları arasında, ba� ta � statistik
ve Bilgisayar bölümü olmak üzere, de� i � ik bölümlerin lisans
programlarında “Tanımlayıcı � statistik” , “Matematiksel � statistik” ,
“Parametrik Olmayan � statistik” , “Çok De� i � kenli � statistik” , “Karar
Kuramı” , “Bilgi Teknolojileri” ve çe� itli bilgisayar programlama
derslerini vermi � tir.
Mu� la Üniversitesinde çe� itli görevlerde bulunan yazar,
Üniversitenin bilgi teknolojilerine geçi � ini sa� layan “Sayısal
Üniversite” projesinin mimarı ve yazarıdır. Halen yazılım ve a�
teknolojileri konusunda yeti � tirdi � i çalı � ma takımlarının yöneticili � ini
sürdürmektedir.