EGE ÜN VERS TES FEN B L MLER ENST TÜSÜ …yunus.hacettepe.edu.tr/~tonta/courses/spring2011/bby704/B...EGE ÜN VERS TES FEN B L MLER ENST TÜSÜ (DOKTORA TEZ) TÜRKÇE Ç N STAT

EGE ÜN�VERS

�TES

� FEN B

�L

�MLER

� ENST

�TÜSÜ

(DOKTORA TEZ�)

TÜRKÇE �Ç

�N

�STAT

�ST

�KSEL

B�R B

�LG

� GER

�-GET

�R

�M S

�STEM

�

Bekir Taner D � NÇER

Uluslararası Bilgisayar Anabilim Dalı

Bilim Dalı Kodu: 619.02.04

Sunu� Tarihi: 17/Eylül/2004

Tez Danı � manı: Prof. Dr. Bahar KARAO� LAN

Bornova – �ZM

�R

II

III

Sayın Bekir Taner D � NÇER tarafından DOKTORA TEZ � olarak

sunulan “Türkçe için � statistiksel bir Bilgi Geri-Getirim Sistemi” adlı

bu çalı � ma, “Lisansüstü E� itim ve Ö� retim Yönetmeli � i” nin madde (c)

ve (d) bentleri ve Enstitü yönergesinin ilgili hükümleri dikkate alınarak

tarafımızdan de� erlendirilmi � olup yapılan sözlü savunma sınavında

aday oy ………….. ile ba� arılı bulunmu � tur. Bu nedenle Bekir Taner

Dinçer’ in sundu� u metnin doktora tezi olarak kabulüne oy ………….

ile karar verilmi � tir.

…/………../2004

Jüri Ba� kanı :............................................... imza ..........................

Raportör :............................................... imza ..........................

Üye : .............................................. imza..........................

Üye : .............................................. imza ..........................

Üye : .............................................. imza ..........................

IV

V

Sevgili e� im Zeynep’e......

VI

VII

ÖZET

TÜRKÇE �Ç

�N

�STAT

�ST

�KSEL

B�R B

�LG

� GER

�-GET

�R

�M S

�STEM

�

D � NÇER, Bekir Taner

Doktora Tezi, Uluslararası Bilgisayar Enstitüsü

Tez Yöneticisi: Prof. Dr. Bahar KARAO� LAN

Eylül 2004, 379 sayfa

Bu tezde, Türkçe dilbilgisi özelliklerinin kullanımı ile BGG

(Bilgi Geri-Getirim) sistemlerinde ba� arımın artırılması sa� lanmı � tır. Sınanan dilbilgisi özellikleri, sözcük türleri (isim, sıfat, zamir v.b.),

cümle unsurları (fiil, fail/özne, nesne) ve kelime guruplarıdır. Sözcük

türlerinin ve cümle unsurlarının ba� arımı anlamlı düzeyde arttırdı � ı

bulunmu� , kelime guruplarının ba� arımı arttırdı � ı konusunda bir delil

sa� lanamamı � tır. Hesaplamalı dilbilim sahası içine giren dört yöntem

geli � tirilmi � tir: 1-) Türkçe yazılı belgelerin tespiti 2-) Cümle sonlarının

tespiti 3-) Kelime gövdeleme 4-) Kelimelerin sözcük türü tespiti. � lk üç

yöntemde, ba� arı sa� lanmı � , ancak kelimelerin sözcük türü tespitinde,

kabul edilebilir bir ba� arıma ula� ılamamı � tır. Sadece, kelimelerin

sözcük türü tespiti için, önerilen yöntemin rasgelelikten anlamlı

düzeyde farklı oldu� unu söyleyebilecek delile ula� ılmı � tır. Türkçe

yazılı belgelerle olu� turulan derlemlerde, Zipf ve Mandelbrot ifadeleri

için en iyi uyumun parametreleri belirlenmi � tir.

Anahtar kelimeler : Bilgi geri-getirim, hesaplamalı dilbilim.

VIII

IX

ABSTRACT

A STATISTICAL INFORMATION RETRIEVAL SYSTEM

FOR TURKISH

D � NÇER, Bekir Taner

PhD Thesis, International Computer Institute

Supervisor: Prof. Dr. Bahar KARAO� LAN

September 2004, 379 pages

In this thesis, we have shown that an Information Retrival

system performance for Turkish can be enhanced by the use of

linguistic knowledge. The examined linguistic properties are part-of-

speeches (noun, adjective, etc.), syntactic functions ( verb, subject,

object etc.) and two-word phrases. An evidence of significant

contribution on the performance is found in the training corpus for the

part-of-speeches and syntactic functions. However, no such evidence is

found for the phrases. Additionaly, four methods which are considered

to be in the field of computational linguistics are developed. These are:

1-) Turkish texts recognizer, 2-) Sentence boundary detector, 3-) A

stemming algorithm and 4-) A statistical part-of-speech tagger.

Satisfactory (above 95%) results for first three methods are obtained,

however the last method, the part-of-speech tagger, did not show the

anticipated performance (85%). At this point, we can only say that the

proposed method of part-of-speech tagging shows an evidence of

significant difference from randomness. The best fit parameters of Zipf

and Mandelbrot functions are, also, experimantally evaluated for

selected Turkish corpora.

X

XI

TE � EKKÜR

Bu tezin var olmasını sa� layan, bilimde uzmanlı � ını,

deneyimlerini ve be� eri ili � kiler konusundaki de� erli fikirlerini özveri

ile bana aktaran tez yöneticim ve danı � manım Bahar Karao� lan’a

saygı, sevgi ve ba� lılı � ımı; aynı zamanda � ahsıma dü� en zorlukların

tamamında yanımda olan ve samimiyetle her türlü deste� i benden

esirgemeyen sevgili e� im Zeynep Koro� lu Dinçer’e sonsuz

te� ekkürlerimi ve a� kımı sunarım. Özellikle beni var eden aileme ve

aralarına kabul eden kayın-aileme gösterdikleri sabır ve sevgiden

dolayı bu çalı � ma vesilesi ile bir kere daha en içten te� ekkürlerimi

sunarım.

Çalı � malarda desteklerini esirgemeyen, Uluslararası Bilgisayar

Enstitüsünden sevgili hocalarım: Aydın Öztürk, Mehmet Emin Dalkılıç

ve Turhan Tunalı’ ya; çalı � ma arkada� larım Ebru Çelikel, Cengiz

Güngör, � lker Kocaba� , Burak Aydın, Hasan Sait Erinç, Geylani Karda� ve Muhammed Cinsdikici’ ye; di � er tüm arkada� larıma ve çalı � anlara

� ükranlarımı sunarım. Ayrıca, Mu� la Üniversitesinden sayın hocalarım

Mübariz Eminov’a ve Mustafa Dilek’e yardımlarından dolayı, Ba� kent

Üniversitesinden Hayri Sever’e katkılarından dolayı, Sabancı

Üniversitesinden Kemal Oflazer’e ve ayrıca Gökhan Tür’e derlemlerin

sa� lanması ve yardımlarından dolayı te� ekkürü bir borç bilirim

Bu tezi, Türkçe’ye ve Türkçe’nin geli � mesine emek vermi � olan

ba� ta Gazi Mustafa Kemal Atatürk olmak üzere, bu yolda çalı � mı � , tüm

hayatını adamı � ve dilimizi yüceltmi � olan herkesin anısına; halen

çalı � anların ve gelecekte çalı � acak olanların onuruna ithaf ediyorum.

XII

XIII

�Ç

�NDEK

�LER

Sayfa

ÖZET............................................................................................................................. VII ABSTRACT....................................................................................................................IX TE � EKKÜR...................................................................................................................XI 1. G � R � � .............................................................................................................................1 2. TÜRKÇE .................................................................................................................... 19

2.1. TÜRKÇE HARFLER VE ALFABE..................................................................... 21 2.2. HECELER VE KEL � MELER.............................................................................. 22

2.2.1. Türkçe Heceleme.................................................................................... 22 2.3. � EK � L YAPISI BAKIMINDAN KEL � MELER ...................................................... 23

2.3.1. Kökler ve Gövdeler................................................................................. 23 2.4. ANLAM VEYA GÖREV BAKIMINDAN KEL � MELER....................................... 24 2.5. KEL � ME GURUPLARI..................................................................................... 26

2.5.1. Aynen Tekrarlar ...................................................................................... 28 2.5.2. Ba� lama Gurubu .................................................................................... 28 2.5.3. Sıfat Tamlaması ...................................................................................... 29 2.5.4. � yelik Gurubu ve � sim Tamlaması.......................................................... 30 2.5.5. Aitlik Gurubu .......................................................................................... 31 2.5.6. Birle� ik � sim ve Birle� ik Kelime............................................................. 31 2.5.7. Birle� ik Fiil ............................................................................................. 32 2.5.8. Unvan Gurubu ........................................................................................ 32 2.5.9. Ünlem Gurubu ........................................................................................ 33 2.5.10. Sayı Gurubu....................................................................................... 33 2.5.11. Edat Gurubu ...................................................................................... 34 2.5.12. � snat (yükleme) Gurubu..................................................................... 34 2.5.13. Genetif Gurubu.................................................................................. 35 2.5.14. Datif Gurubu...................................................................................... 35 2.5.15. Lokatif Gurubu................................................................................... 36 2.5.16. Ablatif Gurubu................................................................................... 36 2.5.17. Kısaltma Gurupları ........................................................................... 36 2.5.18. Akuzatif Gurubu................................................................................. 37

2.6. CÜMLE VE CÜMLE UNSURLARI ................................................................... 37 2.6.1. Fiil Unsuru.............................................................................................. 38 2.6.2. Fail Unsuru............................................................................................. 39 2.6.3. Nesne....................................................................................................... 39 2.6.4. Yer Tamlayıcısı ....................................................................................... 40 2.6.5. Zarf .......................................................................................................... 40 2.6.6. Cümle Dı � ı Unsurlar .............................................................................. 40

3. ENFORMASYON ..................................................................................................... 41

XIV

3.1. ENFORMASYON B � L � M VE B � LG� GER� -GET � R� M ......................................... 41 3.2. ENFORMASYON TANIMI VE FARKLI YAKLA � IMLAR................................... 42

3.2.1. Enformasyon-i � lem (Anlamsal-Enformasyon)...................................... 43 3.2.2. Çevre-bilimsel Yakla� ım......................................................................... 47 3.2.3. Matematiksel Yakla� ım........................................................................... 47 3.2.4. Enformasyon Yakla� ımlarının Kar � ıla� tırması..................................... 49

3.3. ENFORMASYONUN � LET � M � – � LET � � � M ........................................................ 51 3.4. VER� , ENFORMASYON VE B � LG� TANIMLARI............................................... 54 3.5. ENFORMASYON VE HABER .......................................................................... 55

4. ENFORMASYON KURAMI .................................................................................. 61 4.1. DÜZENS� ZL � K (ENTROPY) ............................................................................ 62 4.2. B � RLE� � K DÜZENS� ZL � K VE KO� ULLU DÜZENS� ZL � K .................................. 64 4.3. KAR � ILIKLI ENFORMASYON (MUTUAL INFORMAT � ON) ............................. 66 4.4. KO � ULLU DÜZENS� ZL � K (COND � T � ONAL ENTROPY) ................................... 68 4.5. ÇAPRAZ DÜZENS� ZL � K (CROSS ENTROPY)................................................... 70 4.6. � ST � KRARSIZLIK (PERPLEX � TY) .................................................................... 75

5. B � LG � GER � -GET � R � M S � STEMLER � ............................................................... 77 5.1. GENEL S� STEM YAPILANMASI ..................................................................... 82 5.2. GENEL � � LEY � � KURGUSU ( � Ç YAPILANMA) ............................................... 84 5.3. SAYISAL BELGE TEMS� L � ............................................................................. 86

6. GER � -GET � R � M MODELLER � ............................................................................ 97 6.1. VEKTÖR UZAYI MODEL � ............................................................................ 103 6.2. G� ZL � ANLAM � NDEKSLEME MODEL � ........................................................ 107

7. � NDEKSLEME VE � NDEKS TER � MLER ........................................................ 115 7.1. ELLE � NDEKSLEME ..................................................................................... 117 7.2. DO� AL B � R D � LDE, KEL � MELER� N DA � ILIMI............................................ 120

7.2.1. Zipf Güç Kanunları .............................................................................. 124 7.3. OTOMAT � K � NDEKSLEME............................................................................ 129

7.3.1. ndekslemenin Kapsamı ve Terim Öznelli i. ...................................... 134 7.3.2. Kelime Gurupları ile ndeksleme......................................................... 135

7.4. HESAPLAMALI D � LB � L � M YÖNTEMLER� ..................................................... 138 8. BA � ARIM ÖLÇÜTLER ...................................................................................... 141

8.1. ANMA VE DUYARLILIK ESASINDA ÖLÇÜT TÜRLER� . ............................... 141 8.2. ANMA VE DUYARLILIK ESASINDA BA � ARIMIN ÖLÇÜMÜ. ....................... 148 8.3. ANMA VE DUYARLILI � I ESAS ALMAYAN BA � ARIM ÖLÇÜTÜ.................. 157

9. TEZ KAPSAMINDA GEL � T R L M � YÖNTEMLER ................................ 163 9.1. TÜRKÇE YAZILI BELGELER� N TESP� T � ....................................................... 168

9.1.1. Önceki Çalı � malar ................................................................................ 169 9.1.2. Önerilen Yöntem................................................................................... 175 9.1.3. Deneysel Sonuçlar ................................................................................ 175

9.2. TÜRKÇE MET � NLER� N NORMALLE � T � R� LMES� .......................................... 176 9.2.1. Önceki Çalı � malar ................................................................................ 176 9.2.2. Önerilen Yöntem................................................................................... 178 9.2.3. Deneysel Sonuçlar ................................................................................ 180

9.3. GÖVDELEME ............................................................................................... 185

XV

9.3.1. Önceki Çalı � malar ................................................................................ 187 9.3.2. Önerilen Yöntem................................................................................... 191 9.3.3. Deneysel Sonuçlar ................................................................................ 195

9.4. SÖZCÜK TÜRÜ TESP� T � ............................................................................... 207 9.4.1. Önceki Çalı � malar ................................................................................ 208 9.4.2. Önerilen Yöntem................................................................................... 210 9.4.3. Deneysel Sonuçlar ................................................................................ 224

10. GENEL �STAT

�ST

�KLER.................................................................................. 229

10.1. TANIMLAYICI � STAT � ST � KLER .................................................................... 233 10.2. TÜRKÇE � Ç� N Z � PF GÜÇ KANUNLARI � NCELEMES� .................................... 239

10.2.1. � statistiksel � ncelemeler için Alt Yapı............................................. 239 10.2.2. BilTD Derleminin Zipf Birinci Kanun � ncelemesi ......................... 242 10.2.3. ODTÜ Derleminin Zipf Birinci Kanun � ncelemesi........................ 249 10.2.4. OSTAD Derleminin Zipf Birinci Kanun � ncelemesi ...................... 251 10.2.5. Birle� ik Derlemlerin Zipf birinci kanun incelemesi ...................... 254

10.3. � NG� L � ZCE � Ç� N Z � PF B � R� NC� KANUN � NCELEMES� .................................... 256 10.4. TÜRKÇE � Ç� N KEL � ME DA � ARCI � I (KD) � NCELEMES� .............................. 260

10.4.1. Kelime Da� arcı� ı Boyutları– Zipf Birinci Kanun......................... 260 10.4.2. Kelime Biçimleri – Zipf � kinci Kanun ............................................ 265 10.4.3. � � lev ve � çerik Kelimeler (� ndeks Terimler) ................................... 277

11. NDEKS TER M SEÇ M ................................................................................... 285 11.1. GENEL DA ILIMLAR .................................................................................. 291

11.1.1. Sözcük Türleri .................................................................................. 291 11.1.2. Cümle Unsurları .............................................................................. 299 11.1.3. Sözcük Türü ve Cümle Unsuru Ortak De� erlendirme.................. 305 11.1.4. Kelime Gurupları............................................................................. 307

11.2. BGG S� STEM BA ARIMI ÜZER� NE � NCELEMELER. .................................... 311 11.2.1. Türkçe için E� ik Ba� arım................................................................ 314 11.2.2. � ndeks Terim Seçimi ve A� ırlıklandırma........................................ 317 11.2.3. Dilbilgisi Özelliklerinin Ba� arıma Etkisi ....................................... 321

12. SONUÇ.................................................................................................................... 333 13. GEL � �� M NOKTALARI VE TARTI � MA....................................................... 341 TÜRKÇE- � NG � L � ZCE TER � MLER SÖZLÜ � Ü.................................................. 345 KAYNAKLAR............................................................................................................. 349 EKLER.......................................................................................................................... 367 ÖZGEÇM � � ................................................................................................................. 379

� EK � LLER

�ekil Sayfa

1.1 Enformasyon bilim ve hesaplamalı dilbilim sahalarının etkile� imleri.

10

3.1.1 Enformasyon bilimine katkıda bulunan di � er bilimler (Ingwersen, 1992).

41

3.2.1.1 Bireysel bilme eylemi (Soergel, 1985). 44

3.2.1.2 � nsanlar arasında Mesaj/Haber � letimi. Soergel’den (1985) uyarlanmı � tır. Enformasyonun veriye ve verinin tekrar enformasyona dönü� üm evrelerini betimler.

46

3.3.1 � leti � imin klasik modeli. (Shannon, 1949, uyarlama) 52

3.3.2 Anlamsal-enformasyonun yazı ile iletim modeli. 53

3.4.1 Veri, enformasyon ve bilgi arasındaki ili � kilerin denklemleri. 54

4.3.1 Kar � ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili � ki. 67

5.1 Bilgi Ke� fi/Madencili � i ve Belge/Metin Madencili � i u� ra� larına ait yapısal kurguların kar � ıla� tırması. “Veri’den Bilgi Ke� fi” ve “Belge Madencili � i” sahalarındaki alt süreçler, yapısal ve içerik benze� imleri nispetinde kar � ılıklı e� le� tirilmi � tir.

82

5.1.1 Bilgi geri-getirim sistemlerinin genel kurgusu. 83

5.1.2 Kullanıcı bakı� açısından, BGG sistem hizmetleri. 84

5.2.1 Bilgi geri-getirim sistemlerinin iç yapılanma örne� i. 85

5.3.1 Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal belge temsil yordamı.

87

5.3.2 Sayısal belge temsili olu � turulması adımlarına örnekler. 88

6.1 Bilgi geri-getirim modellerinin sınıflandırılması. (Baeza-Yates and Ribeiro-Neto, 1999, uyarlama).

98

ii

� EK � LLER (devam) �ekil Sayfa

6.1.1 Bir bj belge vektörü ile, qi sorgu vektörünün, iki boyutlu indeks terim uzayında çizgesel betimlemesi.

104

6.2.1 Örnek belge uzayı için, terim-belge matrisi. 108

6.2.2 Örnek derlem terim-belge matrisi için hesaplanmı � , ESA bile� en matrisleri.

110

6.2.3 Belgeler arası kar � ılıklı ili � ki katsayı matrisleri. 113

7.2.1 Kelimelerin frekansları ile muhtemel enformasyonu temsile katkı miktarı arasındaki ili � kinin çizgesi (Luhn, 1958, uyarlama).

122

8.1.1 Anma ve duyarlılık ölçümlerini betimleyen çizge. 141

8.1.2 Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki rekabetin temsili çizgesi.

143

9.2.1 Anma-duyarlılık e� risinin iki örne� i. 151

9.4.2.3.1 Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve kar � ılık gelebilecek sözcük dizisi ihtimalleri (b).

219

9.4.2.3.2 Örnek cümlenin Markov süreci altında, sözcük türü tespit kurgusu.

220

9.4.2.3.3 Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda, önerilen kelime sonundan belirli sayıda harf birli � inin hesaplama birim olarak kullanılması.

223

9.4.3.1 Sözcük türü tespit, sınama sonuçları. 1. dereceden Markov süreci kurgusu altında, tüm talim derlemi boyutları sondan alınan harf birliklerinin tüm uzunlukları için.

225

9.4.3.2 Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi � e bir adım Markov süreci kurgusu altında, tüm talim derlemi boyutları ve sondan alınan harf birliklerinin tüm uzunlukları için.

226


10.1 ODTÜ derlemindeki belge türleri. 230

10.2 OSTAD derlemindeki belge türleri. 230

10.1.1 BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik (harf), kelime ve gövde sayılarının toplam üzerinden göreceli oranları.

231

10.1.2 Birle� ik derleminin (BirTD), kelime esasında kelime da� arcı� ını olu� turan kaynak derlemler ve oransal katkıları.

233

10.1.3 BilTD ve OSTAD derlemlerinin, gövdeler esasındaki kelime da� arcı� ına yaptıkları katkılar.

235

10.2.2.1.1 BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu. 243

10.2.2.2.1 BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi.

246

10.2.2.2.2 BilTD derleminin, gövde esasında, Mandelbrot ifadesi ile W=1000 parametre de� er için uyumu çizgesi.

247

10.2.3.1 ODTÜ derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.

248

10.2.4.1.1 OSTAD derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.

250

10.2.4.2.1 OSTAD derlemin, gövde esasında, Zipf ifadesi ile uyum çizgesi.

251

10.2.4.2.2 OSTAD derleminin, gövdeler esasında, Mandelbrot (W=100) ifadesi ile uyum çizgesi.

251

10.2.6.1 � ngilizce birle� ik derlemin, kelime esasında Zipf ifadesi ile uyum çizgesi.

256

10.2.6.2 � ngilizce birle� ik derlemin, kelime esasında Mandelbrot (W=100) ifadesi ile uyum çizgesi.

256

iv


10.3.2.1.1 Kelime esasında Türkçe birle� ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti � i kelime biçimi adedi ile gözlemlenen kelime biçimi adedinin yayılım çizgesi.

267

10.3.2.1.2 Kelimeler (a) ve gövdeler (b) için kelime da� arcıkları. 269

10.3.2.1.3 Gövde esasındaki Türkçe birle� ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti � i kelime biçimi sayıları ile gözlemlenen kelime biçimi sayılarının yayılım çizgesi.

270

10.4.3.1.1 Gövde esasında Türkçe birle� ik derlem için, Zipf birinci kanun e� im tahminlerinin yayılım çizgesi.

282

11.1.1.1 OSTAD derlemi, kelime (a) ve gövde (b) esasında kelime da� arcı� ı içinde sözcük türü oranları.

293

11.1.1.2 OSTAD derlemi, derlem içinde gözlenme sıklı� ına göre sözcük türü oranları.

294

11.1.1.1.1 OSTAD derleminde sözcük türlerinin indeks terim da� ılımları.

295

11.1.1.1.2 � ndeks terimlerin sözcük türü da� ılımları. 296

11.1.2.1 OSTAD derlemi, cümle unsurlarının indeks terim da� ılımları. 301

11.1.2.2 OSTAD derleminde indeks terimlerin cümle unsuru da� ılımları.

302

11.2.1.2 Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.

315

11.2.3.4.1 OSTAD derleminde, kelime guruplarının geri-getirim ba� arımı üzerine etki sınamasına ait üstel-puanlar.

330

Ç � ZELGELER

Çizelge Sayfa

3.2.4.1 Enformasyonun çe� itli hallerini gruplayan Buckland Matrisi (Buckland, 1991)

50

5.1 Veri geri-getirim ile Bilgi geri-getirim sistemlerinin i � levsel özellikleri.

79

5.3.1 Bir milyon ve on milyon kelimelik Türkçe derlemlerin kelime da� arcıkları (Hakkani-Tür et. al., 2002).

90

6.1 Bilgi geri-getirim modellerinin geri-getirim hizmeti ve sayısal belge temsil � ekli eksenlerinde sınıflandırılması.

100

7.2.1 Zipf birinci kanunun, Tom Sawyer romanı üzerinde deneysel de� erlendirmesi (Manning and Schütze, 2003, uyarlama).

123

8.1.1 Seçilmi � (S) ve hedef (H) olasılık de� i � kenlerinin birle� ik da� ılımının 2x2 olasılık tablosu olarak gösterimi.

142

9.1.2 1000 belgelik örnek bir belge uzayı için anma (A), duyarlılık (D), F-ölçütü ve do� ruluk (DO) oranı ölçüm listesi.

146

9.2.1 BGG sistemlerinin sıralama esasına dayalı de� erlendirme örne� i. Sütunlarda belgelerin farklı üç sıralaması bulunmaktadır.

148

9.1.1.1 Fransızca, � spanyolca, � ngilizce ve Portekizce için yazılı metinden dil tespit sonuçları (Lins and Gonçalves, 2004).

170

9.1.3.1 Çok dilli belge derleminde Türkçe belgelerin tespitine ait deneysel sonuçlar.

175

9.2.2.1 Cümle sonu yordamını tanımlamada kullanılan simge sistemi.

178

9.2.3.1 Cümle sonu tespiti için kullanılan Türkçe derlemin belirli özellikleri.

180

vi

Ç � ZELGELER (devam)

Çizelge Sayfa

9.2.3.2 Cümle sonu tespit yordamında kullanılan ve üçlü birlikle temsil edilen durumlar için Türkçe derlemden çıkartılan istatistikler.

181

9.2.3.3 Cümle sonu tespitinde, [W*W] durumu için, heceleme önermesi ile meydana gelen hata oranları.

184

9.3.3.1 Gövdeleme yöntemi sınamalarında kullanılan Talim ve Test derlemi özellikleri.

195

9.3.3.2 Önerilen gövdeleme yöntemi ile üretilmi � gövdelere örnekler.

199

9.4.2.3.1 Örnek cümlenin, her kelimesinin olası sözcük türleri. 218

10.1 BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri. “* ” karakteri olan hücreler derlemlerin söz konusu özelli � inin belli olmadı� ını gösterir.

228

10.1.1 BirTD için kelimelerin geldikleri derlemler üzerinden istatistikleri.

233

10.1.2 Gövde esasında BirTD derlemi için tanımlayıcı istatistikler. 235

10.2.2.1.1 BilTD derlemi için, kelime esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.

241

10.2.2.2.1 BilTD derlemi için, gövde esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.

245

10.2.3.1 ODTÜ derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.

248

10.2.4.1.1 OSTAD derleminin, kelime esasında Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.

249

10.2.4.2.1 OSTAD derleminin, gövde esasında Zipf ve Mandelbrot ifadesi ile, do� rusal ili � ki uyum sınamaları.

250

10.2.5.1.1 BirTD derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.

252


Çizelge Sayfa

10.2.5.2.1 BirTD derleminin, gövde esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.

253

10.2.6.1 Time, Cranfield, Medlars ve birle� ik derlemlerinin genel özellikleri.

254

10.2.6.1 � ngilizce birle� ik derlemin, Zipf ve Mandelbrot ifadeleri ile, kelime asasında uyum sınaması.

255

10.3.1.1 Türkçe birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı� ı büyüme katsayıları.

259

10.3.1.2 � ngilizce birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı � ı büyüme katsayıları.

259

10.3.1.3 Türkçe birle� ik derlemin gövde esasında incelenen her modeli için, kelime da� arcı� ı büyüme katsayıları.

260

10.3.1.4 Kelime esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı � ı boyut (KDB) tahminleri.

260

10.3.1.5 Kelime esasında � ngilizce birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı � ı boyut tahminleri.

261

10.3.1.6 Gövde esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı � ı boyut tahminleri.

261

10.3.2.1.1 Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri.

265

10.3.2.1.2 Kelime esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonucu.

266

10.3.2.1.3 Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri.

268

10.3.2.1.4 Gövde esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonuçları.

270

viii


Çizelge Sayfa

10.3.2.2.1 Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.

272

10.3.2.2.2 Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.

273

10.4.3.1.1 Kelime esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri.

278

10.4.3.1.2 Gövde esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri.

281

11.1 OSTAD derleminde elle i � aretlenmi � belge istatistikleri. 284

11.2 BilTD ve OSTAD derlemlerinde yapılmı � olan biçimbirimsel i � aretlemede temel sözcük türü kodları.

287

11.1.1.1 Kelime esasında sözcük türlerinin kelime da� arcı � ı içindeki oransal da� ılımları.

292

11.1.1.2 Gövde esasında sözcük türlerinin kelime da� arcı� ı içindeki oransal da� ılımları.

292

11.1.1.3 Sözcük türlerinin derlem içinde görülme sıklıklarının oransal da� ılımları.

294

11.1.1.1.1 OSTAD derleminde sözcük türlerinin indeks terim da� ılımları.

295

11.1.1.1.2 OSTAD derleminde, sözcük türü ve indeks terimlerin toplu de� erlendirmesi.

297

11.1.2.1 OSTAD derleminde cümle unsuru i � aretlemesinde kullanılan kodlar.

299

11.1.2.2 � ndeks terimlerin cümle üzerindeki da� ılımı. 300

11.1.2.3 OSTAD derlemi, cümle unsuru ve indeks terim için toplu de� erlendirme.

303


Çizelge Sayfa

11.1.3.1 OSTAD derleminde, sözcük türü ve cümle unsuru birlikte indeks terim da� ılımı.

305

11.1.4.1 OSTAD derleminde, kelime guruplarının indeks terim da� ılımları.

307

11.1.4.2 OSTAD derleminde 2 kelimeden olu� an kelime guruplarını, sözcük türü kombinasyonlarının indeks terim da� ılımları.

308

11.2.1.2 Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.

315

11.2.2.1 Örnek paragrafın TFxIDF a� ılıkları. 318

11.2.2.2 Örnek paragrafın, TFxIDF a� ırlıkları üzerinden duyarlılık de� erleri.

319

11.2.3.1.1 Örnek paragrafın, sözcük türü ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.

323

11.2.3.1.2 OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve sözcük türü a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.

324

11.2.3.2.1 Örnek paragrafın, cümle unsurları ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.

326

11.2.3.2.2 OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve cümle unsuru a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.

326

11.2.3.3.1 Örnek paragrafın, cümle unsuru ve sözcük türü ile birlikte atanan a� ırlıkları üzerinden duyarlılık de� erleri.

327

11.2.3.3.2 OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF ile sözcük türü ve cümle unsuru birlikte, yapılan a� ırlıklandırma ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.

328

x

YAYIN L � STES�

Dinçer , B., T. and Karao � lan, B., 2004, “Sentence Boundary Detection in Turkish.” , Proceedings of the 3rd International Symposium on Advances in Information Sciences (ADVIS’04), To be published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, 20-22 October, Izmir, Turkey.

Dinçer , B., T. and Karao � lan, B., 2004, “Effect of part-of-speech tagging on IR performance for Turkish.” , Proceedings of the 19th International Symposium on Computer and Information Sciences (ISCIS’04), To be published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, 27-29 October, Kemer–Antalya, Turkey .

Celikel, E. and Dinçer B., T., 2004, "Improving the Compression Performance of Turkish Texts with PoS Tags", International Conference on Information and Knowledge Engineering (IKE’04), published by CSREA Press (ISBN: 1-932415-27-0), Las Vegas, Nevada, USA, June 21-24.

Dinçer , B., T. and Karao� lan, B., 2003, “Stemming in Agglutinative Languages: A probabilistic stemmer for Turkish.” , Proceedings of the 18th International Symposium on Computer and Information Sciences (ISCIS’03), Published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, Vol: 2869, 3-5 November, Kemer–Antalya, Turkey, pp. 244-251.

Dinçer , B., T. ve Karao� lan, B., 2003, “Bilginin Sosyal Uzantısı : Bili � im” , Bilgi Teknolojileri Sempozyumu, B � LG� -TEK’03, Bildiriler Kitabı (ISBN: 975-6992-08-5), Pamukkale Üniversitesi, Denizli, Türkiye, 44-46.

xii

B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004

1

1. G � R ��

“ Bilgi güç demektir.” (Francis Bacon,1561-1626)

Bu tez bilgi geri-getirim veya eri � im (BGG veya BE)

sistemlerinde birbirini destekleyen iki çalı � mayı sunmaktadır: Türkçe

yazılı metinler için sayısal belge temsilini dil-bilim özelliklerine dayalı

istatistikler ile destekleme yöntemleri ve dil-bilim özellikleri ile

desteklenmi � sayısal belge temsilinin geri-getirim ba� arımı üzerindeki

etkilerinin ara� tırma sonuçları. Geli � tirilen yöntemlerin, Türkçe yazılı

metinlere uygulanabilmesi için gerekli, bir ön-i � lem a� aması olan

simgele� tirme (Tokenization), cümle sonu tespitini de içerecek � ekilde

geli � tirilmi � tir. Tez hedefinde, Türkçe yazılı metinler bulundu� u için,

çok dilli bir belgeler toplulu� u içinden (örne� in Internet) Türkçe yazılı

metinlerin hızlı ve verimli bir � ekilde ayırt edilmesine yönelik yeni bir

yordam da ayrıca olu� turulmu � tur. Bu bölümde öncelikle BGG

sahasının tanıtımı, sahadaki u� ra� ların genel hedefleri ve bu hedeflere

ula� manın önünde mesele yaratan konular tanıtılacaktır. Tezin kapsamı

ve hedefleri genel tanıtımın ardından sunulacaktır. Tez kapsamımız

içinde cevapladı � ımız ara� tırma sorularının özetleri ve tezin genel

anlatım akı � ı bölüm sonunda yer almaktadır.

Bilgi geri-getirimin veya eri � imin tanımı en genel hali ile

� öyledir:

“ � nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve sunulmasını içine alan bir süreç. ...”

(Ingwersen, 1992)


2

Verilen tanımının sınırları içinde BGG, kullanıcıların belirtti � i

enformasyon ihtiyaçları do� rultusunda belirli bir belge toplulu� undan

alakalı belgelerin kılavuzlarının (künyelerinin ve eri � im bilgilerinin),

daha do� rusu varlı � ının tespit edilmesi i � idir. Söz konusu, güncel

anlamda sorun olan hedef belge toplulu� u Internet’ tir. Internet’ in

günlük ya� amın içine girmesi ve yaygınla� ması ile insanlık tarihinde

� imdiye kadar kar � ıla� ılmamı � miktarda ki � isel, bölgesel, kurumsal,

bilimsel vb. enformasyon’ un bir arada bulundu� u bir ortam olu� mu� tur.

Dolayısı ile yönetilmesi, depolanması ve organize edilmesi gereken,

sayısı milyonlarla ifade edilen metin, resim ve görüntü vardır (Brin and

Page, 1998). Internet üzerindeki geli � imin ne düzeylerde oldu� u ve

gelecekte bizi ne tür bir enformasyon hacminin bekledi � ine dair bir

izlenimi � u istatistiklerden rahatlıkla elde edebiliriz1: 1998 yılı için,

sadece Amerika’daki tahmin edilen Web sayfası sayısı 320 milyon ve

Internet kullanıcısı sayısı 57 milyondur, 81 milyon e-posta kullanıcısı

arasında toplam 3,4 trilyon mesaj gönderilmi � tir; � ngiltere ile � rlanda

arasındaki yıkıcı (spam) e-posta gönderimini engelleme i � inin, 1998

yılı tahmini bedeli 8 milyon dolardır; 1997 yılının ikinci çeyre� i itibari

ile Internet � irketlerine yatırılan risk sermayesi miktarı 561 milyon

dolardır; Yahoo arama motorunda günlük görüntülenen sayfa sayısı

ortalama 38 milyondur; Web kullanıcılarının %82’si Internet’ i

vazgeçilmez olarak görmektedir ve “Home Corporation” 1999 yılında,

Excite arama motorunu 6.2 milyar dolara satın almı � tır ( Aynı yıl Ford

motor � irketi Volvo’ nun araba üretim bölümünü 6.45 milyar dolara

satın almı � tır !!!). Bu istatistikler elbette Internet ortamının tamamını

resmedenler de� ildir, ancak � u anki durumun ve geli � imin ne yönde

olabilece� i açısından bir fikir vermektedir. Fakat, enformasyon

zenginli � i açısından geli � en Internet’e paralel olarak kullanıcılar: çok

1 http://www.why-not.com/company/stats.htm


3

fazla enformasyonla kar � ı kar � ıya kalmaktadırlar. Bu enformasyonun

büyük ço� unlu� u ihtiyaç duydu� umuz enformasyon de� i ldir. Söz

konusu durum, yani aradı � ımız enformasyonun bulamayaca� ımız kadar

çok alakasız enformasyon içinde kalması durumu, fazla enformasyon

yüklemesi (Information overload) olarak adlandırılır. Internet’ teki fazla

enformasyon yüklemesi neredeyse önemli ve ciddi çalı � malar için

Internet ortamının kullanılamaz hale gelmesine sebebiyet verecek

noktalara çıkmı � tır. Bir ba� ka söyleyi � le, alakasız enformasyon miktarı,

alakalı enformasyonun bulunmasını imkansız hale getirecek

düzeylerdedir:

“ Web üzerindeki fazla enformasyon yüklemesinin en önemli sebebi, Web’ in çift amaç ta� ıyan bir ortam olmasıdır: aynı anda hem ki � isel hem kamusal enformasyonun, yayınlanması ve ileti � imin sa� lanması. Ki � isel olarak çok önemli olan konular, genelde kamusal anlamda önemli de� i ldir. Web üzerinde oldu� u gibi, e� er bir ileti � im ortamı üzerindeki arka-plan gürültüsü lüzumlu içeriklerin daha geni � kitlelere ula� masını engelleyecek düzeye çıkmı � sa, o ileti � im ortamı geçerlili � ini yitirir.

..., Çok � ükür ki, ki � isel radyo endüstrisinde ya� anan kendi kendini yok etme durumuna gelme e� i limi siber-uzayın sayısal alt-yapısı ile önlenebilir. Tabii ki, her yönden gelecek hesaplamaya dayalı yardımlar ile.”

(Berghel, 1997)

Internet üzerindeki enformasyonun neredeyse tamamı yapısal

olmayan ve do � al dilde yazılmı � belgelerden olu � tu� u için (bu durum

ili � kili veri-tabanlarındaki meselelerden farklıdır: Bölüm 6),

hesaplamalı dil-bilim (computational linguistics), yani do � al dilin

(dillerin) hesaplamaya dayalı çözümlemesi fazla enformasyon

yüklemesi meselesi kar � ısında, enformasyon bilimleri içerisindeki

u� ra� larda (bilgi geri-getirim sistemleri, enformasyon süzme sistemleri


4

(information filtering systems) vb. uygulamalar) önemini giderek

arttıran bir konu olacaktır2.

BGG sahasında genel anlamda ara� tırmaya açık konular 6 ana

ba� lık altında toplanabilir (van Rijsbergen, 1979).

1. Otomatik Sınıflandırma: Çok büyük sayısal belge topluluklarının, yönetilebilir büyüklükte sınıflar altına bölümlenmesidir.

• � statistiksel bir yöntem olan clustering (kümeleme) çözüm olarak uygulanmakta, fakat sayısal yordam olarak hızlandırılmaya ihtiyaç duymaktadır.

2. Dosya Yapılar ı: � ndeks terimlerin devrik dosya (inverted file) � eklinde tutulması yöntemi, küme kuramsal yöntemler için etkin olmasına ra� men; di � er olasılık kuramsal ve cebirsel yöntemler için çok etkin de� ildir. Bu yöntemlerde etkin � ekilde kullanılabilecek bir dosya yapısına ihtiyaç vardır.

3. Arama Stratej iler i: BGG hızını artırmak için yeni e� le� tirme/arama yöntemlerinin geli � tiri lmesine ihtiyaç vardır.

4. Benzetim: Genel anlamda, bir belge toplulu� unda, birbirleri ile alakalı belgelerin da� ılım simülasyonuna, yani örneksel benzetimlere ihtiyaç vardır. Özelde ise, ara� tırma için açık olan ana meselelerden en önemlisi, belge topluluklarındaki anahtar kelime da� ılım simülasyonudur.

5. � çer ik Analizi: Belge içeriklerinin bilgisayar ortamında anahtar kelimelerden veya indeks terimlerden ba� ka ne � ekilde sayısal olarak temsil edilebilece� inin belirlenmesi. Meseleye ba� langıç noktası olabilecek yakla� ımlarsa;

2 Fazla enformasyon yüklemesi meselesi kar � ısında, yapısal olmama durumunu çözümlemek adına anlamsal web (semantic web) tasarımları da bir çıkar yol olarak görülmekte ve geli � tirilmektedir. http://www.w3.org/


5

• Yapay zeka teknikleri kullanan bir bilgisayar yordamı ile do� al dilin anla� ılması veya

• Psiko-dilbilim, yani akıl-dilbilim veya anlam-dilbilim sahasında insan beyninde, do� al dilin anla� ılması mekanizmalarının incelenmesi ve örneklenmesi olabilir.

6. Metin Sıkı � tırma: Sıkı � tırma anlamında iki ihtiyaç vardır: birincisi sahip olunan çok büyük miktardaki verinin etkin ve hızlı � ekilde sıkı � tırılması ve açılmasıdır; ikincisi ise sıkı� tırılmı � verinin açılmasına gerek duymadan i � lem yapabilen yöntemlerin geli � tirilmesidir.

James ve arkada� ları (2003) SIGIR3 kongresinde BGG u� ra� sahasının kısa (1-5 yıllık) ve uzun (5-10 yıllık) vadeli ara� tırma

hedeflerini ve ihtiyaçlarını özele indirgenmi � ba� lıklar halinde bildiri

olarak yayınlamı � lardır. A � a� ıda bildirinin belirtti � i ara� tırma

sahalarına ait ana ba� lıklar ve kısa açıklamaları vardır. Aslen, van

Rijsbergen (1979) tarafından ortaya konan ihtiyaçlarda yakla� ık son 35

yılda çok fazla de� i � iklik olmadı � ı görülmektedir. Sahanın kapsam ve

uygulama alanı güncel teknoloj ileri desteklemek/kullanmak için

geni � lemi � , hesaplamalı dil-bilim sahası ile etkile� imin zorunlulu� u bir

kez daha söz konusu geli � imi kar � ılamak amacıyla ortaya konmu � tur.

James ve arkada� ları (2003) tarafından belirtilen hedefler � unlardır:

3 SIGIR, � ngilizce “Special Interest Group on Information Retrieval” olan bilgi geri-getirim sahasında u� ra� veren uluslararası kurum ve kurulu� ların düzenledikleri senelik sempozyumunun kısaltmasıdır.


6

1. En genel anlamı ile uzun vadede BGG u� ra� sahasında iki büyük meseleden bahsedilmi � tir: Küresel enformasyon eri � imi ve ba� lamsal geri-getirim. Küresel enformasyon eri � imi olarak, kullanıcının enformasyon ihtiyacını kar � ılayacak, özellikle Web esasına dayalı yapısallı � ı olan ve genelde de yapısal olmayan tüm belgeleri tahlil eden, kullanıcı ile do � al ve etkin bir ileti � im kuran sistemler tarif edilmi � tir. Ba� lamsal geri-getirim olarak, “arama stratejilerini” , “sorguları” ve “ kullanıcılar hakkında eldeki bilgileri” tek bir çatı altında birle� tiren, kullanıcıya bu sayede daha etkin

� ekilde cevap verebilecek sistemler tarif edilmi � tir. Mobil ileti � im vb. teknolojiler, bilgi geri-getirimin kullanıcı odaklı ve ba� lam esasında kullanımı için uygulanabilir örnekler olarak ortaya konmu� tur.

2. Yeni geri-getirim yöntemlerinin ortaya konması konusunda uzun ve kısa vadeli hedefler ve ihtiyaçlar belirlenmi � tir. Genel olarak mevcut sistemlerin 1960’ ların kurgularına dayandı � ı ve enformasyon ihtiyaçlarının kar � ıla� ılan karma� ıklı � ı ile ba� edemedi � i belirtilmi � ; özellikle dil-bilim kuramlarının, modeller içerisinde sadece kelime, kelime gurupları esasında ele alındı � ı, bunun yeterli olmadı � ı, dil-bilim kuramlarına dayalı geri-getirim yöntemlerinin geli � tirilmesi gerekti � i; kullanıcı bakı � açısının mevcut kurgularda ya hiç olmadı � ı ya da yetersiz � ekilde temsil edildi � inden bahsedilmi � tir. Bu ihtiyaçları kar � ılamak için tek bir modelin olamayaca� ı gerçe� inden yola çıkarak, kapsamı daraltılmı � , yani belirli sahalar için özelle� tirilmi � modellerin geli � tirilmesi ön görülmü� tür.

3. Çok dill i bilgi geri-getirim (bir do � al dilde yapılan sorgunun di � er do� al dillerdeki belge uzaylarında da aranması) a� ırlıklı konular arasına girmi � tir. Dilbilimin, bilgi geri-getirim sahasında kullanılabilirl i � ini etkin hale getirecek yeni geri-getirim yöntemlerinin ve sayısal belge temsillerinin (içerik analizi) önemine çok dilli geri-getirim amacını etkin � ekilde gerçekle� tirebilmek adına bir kere daha de� inilmi � tir. (Bugün dünya üzerinde yakla� ık 7000 dil konu� ulmaktadır. Bu dillerden 320 tanesi yaygın dillerdir ve dünya nüfusunun %80’ ini tarafından konu� ulur (Strassel et al, 2003; Oard, 1997)).


7

4. Internet üzerindeki enformasyonun geri-getirim etkinli � inin arttırılması için, arama stratejilerinin geli � tirilmesine yönelik uzun ve kısa vadeli hedefler ve ihtiyaçlar belirlenmi � tir.

5. Kullanıcı modellerinin geri-getirim yöntem kurgularında a� ırlıklı ö� e olarak ele alınması ve verilen kullanıcı hizmetlerinin daha i � levsel modellerinin olması gereklili � i ortaya konmu� tur. Bu yönde ilerleyecek çalı � maların kısa ve uzun vadeli hedefleri ve ihtiyaçları belirlenmi � tir.

6. Süzme (Filtering), konu tespiti (topic detection) ve sınıflandırma (classification) gibi u� ra� larda mevcut sistemlerin genele uygulanabilirli � inin önünde engel te� kil eden hesaplama karma� ıklıklarını halledebilmek için yeni tekniklerin ve çözümlerin gereklili � i ortaya konmu� tur. Özetleme (Summarization) u� ra� ında geli � me kaydedebilmek için yine dilbilimsel yöntemlerin etkin kullanımını ihtiyacı ortaya konmu � tur. Aynı � ekilde soru-cevaplama (question answering), üstel-arama (MetaSearch), da� ıtık geri-getirim (distributed retrieval), çoklu ortam geri-getirim (multimedia retrieval) ve enformasyon özümseme (information extraction) u� ra� sahalarında da benzer ihtiyaçlara de� inilmi � tir.

7. Önerilen geri-getirim örneklerinin denenmesi için sınanmı � daha büyük belge uzayına, yani külliyatlara/derlemlere ve sorgu kümelerine olan ihtiyaç ortaya konmu� tur. Mevcut olan 1000 kadar sorgu için sınanmı � deneysel derlemlerin yeterli olmadı � ı, sorgu sayısının 100,000 seviyelerine çıkarılması gereklili � i ortaya konmu� tur. � ngilizce dı � ındaki di � er diller için de sınanmı � deneysel belge topluluklarının acil ihtiyacına dikkat çekilmi � tir (Gereksinim olan diller için ve ne tür çözümlerin uygulanabilece� ine dair geni � bilgi için ayrıca Strassel ve arkada� ları (2003) çalı � masına bakınız.).

Bu tezin kapsamı, van Rijsbergen (1979) sınıflandırması içinde

içerik analizi veya James ve arkada� ları (2003) sınıflandırmasında yeni

geri-getirim yöntemleri, yani hesaplamalı dilbilim ile etkile� imin

arttırıldı � ı geri-getirim yöntemlerinin tasarlanması altına girer. � ekil

1.1.’de BGG sahasının (Enformasyon bilimin bir alt u� ra� ı olarak) ve


8

hesaplamalı dilbilim sahasının kar � ılıklı etkile� imi, tez kapsamına giren

u� ra� ları ve ara� tırma hedeflerini netle� tirecek � ekilde, bir çizge halinde

verilmi � tir. � ekilde, tezin ara� tırma hedeflerinin ba� arılmasında katkı

sa� layacak temel konuların ba� lıkları dolgulu kutular ile gösterilmi � tir. � ekilde yer almayan, ancak tez kapsamını tamamlayan yan konular da

bulunmaktadır. Bu konuların ba� lıkları sırasıyla: “Türkçe” (Bölüm 2),

“Kavram olarak Enformasyon ve � leti � im” (Bölüm 3) ve “Enformasyon

Kuramı ve Düzensizlik (Entropy)”dir (Bölüm 4).

Tezin hedefindeki ara� tırma konusu en genel � ekli i le � öyle

tanımlanabilir:

Tanım 1.1: (Tezin ara� tırma konusu) BGG sistemlerinde, yazılı metinler (belgeler) için kullanılan sayısal belge temsil yönteminin (içerik analizi) Türkçe dil-bilimsel özellikler ile ta� ınan enformasyonu içerecek � ekilde, Türkçe metinler için istatistiksel yöntemler yardımıyla geli � tirilmesi.

Tanım 1.1.’de verilen sayısal belge temsilinin geli � tirilmesi için

tezde kullanılacak dilbilimsel özelliklerin ba� lıkları, � ekil 1.1.’den de

takip edilebilece� i gibi sırasıyla � unlardır: Sözcük türleri (isim, fiil

vb.), kelime gurupları (birden fazla kelimeden olu� an anlamsal

birlikler) ve cümle unsurları (cümlenin fiili, faili, nesnesi vb.). � ekil

1.1.’de bilgi geri-getirim sahası ve hesaplamalı dilbilim sahası iki ayrı

çalı � ma alanı olduklarını niteleyecek � ekilde ayrık sınırlar içine

alınmı � tır. BGG, enformasyon bilim sahasının bir alt u� ra� ı olarak

di � er alt u� ra� larla birlikte gözükmektedir. Hesaplamalı dilbilim

sahasının alt u� ra� ları da, yalın bir metinden anlamın çıkarılması için

kullanılan yöntemlerin dilbilimsel çözümleme seviyelerine göre silsile

� eklinde olan sınıflandırması ile gösterilmi � tir. Dilbilimsel çözümleme


9

seviyelerinin tez çalı � mamız içine girenleri “Hedef” etiketi ile

gösterilen ve “kesikli çizgi” ile kesi � enlerdir. BGG sahası ile

hesaplamalı dilbilim sahasının ili � kisi geleneksel sistemler esas

alındı � ında içerik analizi üzerinden olmaktadır. � ekilde geleneksel

sistemlerde içerik analizi için kullanılan mevcut yöntemler koyu bir

çerçeve içine alınmı � tır ( � ekilde “Mevcut” etiketi ile i � aret edilen). �çerik analizinde, bu tez hedefleri do� rultusunda yapılacak katkının

ba� lıklarıysa, “Hedef” etiketi i le i � aret edilen kesikli çerçeve içinde

dolgulu olarak gösterilmi � tir. Ayrıca hedeflere ula� abilmek için tezin

her iki saha içinde kapsamına giren konuların ba� lıkları da, dolgulu

olarak gösterilmi � tir. � ekilde dolgulu olmayan ba� lıklar tez kapsamının

dı � ındadır.

Her ne kadar, hesaplamalı dilbilim içinde a� ırlı � ı olan bir konu

olmasa da, yalın metinleri hesaplama birimlerine (kelimeler, sayılar,

noktalama i � aretleri vb.) ayrılması meselesi, yani simgeleme

(tokenization) de tezin ara� tırma kapsamına dahil edilmi � tir. Ayrıca,

tezin hedefinde Türkçe metinler oldu� u için, herhangi bir “ çok dilli”

belge toplulu� undan Türkçe metinlerin otomatik olarak ayrı� tırılması

da ara� tırma kapsamındadır.


10

BilgiGeri-Getirim

BGG Sistemi( Çekirdek Bile �enler )

Enformasyon Bilim

Alt U

�

ra �larAra �tırma Sah.

Hesaplamalı Dilbilim

EnformasyonÖlçütleri

EnformasyonYönetimi

EnformasyonGeri-Getirim

Etkile �imi

Alt U

�

ra �lar

�

çerik Analizi

Sınıflandırma

Simülasyon

Sıkı �tırma

Ba �arı Ölçüm

Göz-Atma Hiz.

Geri-Get. Mod.

�

çerik Anal.

Dosya Yap.

3

5

5

6

87

Dilb

ilimse

l analiz sıralaması

� � � � � � � � � � �

� � � � � � � � � � �

� � � � � � � � � � �

Gövdeleme

Durma Listesi

Simgeleme

E � Anlam

BirlikteGözükme

Biçim

Sözlük

Sözdizim

Anlam

Söylev,Pragmatic

CümleUnsuru

KelimeGurubu

SözcükTürü

HEDEF

Mevcut

�

ekil 1.1: Enformasyon bilim ve hesaplamalı dil-bilim sahalarının etkile �imleri. Dolgulu �ekiller tez kapsamını göstermektedir.

ekillerin sa

üst kö �esinde yıldız içindeki sayılar, konunun tez akı �ında anlatıldı

ı bölüm numarasıdır. Alt u

ra �lar sadece hesaplamalı dil-bilim için, yalın bir metnin analiz sırasını verecek �ekilde betimlenmi �tir.


11

Bu tezde, ara� tırma konusu kapsamında yapılan çalı � malar

maddeler halinde � u � ekilde sıralanabilir:

1. Türkçe yazılı metinlerin otomatik tespiti. Herhangi bir çok dill i yazılı belge toplulu� undan, Türkçe belgelerin otomatik olarak tespit edilmesi.

2. Türkçe belgelerin simgele� tirilmesi (tokenization). Yazılı Türkçe belgelerin yalın halinden, hesaplamalı dil-bilim uygulamaları için uygun olan hesaplama birimlerine (kelime, sayı, v.b.), yani hesaplama simgelerine dönü� türülmesi ve cümle sonlarının tespiti.

3. Sözcük-türü enformasyonunun sayısal belge temsili içinde kullanılabilmesi, yazılı belgelerden elde edilen simgelerin, özellikle kelimelerin dil-bilimsel temel türlerinin belirlenmesi ile elde edilen enformasyonun sayısal belge temsilinde içerilmesidir. Tez kapsamında ele alınan dokuz temel sözcük/kelime türü � unlardır: isim (noun), özel isim (proper noun), fiil (verb), sıfat (adjective), zarf/belirteç (adverb), zamir/adıl (pronoun), ba� laç/rabıt (conjunction), soru (Question), edat/ilgeç (preposition). Temel kelime türlerinin yanı sıra simge olarak ele alınan di � er birlikler de

� unlardır: rakamlar, kısaltmalar (abbreviations) ve noktalama i � aretleri (punctuations).

4. Türkçe için Gövdeleme Yöntemi (stemming): Türkçe yazılı metinlerde, aynı anlamı ta� ıyan ancak yazımda dilbilgisi kuralları gere� i çe� itli i � levsel il i � kilerin kurulması için ek alarak farklı

� ekillerde gözlenen kelimelerin, ortak bir biçim, yani � ekil birli � i altında toplanması. Bu � ekilsel birlik, genel olarak dilbilimde kelime gövdesi olarak kabul edilir. Ancak, bilgi geri-getirim uygulamalarında ortak � eklin her zaman anla� ılır bir kelime olması

� artı olmadı � ı da burada belirtilmesi gereken bir durumdur: örne� in n-gramlar cinsinden metinlerin indekslenmesi veya tüm kelimelerin yazılı � ekillerinin ba� tan itibaren belirli sayıda bir harf uzunlu� una kadar alınması ve geri kalan kısmın atılması durumlarında, anlamlı birlikleri söz konusu de� ildir.


12

5. Kelime/Sözcük Türlerinin Tespiti (Part-of-Speech Tagging): Türkçe metinlerde, her kelime için, o kelimenin olası kelime türleri içinden, bir cümlenin söz-dizimsel akı � ı içinde i � levsel görevlerine uygun olanının seçimi. Örne� in, bir ismin bir ba� ka ismi vasıflandırmak için önüne geldi � i durumlarda, isim görevi yerine sıfat görevi gördü� ünün belirlenmesi.

6. Kelime gurubu enformasyonunun sayısal belge temsili içinde kullanılabilmesi. Kelime gurupları, yazılı belgelerde birden fazla kelimeden olu� an ve bütün halinde kar � ılanan bir anlam birli � ini temsil eder. Yazılı Türkçe’de kelime guruplarının çe� itleri oldukça zengindir. Ancak bu tez kapsamında “kelimelerin gurup halinde dil-bilimsel tutarlılık içinde bulunması” enformasyon olarak kabul edilmekte, grubun dil-bilimsel açıdan alt tanımlamaları ayrı � ımına gidilmemektedir.

7. Cümle unsuru enformasyonunun sayısal belge temsili içinde kullanılabilmesi. Türkçe’de cümle unsurları fiil, fail (özne), nesne, yer tamlayıcısı ve zarftır. Fiil ve fail bir cümlenin esas unsurları, nesne, zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Yazılı bir cümlede bu temel unsurlardan ba� ka bir de edatlar bulunabilir.

8. Genel � statistikler: Bu çalı � ma, 5., 6. ve 7. maddelerde öngörülen dilbilgisi enformasyonun kullanımını mümkün hale getirecek alt yapıyı hazırlamaktadır. Genel istatistikler aslen Zipf birinci ve ikinci ilkesinin Mandelbrot yorumları ile birlikte, elimizdeki derlemler üzerinden incelemesini içermektedir. � nceleme iki ana bölümden olu� mu� tur:

8.1. Zipf ve Mandelbrot üzerinden birinci güç kanunun incelenmesi.

8.2. Zipf ikinci kanunu üzerinden, kelime da� arcı � ı incelemeleri ve frekans esasında indeks terim seçimi.


13

9. Deneysel Derlem hazırlama: Türkçe için bilgi geri-getirim ba� arımının ölçümünde kullanılacak, dilbilgisi özellikleri i � aretlenmi � bir derlem bulunmamaktadır. Hesaplamalı dilbilim sahası için Orta Do� u Teknik Üniversitesi (ODTÜ) ve SABANCI üniversitelerinin ortak çalı � ması ile gerçekle� tirilmi � bir derlem, sadece dilbilgisi özellikleri kodlanmı � olarak mevcuttur. Kısaca OSTAD olarak adlandırdı � ımız bu derlemde: kelimelerin biçimbirimsel analizi (morphology), dolayısı ile kelime türleri ve ayrıca cümle unsurları i � aretlenmi � tir. Tez çalı � mamızda kullanılmak üzere, derlem içinde indeks terim olan kelimelerin i � aretlenmesi de, yazar tarafından “elle” yapılmı � tır.

Tezde dilbilimsel özelliklerin sınanması amacı ile iki Türkçe

deneysel derlemden faydalanılmı � tır. Birinci derlem, Bilkent

Üniversitesinde hesaplamalı dil-bilim çalı � malarının “ sonucu” olarak

otomatik � ekilde i � aretlenmi � yakla� ık 850,000 simge-birli � i içerendir

(Hakkani-Tür et. al, 2002). Tez içinde bu derlem BilTD kısa adıyla

geçmektedir (Bilkent Türkçe Derlemi) � kinci derlem ise hesaplamalı

dilbilim ara� tırmalarını desteklemek amacına yönelik ODTÜ ve

Sabancı üniversitelerinin ortak çalı � masıdır (Atalay et al., 2003;

Oflazer et al., 2003). Bu derlem tamamı elle i � aretlenmi � 7262

cümleden olu� maktadır. Tez içinde derlem, OSTAD (ODTÜ Sabacı

Türkçe A � aç Yapılı Derlemi) kısa adıyla geçmektedir. Genel

istatistikler ba� lı � ı altında kullanılan bir üçüncü derlem daha vardır:

ODTÜ derlemi. ODTÜ derlemi yakla� ık 2.5 milyon birlikten

olu� maktadır. Aslen OSTAD, bu derlemden seçilmi � bazı paragraflarla

olu� turulmu� tur. Fakat, ODTÜ derleminde hiçbir dilbilgisi özelli � i

i � aretli de� ildir. Bu yüzden sadece genel istatistiklerin alınması

a� amalarında kullanılabilmektedir.

Bilgi geri-getirim uygulamalarının merkezinde bulunan konu,

sorgu ile belgeler arasında sistemin kurmak zorunda oldu� u alakadır.


14

Alaka kavramı ise do� asında öznellik ta� ır (Baeza-Yates and Ribeiro-

Neto, 1999). BGG sistemlerinin ana hedefi kullanıcının, yani ki � ilerin

enformasyon ihtiyaçlarını kar � ılamaktır. Bu yüzden bir ki � inin kendi

ihtiyaçları ile alakalı buldu� u enformasyon, bir ba� ka ki � i için pek o

kadar da alakalı olmayabilir. Dahası, ki � iler sıklıkla verilen bir sorgu ile

geri-getirilen belgelerin alakalı oldukları konusunda anla� mazlık

gösterirler (Hersh et al., 1995). Ki � iler arasındaki anla� mazlı � ın ortaya

çıkması ihtimali, belgeler ile sorgular arasındaki alakanın mutlaklıktan,

bir derece alakalı olu� a do� ru gidi � i yönünde artı � gösterir. Ayrıca,

alaka sadece sorgu ve eldeki belge toplulu� una ba� lı da de� ildir;

alakaya karar veren ki � inin o anki istekleri, yani ihtiyaç ba� lamı ile de

yakından ili � kilidir. Belirtildi � i gibi “BGG sistemlerinin hedefinde

insanların enformasyon ihtiyacını kar � ılamak” oldu� u için, söz konusu

öznellikten kurtulmanın bir yolu da yoktur. Bu yüzden bilgi geri-

getirim sistemlerinin ba� arımlarının ölçülmesi sorunlu bir durum te� kil

eder.

BGG sistemlerinde kullanılan genel ba� arım ölçütleri (Bölüm 8):

Anma (recall) ve duyarlıktır (precision). Anma ve duyarlılık ile ba� arım

ölçümünde iki temel mesele kar � ımıza çıkmaktadır:

1. Ölçütlerin kullanılabilmesi için, derlemdeki her belge ile ba� arım ölçümünde kullanılacak tüm sorgular arasındaki alaka kararının önceden verilmesi gerekir; ancak bu kararı sadece insanlar verebilmektedir.

2. Sorgular ve belgelerin alakalı olu� ları ile ilgili insanlar tarafından verilen kararlar ki � iseldir; dolayısı ile bir BGG sisteminin ba� arım ölçümünün nesnel (objektif) olması için alaka kararını birden fazla ki � inin vermesi gerekir.


15

James ve arkada� ları (2003) tarafından SIGIR kongresinde BGG

sistemlerinin geli � tirilmesi için daha büyük derlemlerin

olu� turulmasının neden mesele olarak gündeme getirildi � i de böylece

netli � e kavu� maktadır. BGG u� ra� ları için derlem hazırlamak, ba� arım

ölçütleri anma ve duyarlılık oldu� u sürece, çok maliyetli ve kalabalık

çalı � ma guruplarının uzun zaman üzerinde u� ra� ması gereken bir konu

olarak kalacaktır. Türkçe için nesnelli � ine güvenilebilecek, eri � imi

serbest, standart olmu� bir BGG sistem ba� arım ölçüm derlemi, ne

yazık ki yoktur! Mesele aslında sadece Türkçe’nin de� ildir, üzerinde az

u� ra� ılmı � di � er diller içinde geçerlidir (Çok çalı � ılmı � � ngilizce ile

orta-Avrupa dillerini çıkardı � ımızda, geriye kalan üzerinde az

çalı � ılmı � yakla� ık 300 dil). Bir bakıma ba� arım ölçütlerinin bu hali ile

kalmasının bir ekonomi yarattı � ı da dikkat çeken bir gerçektir! Fakat

ekonomisi bir yana, BGG sistemlerinin ba� arımlarını daha dü� ük

maliyetlerle ve nesnel olarak ölçmek için bir yol daha vardır, o da

matematiksel/istatistiksel bir ölçüm yöntemi örne� i geli � tirmektir.

Bu tezde ba� arım ölçütü olarak kullanaca� ımız yöntem olan

üstel-puanlama (Meta-Scoring) matematiksel/istatistiksel yöntemler

sınıfına girmektedir ve ne yazık ki tektir (Jin, 2001). Carnegie Mellon

üniversitesinde, dilbilim teknolojileri enstitüsü ve bilgisayar bilimleri

bölümünün ortak çalı � ması ile geli � tirilen bu yöntem, anma ve

duyarlılık ölçütlerinin tüm olumsuz yönlerinden arındırılmı � tır (Bölüm

7.3). Yöntem saklı-anlam-indeksleme (LSI-Latent Semantic Indexing,

Bölüm 5.2) geri-getirim yönteminin esas aldı � ı matematiksel kurguya

göre biçimlendirilmi � tir.

Tezin anlatım akı � ı genel olarak iki parçaya ayrılmı � tır: Parça-1

içinde kuramlar, yöntemler v.b. teze esas olu� turan temel konular yer

almaktadır. Parça-2 içinde ara� tırma konusu kapsamındaki çalı � malar


16

ve sonuçları vardır. Okuyucu Parça-1’ i atlayıp, Parça-2’ye geçebilir.

Parça-2’deki ara� tırmaların akı � ı içinde, Parça-1’e yapılan atıf

noktalarından geriye dönerek de Parça-1’den faydalanabilir. Bu durum,

anlatım akı � ını bozmaz. Her iki parçayı olu� turan bölümler ve içerikleri

a� a� ıdaki gibidir:

PARÇA-1 BÖLÜM-2 : Türkçe: Türkçe’nin teze esas olan dilbilgisi

özelliklerinin tanıtımı. BÖLÜM-3 : Enformasyon: BGG sahasında ve

enformasyon bilim altında ele alınan di � er sahalarda, uygulamaların temelini olu � turan enformasyon fikrinin kavram olarak çok yönlü tanımı.

BÖLÜM-4 : Enformasyon Kuramı: Enformasyon fikrinin matematiksel kuramı, enformasyon ileti � im modeli ve ili � kili konular: düzensizlik (entropy), istikrarsızlık (perplexity) v.b. kavramlar.

BÖLÜM-5 : BGG Sistemleri: BGG sahasının detaylı kapsamı ve tanıtımı. BGG sistemlerinin genel kurgusu ve yapı unsurlarının tanıtımı.

BÖLÜM-6 : Geri-getirim Modelleri: BGG sistemlerinde kullanılan geri-getirim modellerinin sınıflandırması ve teze esas te� kil eden geri-getirim yöntemlerinin detaylı tanıtımları. �ndeks terim a� ırlıklandırma yöntemleri.

BGG sistemlerinde kullanılan “çıktı” sıralama yöntemleri.

BÖLÜM-7 : � ndeksleme ve � ndeks terimler: Enformasyonun temsil yolu olarak indeksleme u� ra� ının genel tanıtımı, elle indeks terim seçimi ve BGG sahasında otomatik indeks terim seçimi konuları, kelimelerin kuramsal da� ılımları ile ilgili yakla� ımlar ve ili � kili olarak belge içeri � ini temsilde “önem” belirleme yöntemleri. BGG sistemleri için sayısal belge temsili ve olu � turulmasında kullanılan alt süreçlerin tanıtımı.


17

BÖLÜM-8 : Ba� arım Ölçütleri: BGG sistemlerinin ba� arım ölçümünde kullanılan anma ve duyarlılık kavramlarının tanıtımı ve bu kavramları esas alan ba� arım ölçütleri. Anma ve duyarlılık kavramını esas almayan ve tezde ba� arım ölçütü olarak kullanılan üstel-puan (Meta-Score) yöntemi.

PARÇA-2 BÖLÜM-9: Geli � tir ilmi � Yöntemler: Tez konusu

kapsamında geli � tirilmi � genel amaçlı yöntemlerin (Türkçe tespiti ve simgeleme) ve hesaplamalı dilbilim yöntemlerinin (gövdeleme ve sözcük türü tespiti) tanıtımı, ba� arım sonuçları.

BÖLÜM-10: Genel � statistikler: Tezin ara� tırma konusu kapsamına giren u� ra� lara esas olu � turacak kavramlarla ilgili tüm istatistikler: Zipf ve Mandelbrot denklemleri ile Türkçe derlemlerin uyum sınamaları; Türkçe derlemlerin kelime da� arcı� ının açık/kapalı olu � una dair kabullenmenin deneysel sınamaları. Sözcük-türü, cümle unsuru ve kelime guruplarının derlem içinde genel da� ılımsal istatistikleri.

BÖLÜM-11: � ndeks Terim Seçimi: Sözcük türü, cümle unsuru ve kelime gurupları ile ta� ınan enformasyonun, indeks terimler üzerindeki olasılık da� ılımları. Dilbilgisi özellikleri ile sa� lanan katkıların a� ırlıklandırma için kullanım yöntemleri.

BÖLÜM-12: Sonuç: Tez konusu kapsamında yapılan ara� tırmaların özet sonuçları.

BÖLÜM-13 Geli � im Noktaları ve Tartı � ma: Tez kapsamında ele alınan konularda, geli � im için açık olan konular ve genel tartı � malar.


18


19

2. TÜRKÇE4

Dünya üzerinde konu� ulan dillerin, aynı men� eden gelenleri bir

gurup altında toplanır. Bu guruplama ile diller, birbirleri ile il i � kili ve

yakın olanları bir aile kabul edilerek, bir dil aileleri sınıflandırması

te� kil ederler. Dünya üzerinde konu� ulan dillerin aileleri � unlardır:

1. Hint – Avrupa dilleri ailesi: Bu dil ailesinin içine Macarca, Fince ve di � er bazı küçük ülkelerin dilleri dı � ında kalan bütün Avrupa dilleri ile Asya dillerinden Farsça ve Hindistan’da mevcut bir çok dil girer. Adından da anla� ılaca� ı gibi Hint – Avrupa dilleri ailesi biri Avrupa’da, di � eri Asya’da olmak üzere iki büyük kola ayrılır.

1.1. Avrupa kolu: Germen dilleri, Roman dilleri ve � slav dilleri olmak üzere üç büyük kol vardır.

1.2. Germen dilleri kolu: Almanca, Felemenkçe, � ngilizce ve � skandinav dilleri girer.

1.3. Roman dilleri kolu: Ana dil Latince’dir. Bugün ya� ayan ba� lıca diller ise Fransızca, � spanyolca, Portekizce, � talyanca ve Rumence’dir.

1.4. � slav dilleri kolu: Rusça, Bulgarca, Sırpça, Lehçe gibi diller.

1.5. Yunanca, Arnavutça, Keltçe, Litvanca ve Hititçe de Avrupa koluna ait dillerdir.

1.6. Asya kolu: Hint dilleri, Sanskritçe, Farsça ve Ermenice bu kola giren dillerdendir.

2. Sami dilleri ailesi: Akadca, � branice, Arapça gibi diller bu aile içine girer.

4 Bu bölümde yer alan tüm konular ve içerikleri, Muharrem Ergin (1999) tarafından yazılmı � olan “Türk Dil Bilgisi” kitabından alıntıdır. Alıntılarda, içerik tez kapsamına uygun � ekilde özetlenerek yazılmı � tır.


20

3. Bantu dilleri ailesi:Afrika’daki en büyük dil ailesidir ve orta ve güney Afrika’da konu� ulan Bantu dilleri bu aileyi te� kil eder.

4. Çin – Tibet dilleri ailesi: Çin ve Tibet dilleri.

Diller yapı bakımından da guruplara ayrılmaktadır. Dünya

üzerindeki diller yapı bakımından da üçe ayrılırlar:

1. Tek heceli diller : Bu guruptaki dillerde, her kelime tek heceden olu� ur. Kelimelerin çekimli halleri yoktur. Cümle bir çekimsiz ve tek heceli kelimeler silsilesinden ibarettir. Cümlenin ifade etti � i mana genelde kelime sırasından anla� ılır. Kelimelerin di � er dillerde çekimli halleri ile ifade edilen halleri ya hiç ifade edilmez veya ayrı bir kelime ile ifade edilir. Çin – Tibet dilleri bu guruba girer.

2. Eklemeli diller : Eklemeli dillerde tek veya çok heceli kelime kökleri ile ekler vardır. Kelimelerden yeni kelimeler veya kelimelerin geçici halleri yapılırken köklere ekler getiril ir. Bu ekleme sırasında kökler de� i � mez, köklerle ekler açık � ekilde belirlenebilir. Bu diller ön-ekli veya son-ekli olabilir. Türkçe, Macarca gibi diller eklemeli dillerdendir. Türkçe son ekli, eklemeli bir dildir.

3. Çekimli diller : Çekimli dillerde de tek veya çok heceli kökler ve bir takım ekler vardır. Yeni kelimeler yaparken ve çekim sırasında genellikle köklerde bir de� i � iklik olur. Hint – Avrupa dilleri böyle dillerdir. Sami dilleri, örne� in Arapça da bu guruba girmektedir.

Dünya dilleri arasında Türkçe’nin içine girdi � i gurup Ural-Altay

dilleri gurubudur. Ural – Altay dilleri yukarıda bahsedilen dil aileleri

gibi sa� lam bir aile özelli � i göstermezler. Mesela Hint – Avrupa dilleri

arasındaki yakınlık bu dillerde yoktur. Ural – Altay dilleri arasındaki

yakınlık bir men� e birli � inden daha çok bir yapı birli � idir. Onun için bu

diller bir dil ailesi olarak de� il, bir dil gurubu olarak ele alınmaktadır.

Ural – Altay dilleri için bir aile olmak için gerekli olan men� e birli � i

kuvvetli bir ihtimal olmakla beraber, henüz kesinle� mi � de� ildir. Ural –


21

Altay dilleri eklemeli dillerdir. Ayrıca, hepsinde aynı derece de olmasa

da, bir sesli uyumu vardır ve Hint – Avrupa dilleri etkisinde kalmamı � olanlar dı � ındakilerde, kelime sırası genel olarak aynıdır. Ural – Altay

dilleri, Ural ve Altay olmak üzere iki kola ayrılır.

1. Ural kolu: Fin – Ugur ve Samoyed olmak üzere ikiye ayrılır.

1.1. Fin – Ugur kolunda: Fince, Macarca, Ugurca ve Permce vardır.

1.2. Samoyed kolunda ise çe� itli kolları ile Samoyedce vardır.

2. Altay kolu: Mançuca, Mo� olca ve Türkçe’dir.

Özetle Türkçe, Ural – Altay dil gurubunun Altay koluna ba� lı,

sondan ekli, eklemeli bir dildir. Altay dilleri içinde Türkçe’ye en yakın

olan Mo� olca’dır.

2.1. Türkçe harfler ve Alfabe

Türkçe alfabe toplam 29 harften olu� mu� tur ve genel sırası ile � u

� ekildedir: a b c ç d e f g � h ı i j k l m n o ö p r s � t u ü v y z. Bu harfler

ses özellikleri bakımından iki guruba ayrılırlar: sesliler/vokaller ve

sessizler/konsonantlar.

Türkçe alfabede bulunan harflerden 8 tanesi seslidir (vokal): a e ı

i o ö u ü. Geriye kalan 21 tanesi de sessizdir (konsonant): b c ç d f g � h

j k l m n p r s � t v y z.


22

2.2. Heceler ve kelimeler

Dildeki sesler birbiri ardına gelerek anlamlı veya bir dilbilgisi

i � levi görevinde kendilerinden daha büyük birlikler meydana getirirler.

Daha büyük birlikleri meydana getirmek üzere yan yana gelen seslerin

birle� meleri, onların müstakil olarak, birbirlerinden ayrı arka arkaya

gelmeleri � eklinde olmaz. Bir kenetlenme, bir silsile halinde ortaya

çıkarlar. Dilbilimsel birlikteki sesler, aralarında bo � luklar olmayacak

� ekilde ba� lanırlar. Bu kayna� ma ve zincirleme birle� meler vokal

etrafında toplanır. Bir vokal ile birle� en veya bir vokal etrafında

toplanan di � er sesler sıkı bir � ekilde birbirleri ile kayna� ır. � � te böyle,

bir vokal etrafında meydana gelen ses birle� melerine hece denir. Hece

tek vokalden meydana gelmedi � i durumlarda, bir vokal ve bir veya

birden fazla konsonant tarafından meydana getirilir. Bir kelime e� er bir

heceden olu� muyorsa hecelerin arka arkaya gelmesi ile te� kil edilir.

Fakat böyle daha büyük dilbilimsel birlikleri meydana getirmek için

birle� en heceler içinde kayna� ma sıkı; ancak heceler arasında daha

zayıftır. Heceler arasındaki bu eklenti, sa� lam bir birle� meden çok arka

arkaya bir söyleyi � ten ibarettir. Bir benzetme ile anlatacak olursak;

“Heceler içinde sesler birbiri ile bir zincirin halkaları gibi, fakat heceler

birbiri ile bir tespihin taneleri gibi birle� irler.”

2.2.1. Türkçe Heceleme

Türkçe’de bir hece içinde en az bir, en çok dört ses bulunur. Bir

ve dört sesli olarak birer tip, iki ve üç sesli olarak da iki � er tip hece

vardır. Böylece, Türkçe’deki hece tiplerinin sayısı altıdır. “ V” vokal

için, “K” konsonant için gösterim olarak kullanılacak olursa bu

hecelerin � ekilleri � öyledir; V, VK, KV, KVK, VKK, KVKK.


23

Türkçe’nin de� i � ik heceleme desenleri için verilebilecek

örnekler: o, a (V); ol-, al- (VK); bu, � u (KV); bal, kal- (KVK); art, erk

(VKK); kalk-, sarp (KVKK).

2.3. � ekil yapısı bakımından kelimeler

�ekil yapısı bakımından ele alınınca kelimelerin bünyesinde,

anlamlı veya vazifeli bir takım � ekiller vardır: göz-lük, gör-ü� , aç-ı-k,

ev-i-m kelimelerinin parçaları gibi. Anlamlı � ekiller tek ba� larına

kullanılabilirler ve bir anlam ifade ederler. Vazifeli � ekiller ise anlamlı

� ekillerle birle� erek kullanılan ve ancak o zaman anlam ile ilgili bir

vazife gören, fakat tek ba� larına anlamı olmayan ve kullanılmayan

kelime parçalarıdır.

Kelime yapısında tek ba� ına anlamlı olan sesbirimsel � ekillere

kök adı verilir. Tek ba� ına manası olmayan ve kullanılmayan, ancak

köklerle birle� mek suretiyle mana ile ilgili bir vazife gören � ekillere ise

ek denir. Kök, bir kelimenin anlamı ve yapısı bozulmadan

parçalanamayan � ekli, manalı en küçük dil birli � idir. Kökler tek

ba� larına veya eklerle birle� mek suretiyle kullanılır. Mesela göz-lük

kelimesinde göz kök, -lük ektir.

2.3.1. Kökler ve Gövdeler

Kökler anlamları bakımından ikiye ayrılırlar: isim kökleri ve fiil

kökleri. � sim kökleri evrendeki canlı cansız varlıkları ve kavramları

kar � ılayan köklerdir. Fiil kökleri ise, bu varlık ve kavramların

hareketlerini kar � ılar. Nesneler kendi kendilerine var olan, ba� ımsız


24

unsurlardır. Hareketler ise kendi kendilerine var olmayıp nesnelerden

do� an, nesnelere ba� lı bulunan, varlıkları nesnelerle kaim olan

unsurlardır.

�sim ve fiil kökleri arasındaki bu mana farkı onların dildeki

kullanı � larına da etki eder. �sim kökleri tek ba� larına kelime olarak

kullanılabilirler. Fiil kökleri ise, tek ba� larına kullanılı � sahasına

çıkamazlar. Mutlaka nesnelere, � ahsa, zamana v.s. ‘ye ba� lanarak

vazife görürler ki, bu ba� lanı � ta fiil köklerine bir takım ekler getirmek

suretiyle olur.

Dilde nesnelerin ve hareketlerin hepsi için ayrı kökler bulunmaz.

Birbiriyle ilgili bir gurup nesne veya hareket için bir kökten türemi � bir

kelime ailesi bulunur. Kökler kendileri ile ilgili yakın nesne ve

hareketler için geni � letilip, yeni kökler meydana getirirler. Köklerden

türeyen bu geni � köklere kelime gövdesi adı verilir. Gövde de bir çe� it kök oldu� u için, mana veya kullanı � bakımından tamamı ile kök

gibidir. Yalnız � ekil bakımından kökten farklı ve ondan büyük bir dil

birli � idir. Gövdeler, hem isim köklerinden hem de fiil köklerinden

yapılabilirler. �sim köklerinden hem isim gövdeleri, hem de fiil

gövdeleri, fi il köklerinden hem fiil hem de isim gövdesi olu� turulabilir.

Yani, yapı bakımından dört çe� it kelime gövdesi vardır: �simden

yapılmı � isim, isimden yapılmı � fiil, fiilden yapılmı � isim, fiilden

yapılmı � fiil.

2.4. Anlam veya Görev Bakımından Kelimeler

Türkçe’de anlam veya görev bakımından üç çe� it kelime vardır:

isimler, fiil ler ve edatlar. Türkçe’deki her kelime muhakkak bu üç


25

kelime çe� idinden birine girer. Bunlardan isimler ve fiiller anlamları

olan, edatlar ise görevleri olan kelimelerdir.

�simler, nesneleri kar � ılayan kelimelerdir. Burada nesne

kavramını, eylem dı � ında kalan her � ey için kullanıyoruz. Nesneler de

kendi içinde bir takım sınıflara ayrılırlar. Çe� itli nesneler vardır. Bu

çe� itli nesneleri kar � ılamak için kullanılan isimler de kendi aralarında,

kar � ıladıkları nesnelerin anlamlarına uygun olarak kelime çe� itlerine

ayrılır. Varlıkların ve kavramların adı olarak nesneleri kar � ılayan

isimlere dar anlamı ile isim, vasıflandırmak veya belirtmek suretiyle

nesneleri kar � ılayan isimlere sıfat, temsil veya i � aret etmek suretiyle

nesneleri kar � ılayan isimlere zamir, hal ve durumları kar � ılayan

isimlere zarf denir. Dolayısı ile geni � anlamda isim adı altında

topladı � ımız kelimeler, kendi içinde dörde ayrılır: isimler, sıfatlar,

zamirler ve zarflar.

Fiiller hareketleri kar � ılayan kelimelerdir. Hareket kelimesini de

tabii geni � anlamda kullanıyor ve nesnelerin zaman ve mekan içindeki

her türlü olu� ve yapı � ları veya olmayı � ve yapmayı � ları kar � ılı � ı olarak

alıyoruz. Evrende bir nesne, bir de eylemler, yani hareketler vardır.

Nesne dı � ında kalan her � ey harekettir.

Edatlar tek ba� larına hiçbir � eyi kar � ılamayan kelimelerdir. Yani

edatların tek ba� larına anlamları yoktur. Edatlar ancak isimler ve

fii llerle birlikte kullanılırken bir anlam kazanırlar. Edatlar anlamlı

kelimelerin, yani isimlerin ve fiillerin ili � kileri sırasında onlara yardım

eden, dilbilgisi içinde görevleri olan kelimelerdir.


26

2.5. Kelime Gurupları

�sim ve fiil cinsinden bütün kelimeler nesneleri ve hareketleri

kar � ılayan, onların adları olan dil birlikleridir. Tek bir kelimenin

kar � ıladı � ı nesnenin ve hareketin çe� itl i vasıfları, özel durumları,

cepheleri, � artları vardır. Nesneleri ve hareketleri bu çe� itli yönleri ile

daha geni � olarak ifade etmek için tek kelimeden daha geni � dil

birliklerine ihtiyaç duyulur. Ayrıca tek kelimenin kar � ıladı � ı

nesnelerden ve hareketlerden daha büyük, daha geni � nesneler ve

hareketler vardır ki onlar tek bir kelime ile kar � ılanamazlar. Onların tek

kelime olarak kar � ılıkları, adları yoktur; ancak tek kelimeden daha

geni � dil birlikleri ile ifade edilebilir, adlandırılabilirler. �

� te tek kelime

ile kar � ılanan nesneleri ve hareketleri daha geni � olarak ifade etmek

veya tek kelimenin kar � ıladı � ı nesnelerden ve hareketlerden daha geni � nesneleri ve hareketleri kar � ılamak için, kelimeden daha geni � dil

birlikleri olan kelime guruplarına ba� vurulur.

Kelime gurubu birden fazla kelimeyi içine alan, yapısında ve

anlamında bir bütünlük bulunan, dilde bir bütün olarak i � lem gören bir

dil birli � idir. Kelime gurubu için birden fazla kelime bir takım

kurallarla belirli bir düzen içinde yan yana getirilir. Böylece, belirli bir

düzenle kuruldu� u için, kelime gurubunun yapısında bir bütünlük olur.

Bütünlük, özellikle gurubun anlamında göze çarpar. Kelime gurubunun

kullanılı � ında da bu bütünlük korunur. Kelime gurubu kelimelerle ve

di � er kelime gurupları ile bir bütün halinde ili � kiye geçer. Cümlelere

bir bütün halinde katılır. Kullanımında tek bir kelime gibi çekime tabi

tutulur, sona gelen i � letme eki bütün gurubu � ümulü içine alır.


27

Kelime gurupları nesneleri ve hareketleri daha geni � olarak veya

geni � nesneleri ve hareketleri belirtmek için kullanıldıklarına göre

bunlar birer belirtme gurupları’ dır. Tek bir nesneyi veya hareketi

belirtmek için, bu guruplar içinde yan yana gelen, birbirine ba� lanan

kelimeler, bir i � birli � i yapar, birbirine yardım eder, birbirlerini

tamamlarlar. Bir belirtme, bir yardım, bir tamamlama esası üzerine

kurulan kelime guruplarında genellikle belirten-belirtilen, tamamlayan-

tamlanan, tabi olan-tabi olunan, asıl-yardımcı olmak üzere iki unsur

bulunur.

Türkçe’de kelime gurupları içinde yan yana gelen kelimelerin

sırasını tayin eden temel kanun � udur: Türkçe’de yardımcı unsur asıl

unsurdan önce gelir. Türkçe söz-dizimin bütün yapısı bu ana kanun

üzerine kurulmu � tur. Bütün kelime gurupları ve cümlede belirtilen,

tamlanan, tabi olunan, asıl unsur sonda; belirten, tamamlayan, tabi olan,

yardımcı unsur ba� ta bulunur. Türkçe’de yalnız ki’ li birle� ik cümle bu

kuralın dı � ında kalır. Çünkü ki’ li birle� ik cümle yabancı asıllıdır.

Türkçe’ye girmekle beraber, Türkçe söz-dizimine dahil sayılmaz.

Türkçe’nin bu ana kanuna dayanan kelime sırası ancak, o da kelime

guruplarının bir kısmı ile cümlelerde olmak üzere, nazımda � ekil

bakımından geçici olarak yerlerini de� i � tirebilir. Vezin, kafiye ve

ahenk gere� i, nazımda � ekil bakımından geçici olarak yerlerini

de� i � tiren unsurlar, kelime gurupları ve cümlelerdeki asıl çekim

� ekillerini ve asıl sıra içindeki anlam ve i � levlerini yine de korurlar.

Hangi sırada olursa olsunlar, � iir okurken yine asıl normal sıraları

içinde idrak edilirler. Çünkü, Türkçe dü� ünme sisteminde kelime

sırasının temelini olu� turan kanun de� i � mez. Dil dü� üncenin aynasıdır.

Türkçe de, Türkçe dü� ünü� ün aynasıdır. Onun için kelime sırası geçici

olarak ne � ekle girerse girsin, asıl normal sırası ile idrak edilir.

Dü� ünme sırası ile kelime sırası birbirinden ayrılamaz.


28

Türkçe’nin ekler sistemi de tamamen bu kelime sırasına uygun,

bu kelime sırasını destekler bir bünyeye sahiptir. Bu durum özellikle,

isimlerle fiil lerin ili � kisinde açıkça görülür. Türkçe’de ili � ki ekleri, isim

i � letme ekleri olan iyelik, hal ve soru ekleridir. Bu ekler bazen ismi

isme, fakat çok defa ismi fiile ba� ladıklarına göre, isim-fii l

münasebetinde daima isim önce, fiil sonra gelir. Soru eki de hal ekleri

gibidir. Kelime guruplarının büyük bir kısmında kelime sırası

Türkçe’nin ekler sistemiyle de sıkı sıkıya ba� lıdır.

Türkçe’de bulunan kelime gurupları a� a� ıdaki ba� lıklar altında

toplanır.

2.5.1. Aynen Tekrarlar

Tekrarlar aynı cinsten iki kelimenin arka arkaya getirilmesi ile

meydana gelen kelime guruplarıdır. Türkçe’de hemen her çe� it kelimeden tekrar yapılabilir. Tekrarların ba� lıca dört i � levi vardır:

kuvvetlendirme, çokluk, devamlılık ve ortalama/beraberlik.

2.5.2. Ba � lama Gurubu

Ba� lama gurubu sıralama ba� lama edatları ile yapılan kelime

gurubudur. Bugün sıralama edatları ve, ile ve bir de ara ( ...’den ...’e

kadar) ifade eden Arapça i la kelimeleridir. Bu edatlarla birbirine

ba� lanan iki unsur hep beraber ba� lama gurubu te� kil eder. Edat iki

unsurun arasına girer. Unsurlardan her biri, bir kelime veya kelime

gurubu olur. Unsurlar � eklen ve e� it olarak birbirine ba� lanır. Sıralanan

unsurlar ikiden fazla ise ba� lama edatı son iki unsurun arasına girer. Bu


29

edat da ancak ve olabilir. Di � erleri ancak sıralanan iki unsur arasında

olabilirler. Bunlardan ila, “ kadar” anlamında oldu� u için yalnız sayılar

arasına girer. � le ve ila genellikle isim unsurlarını ba� larlar. Araya

girerek iki unsuru birbirine ba� layan ve edatı ise her çe� it kelime ve

kelime guruplarını, bu arada çekimli fiilleri ve cümleleri de birbirine

ba� lar. Leyla ile Mecnun, Alinin babası ile Ahmet bey, yetmi � ila

seksen, bin yüz ila bin iki yüz, sen ve ben; su, hava, ate� ve toprak,

geldi ve gitti, ancak ve ancak gibi.

2.5.3. Sıfat Tamlaması

Sıfat tamlaması bir sıfat unsuru ile bir isim unsurunun meydana

getirdi � i kelime gurubudur. Sıfat unsuru isim unsurunu vasıflandırmak

veya belirtmek için getirilir. Sıfat tamlaması eksiz bir birle� medir. Her

iki unsurda ek almadan yan yana gelirler. Sıfat bu birle� mede daima

teklik halde bulunur, sıfatların çoklukları yapılmaz. Sıfat tamlamasında

sıfat isim ba� ına gelir; yani sıfat önce, isim sonra gelir. Tamlamanın

sıfat unsuru bir sıfat veya sıfat olarak kullanılan bir kelime gurubudur. �sim unsuru ise bir isim veya isim vazifesi gören bir kelime gurubudur.

En basit halde bir sıfat ve bir isim sıfat tamlaması olu� turur. Sıfat

tamlamasında gurubun vurgusu sıfat üzerinde kalır: güzel yazı, üç ki � i,

canım � stanbul, güzelim bahar rüzgarı, büyük bir i � , çok i � lek bir

cadde, bahçede oynayan kom� u çocu� u, bu gün Karadeniz’den gelecek

olan vapur, arkada� ları ile gezmeye giderken bindi � i trenden dü� üp

kolu kırılan orta okul ö� rencisi, demir kapı, dolma kalem, altın saat,

evin önündeki a� aç gibi.


30

2.5.4. � yelik Gurubu ve � sim Tamlaması

Bu gurup iki isim unsurunun meydana getirdi � i bir kelime

gurubudur. Bir ismin anlamının iyelik sistemi içinde ba� ka bir isimle

tamamlanması esasına dayanır. Bir nesnenin ba� ka bir nesnenin parçası

oldu� unu, bir nesnenin ba� ka bir nesneye ait oldu� unu veya bir

nesnenin ba� ka bir nesne ile tamamlandı � ını ifade etmek için bu kelime

gurubuna ba� vurulur. Gurubu meydana getiren iki unsurdan biri

tamlayan, di � eri tamamlanandır. Bu gurup ekli bir birle� medir.

Tamamlanan unsur daima iyelik eki ta� ır. Tamamlayan unsur ise daima

genetif (ismin ilgi hali) halinde bulunur, fakat bu genetif bazen ekli,

bazen eksiz olur: � stanbul � ehr-i, ta� -ın üst-ü gibi. Özetle iyelik gurubu

iyelik ekli bir isim unsuru ile genetif ekli bir isim unsurunun meydana

getirdi � i kelime gurubudur.

�yelik gurubunun bu � ekilde her iki unsurunun da isim oldu� u

durumlara isim tamlaması adı verilir. �sim tamlaması iyelik gurubunun

üçüncü � ahıs ile yapılan � eklidir. Tamlaması ekli olan isim tamlamasına

belirli isim tamlaması, tamlayanı eksiz olan isim tamlamasına da

belirsiz isim tamlaması denir.

Belirsiz tamlamanın birle� ik isim hükmünde olması dolayısı ile

bir çok yer, makam, müessese, memuriyet, kitap, e� ya v.s. nesne

isimleri bu tamlama � eklindedir: � stanbul � ehri, ordu kumandanı,

çalı� ma bakanı, Edebiyat Fakültesi, Saraço� lu, ipek böce� i,

kahverengi, çama� ır makinesi gibi. Böyle isimler ekli tamlayanla

yapılamamaktadır. Demek ki ekli tamlayan bir isim tamlamasını bir

isim haline gelmekten alı koymaktadır. Bunun sebebi ise tamlayanın

belirli olmasıdır.


31

2.5.5. Aitlik Gurubu

Bu gurup aitlik ekine dayanan bir kelime gurubudur. –ki aitl ik eki

ile ondan önceki bir kelime gurubunun yalın hali, genetif veya lokatif

hali ile kurulur: tarihten önceki, ya� lı adamınki, Anakara ile � stanbul

arasında sefer yapan otobüslerinki örneklerinde oldu� u gibi. Son

kelimesinin yalın, genetif veya lokatif hali –ki’yi kabul eden her kelime

gurubundan aitlik gurubu yapılabilir ve bu gurup, yapıldı � ı kelime

gurubuna göre her geni � likte olabilir. Kelime gurubu olarak tek ba� ına

zamir olan aitlik gurubu, di � er kelime guruplarında veya cümlede

zamir veya sıfat vazifesi görür.

2.5.6. Birle � ik � sim ve Birle � ik Kelime

Birle� ik isim, bir nesnenin ismi olmak üzere yan yana gelen

birden fazla ismin meydana getirdi � i kelime gurubudur. Bir nesnenin

çok defa adı olan isimler, aynı nesneyi kar � ılama, aynı nesneye beraber

ad olmak için do � rudan do � ruya, eksiz olarak yan yana gelirler ve

birle� ik isim yaparlar. Birle� ik isimler, Türkçe’de hep özel isimlerdir.

Bazı yer adları ile ikili, üçlü bütün � ahıs adları Türkçe’nin birle� ik

isimlerini meydana getirir: Afyon Karahisar, Mehmet Kaplan, Ahmet

Hamdi Tanpınar, Halide Edip Adıvar, Orhan Veli, Faruk Nafiz

Çamlıbel, Ta� demir, Timurta� , Demitta� örneklerinde oldu� u gibi.

Örneklerde de görüldü� ü gibi, cins isimlerden yapılan birle� ik isimler

birle� ik kelime durumuna geçmektedir. Zaten cins isimlerden birle� ik

isim yapmak, Türkçe’de yok gibidir. Onlar da, ancak özel isim haline

geçmi � cins isimlerden yapılanlardır. Birle� ik isim, aynı zamanda

Türkçe’de yalnız özel isimlerden yapılan kelime gurubudur da

diyebiliriz.


32

2.5.7. Birle � ik Fiil

Birle� ik fiil bir yardımcı fiille bir isim veya bir fiil � eklinin

meydana getirdi � i kelime gurubudur. � sim veya fiil unsuru önce,

yardımcı fiil sonra gelir. � sim unsuru ile birle� erek, birle� ik fi il

olu� turulması: yok et-, alay et-, kabul et-, reddet-, mahvet-, telefon et-,

sabreyle- var eyle-, yok ol-, mahvol-, hasta ol-, dost ol-, banyo yap-,

spor yap-, almı � ol-, müteessir bulun-, yapmı� bulun-, olmu� bulun-,

gitmi � bulun-. Fiil unsuru ile birle� erek, birle� ik fii l olu� turulması: gele

bil-, saklaya bil-, konu� a bil-; alı ver-, kaybolu ver-, yakalayı ver-,

isteyi ver-; kullanıla gel-, süre gel-, ola gel-; dü� meyi gör-, yalvarı gör-

, isteyi gör-, istemeyi gör-; yapa dur-, gide dur-, oynaya dur-; baka kal-

, kala kal-, � a� a kal-; gide koy-, otura koy-, alı koy-; durup dur-, gezip

dur-, ko� up dur-.

2.5.8. Unvan Gurubu

Unvan gurubu bir � ahıs ismi ile bir unvan veya akrabalık

isminden meydana gelen kelime gurubudur. � ahıs ismi önce, unvan

veya akrabalık ismi sonra gelir. Her iki unsur da hiç ek almaz : Ahmet

bey, Hasan efendi, Mustafa Kemal Pa� a, Nuri Çavu� , Bayındır Han,

Babür � ah, Fatma nine gibi.

Türkçe’de bir de unvan ve akrabalık isimlerinin ba� a getirilmesi

vardır. Bu takdirde birle� ik isim meydana gelir. Unvan veya akrabalık

ismi � ahısın bir ismi durumuna geçer: Ba� bakan Rü� tü Saraço� lu, Vali

Fahrettin Kerim, General Kazım Karabekir, Profesör Ahmet

Cafero� lu, Binba� ı Seyfi, Dede Korkut, Hoca Nasreddin, Molla Kasım,


33

Sultan Fatih, Kraliçe Elizabet, Katil � brahim, Hırsız Hüseyin

örneklerindeki gibi.

2.5.9. Ünlem Gurubu

Ünlem gurubu bir seslenme edatı ile bir isim unsurundan

meydana gelen kelime gurubudur. Seslenme edatı önce, isim sonra

gelir. Eksiz bir birle� me olur. Edat tek kelime halinde, isim unsuru ise

bir isim veya isim yerine geçen bir kelime gurubu halinde bulunur: a

beyim, be birader, be adam, bre kız, ey karde� , hey Allah’ ın kulu, ya

Ali, ey bu topraklar için topra� a dü� mü� asker örneklerinde oldu� u

gibi.

2.5.10. Sayı Gurubu

Türkçe’de sayılar üç � ekilde kar � ılanmaktadır: 1. tek kelime ile,

2. sıfat tamlaması, 3. sayı gurubu. Tek kelime ile kar � ılanan sayılar bir,

iki, üç, dört, be� , altı, yedi, sekiz, dokuz, on, yirmi, otuz, kırk, elli,

altmı � , yetmi � , seksen, doksan, yüz, bin, milyon, milyar v.s.’dir. Sıfat

tamlaması ile kar � ılanan sayılar iki yüz, üç yüz, iki bin, bir milyon, bir

milyar v.s.’dir. Burada dikkat edilecek tek � ey yüz ve bin’ in aksine

milyon ve milyar ’ ın tek ba� ına kullanılamaması, tek milyon ve milyar

için de bir milyon ve bir milyar denilmesidir. Sayı gurubu ile kar � ılanan

sayılar ise i � te bu tek kelimelik sayıların ve on’ dan sonrakilerinin ve

sıfat tamlaması halindeki sayıların ara yerlerindeki sayılardır: on bir,

yirmi iki, otuz dört, yetmi � be� , bir milyon dört yüz, bin altı yüz yirmi üç

gibi.


34

2.5.11. Edat Gurubu

Edat gurubu bir isim unsuru ile bir son çekim edatının meydana

getirdi � i kelime gurubudur. � sim unsuru önce, son çekim edatı sonra

getirilir. � sim unsuru zamir veya isim olmasına ve edatın cinsine göre

çe� itli hallere girer ve çe� itl i ekler alır. Edat ise, gurubun eksiz,

de� i � mez unsurudur. Edat unsuru daima tek kelimedir. � sim unsuru tek

kelime olabilece� i gibi isim yerine kullanılan bir kelime gurubu da

olabilir. � u örnekler edat gurubudur: benim için, senin gibi, ta� için,

onun güzel hatırı için, eve do� ru, ye� il gözleri i le, Ankara’dan

bildirildi � ine göre, sessiz akan bir su gibi, on be� gün kalmak üzere,

bundan dolayı, dün geceye dair, ko� up oynamaktan ba� ka.

2.5.12. � snat (yükleme) Gurubu

� snat gurubu biri di � erine isnat edilen, yani biri di � erine

yüklenen, dayanan, bindirilen, yaslanan iki isim unsurundan meydana

gelir. � snat edilen unsur isnat olunandan, kendisine isnat yapılandan

sonra gelir. Kendisine isnat yapılan unsur ya yalın halde bulunur veya

iyelik eki almı � olur. Bu unsur tek bir isim olabilece� i gibi isim yerine

geçen bir kelime gurubu da olabilir. � snat unsuru ise bir sıfat veya sıfat

yerine kullanılan bir kelime gurubu olur. � u örnekler isnat gurubudur:

ba� açık, ayak yalın, göz kapalı, üst ba� peri � an, omuzlar dü� ük, gözü

açık, karnı tok, sırtı pek, etrafı yıkık, ba� rı yanık, saçı uzun, aklı kısa,

alnı açık, � ekeri az, sütü bozuk, canı tez, bütün duvarları ya� lı boya,

bahçesinin dört yanı tellerle çevrili, ba� ı bo� , eli açık, baldırı çıplak,

geli � igüzel, karnıyarık.


35

2.5.13. Genetif Gurubu

Genetif eki ile birbirine ba� lanan iki isim unsurunun meydana

getirdi � i kelime gurubudur. Genetif ekli unsur önce, onun ba� landı � ı

yalın isim sonra gelir. Gurubun anlamı genetif ekinin ilgi i � levine

dayanır. Gurup iyelik eki dü� mü� bir iyelik gurubu gibidir: bizim kız,

senin ev, benim at, Ahmet dayının o� lan, sizin av köpe� i gibi. Genetif

gurubunun her iki unsuru da tek bir isim olabilece� i gibi, isim yerini

tutan bir kelime gurubu da olabilir. Gurubun vurgusu ikinci unsur

üzerinde bulunur. Bir yandan iyelik gurubuna yakla� an genetif gurubu,

bir yandan da sıfatı kli � ele� mi � bir genetif olan bir sıfat tamlamasına

benzemektedir. Aynı tipte guruplar olan datif, ablatif ve lokatif

gurupları da bu � ekilde sıfat tamlamasında benzemektedir. Hepsinin

ikinci unsurda bulunan vurguları da bunu göstermektedir. Yalnız bütün

bu gurupları kısaltma gurubu olarak da saymak mümkündür. Genetif

gurubu kısalmı � bir iyelik gurubu, datif, lokatif ve ablatif gurupları ise

kısalmı � , kli � ele� mi � birer fiil gurubu gibidirler. Zaten datif, lokatif ve

ablatif gibi eklerin normal i � levleri ismi fiile ba� lamaktır ve

bulundukları yerde bir fii l yoksa bir fiil ifadesi muhakkak bulunur.

Özellikle ikinci unsuru fiilden yapılmı � bir isim olanlarla, –ma, -me ekli

olanlar aynı zamanda birer fiil gurubu durumundadırlar.

2.5.14. Datif Gurubu

Datif halindeki bir unsur ile ondan sonra gelen bir isim unsurunun

meydana getirdi � i kelime gurubudur. Datifli unsur da, unsurda ya tek

bir isim veya isim yerini tutan bir kelime gurubu olur: dile kolay, ba� a

bela, cana yakın, ate� pahasına bir ö� len yeme� i, aslına uygun, keyfine

dü� kün, ba� ına buyruk, ana babasına ba� lı gibi.


36

2.5.15. Lokatif Gurubu

Lokatif eki almı � bir isim unsuru ile ondan sonra gelen bir isim

unsurunun meydana getirdi � i kelime gurubudur. Her iki unsurda ya tek

bir isim ya da isim yerine geçen bir kelime gurubu olur: geçmi � te

bugün, dam üstünde saksa� an, elde bir, yükte hafif, pahada a� ır, i � inde

usta, i � inde usta, i � inde gücünde adam, üçte iki, dörtte bir, be� te üç,

onda bir, yüzde be� , binde bir örneklerinde oldu� u gibi.

2.5.16. Ablatif Gurubu

Ablatif eki almı � bir unsurdan sonra gelen bir isim unsurunun

meydana getirdi � i kelime gurubudur. Her iki unsurda ya tek bir isim

veya isim yerine geçen bir kelime gurubu olur: kafadan kontak,

do� u� tan sakat, yandan çarklı, anadan do� ma, sonradan görme,

sıradan adam, gözden uzak, a� ızdan dolma, candan arkada� , yalandan

dostluk, içinden pazarlıklı, kendisinden çok emin, bunlardan biri,

e� lencesine dü� kün olanlardan hiç biri, içlerinden ço� u, gençlerden

üçü gibi. Bu son örneklerde ikinci unsurun iyelikli olması dolayısı ile

iyelik gurubu i � levinde bir gurupla kar � ıla� ıldı � ı görülmektedir.

Birbirine çok benzeyen, i � levleri bir gibi olan (bunların biri, bunlardan

biri) bu iki gurubun birbirine karı � tırılmaması gerekir.

2.5.17. Kısaltma Gurupları

Bunlar kelime gurupları ve cümlelerin kısalması, yıpranması

neticesinde ortaya çıkan kelime guruplarıdır. Her hangi bir kuralları

yoktur. Daha geni � bir guruptan kısalmı � ve kli � ele� mi � guruplardır.


37

Sayıları pek fazla de� i ldir: gün aydın, güle güle, günden güne,

ba� tanba� a, o gün bugün, yan yana, sırt sırta, omuz omuza, ba� ba� a,

el ele, ha� a huzur, git gide, ba� a� a� ı, eller yukarı, ileri mar � , sola

çark, ba� üstüne gibi.

2.5.18. Akuzatif Gurubu

Akuzatif gurubu akuzatif halindeki bir isim ile onun arkasından

gelen bir isim unsurundan meydana gelir. � kinci unsur isimle yapılan

bir birle� ik fiilin isim kısmı olur ve dolayısı ile geçi � li fiil ifadesi ta� ır: her � eyi borçlu, seni istikbal, yapılanı tenkit, kitabı birine ithaf gibi.

Görülüyor ki akuzatif gurubu partisip gurubu veya fiil gurubunun

kısalmı � , yardımcı fiili dü� mü� � eklidir. Onun için akuzatif gurubu da

bir kısaltma gurubu sayılabilir. Bu yüzden birinci unsurdan sonra araya

yer tamlayıcısı ve zarf unsurları da gelebilir: seni istasyonda istikbal,

kitabı her gün orada birine hediye, her � eyi olur olmaz tenkit gibi.

2.6. Cümle ve Cümle Unsur lar ı

Cümle bir fikri, bir dü� ünceyi, bir hareketi, bir duyguyu, bir

hadiseyi tam olarak bir hüküm halinde ifade eden kelime gurubudur.

Yukarıda bahsedilen kelime gurupları belirtme gurupları idi. Cümle ise

hüküm gurubu’dur. Cümlenin temel fonksiyonu “hüküm” ifade

etmektir. Onun için cümle en tam, en geni � kelime gurubudur.

Cümlenin varlı � ı için asgari � art bir çekimli fiilin varlı � ıdır.

Çekimli fiil cümlenin varlı � ı için gerekli ve yeterdir. Demek ki, çekimli

fii l olmak � artı ile tek kelime de cümle olmaktadır: Geliyorum.;


38

Güzeldir. gibi. Çekimli fiilde, eklerin � ahıs da ifade etmesi dolayısı ile

fii lden ba� ka fail ifadesi de vardır. Onun için çekimli fiilden ibaret tek

kelimelik bir cümlede de, biri kapalı olmak üzere, fiil ve fail olarak iki

unsur var demektir. Bu iki unsur zaten cümlenin temel unsurlarıdır.

Varlıkları tam bir cümlenin varlı � ı için yeterlidir.

Hükmü daha geni � , daha etraflı, çe� itli � artları ile daha belirli

olarak ifade etmek için, cümle birden fazla cümle unsurundan meydana

getirilir. Cümle unsurları fi il, fail, nesne, yer tamlayıcısı ve zarf’ tır.

Yani cümlede fiil ile onun gerektirdi � i unsurlar bulunur. Hükmün

geni � li � ine göre cümlede, cümle unsurlarından biri, bir kaçı veya hepsi

bulunur. Fiil ve fail cümlenin esas unsurları, nesne, zarf ve yer

tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede ancak bir

fii l unsuru bulunur. Di � er unsurların ise cümlede aynı cinsten bir veya

birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç nesne,

birkaç yer tamlayıcısı ve birkaç zarf bulunabilir.

2.6.1. Fiil Unsuru

Cümlenin ana unsurudur. Cümlenin bütün yapısı onun üzerine

kurulur. Di � er unsurların tamamı fiilin etrafında toplanan, onu

destekleyen, onu tamamlayan unsurlardır. Türkçe’de asıl unsurun,

yardımcı unsurdan sonra gelmesi ilkesi gere� ince, esas unsur olan fii l

daima sonda bulunur. Kendisinden önce gelen unsurların kesin bir

sırası yoktur. Belirtilmek istenme derecelerine uygun olarak fiile

yakla� tırılarak kullanılırlar. Genellikle fiile en yakın unsur, yani fii lden

önceki unsur en üzerinde durulan unsurdur. Cümlenin normal vurgusu

da fii lin önünde, bu unsur üzerinde bulunur. Fiil cümlede hareketi,


39

olu� u, yapı � ı, olayı, hükmü kar � ılayan unsurdur. Daima çekimli fi il

halinde bulunur.

2.6.2. Fail Unsuru

Cümlenin fiilden ba� ka iki ana unsurundan biridir. Fail, fii li

yapan veya olan unsurdur. Fiile en yakın, fiilden ayrılmaz bir cümle

unsurudur. Ayrıca söylenmese bile fiilin içinde genel olarak � ahıs

halinde ifade edilmek suretiyle, varlı � ı cümlede daima hissedilir. Fail,

isim cinsinden bir kelime veya kelime gurubu olur. Daima yalın halde

bulunur. Cümlenin çekimsiz bir unsurudur. Fiile yalın halde, eksiz

ba� lanır. Fail, yalnız meçhul fii lli cümlelerde bulunmaz. Yalnız teklik

üçüncü � ahısları kullanılan meçhul fiiller fail istemezler. Gereklilik

kipinin teklik üçüncü � ahısının � ahıssız, genel kullanı � ında da fail

bulunmaz: “Gitmeli.” ; “Yazmalı.” örneklerinde oldu� u gibi.

2.6.3. Nesne

Fiilin etki etti � i nesneyi, � ahsı kar � ılayan cümle unsurudur.

Fiillerin bir kısmı geçi � li, bir kısmı geçi � sizdir. Yani bir kısmı yapma,

bir kısmı olma ifade eder. Yapma ifade edenlerin hareketi fiilden ba� ka

bir nesneye yönelir, ona etki eder. Olma ifade edenlerin hareketi ise

faile yönelir, onun üzerinde kalır. Dolayısı ile, geçi � li fi iller etki edecek

bir nesne isterler. Bu durumu kar � ılayan cümle unsuru nesnedir. O

halde nesne, yalnız fiili geçi � li cümlelerde bulunur.


40

2.6.4. Yer Tamlayıcısı

Fiilin mekanını ve yönünü gösteren cümle unsurudur. Her

hareketin zaman ve mekan içinde bir yeri ve bir yönü vardır. Yer

tamlayıcısı hareketin meydana geldi � i bu yeri ve yönü ifade eder. Bu

unsur da, isim cinsinden bir kelime veya kelime gurubu olur.

2.6.5. Zar f

Fiilin çe� itli � artlarını ve zamanını gösteren cümle unsurudur.

Hareketin nasıl, niçin, ne � ekilde, hangi vasıtalarla, hangi sebeple, yani

özetle hangi � artlarla yapıldı � ını veya oldu� unu ve hangi zamanda

cereyan etti � ini göstermek için zarf unsuru kullanılır. Bu unsur zarf

olarak kullanılan isim cinsinden bir kelime veya kelime gurubu olur.

Zarf da çekimsiz bir cümle unsurudur, fiile oldu� u gibi, do� rudan

do� ruya ba� lanır.

2.6.6. Cümle Dı � ı Unsur lar

Cümlede bu unsurlardan ba� ka bir de ba� lama ve ünlem edatları

veya ünlem gurupları bulunabilir. Fakat bunlar esas hareketle, fiille

ilgili olmayan ve cümleye sadece ilave edilmi � durumda bulunan

unsurlardır. Genellikle cümlelerin ba� larında, sonlarında ve cümleler

arasında bulunurlar. Parantez � eklinde cümle içine girdikleri de görülür.

Bunlara cümle dı � ı unsurlar denir.


41

3. ENFORMASYON

3.1. Enformasyon Bilim ve Bilgi Geri-Getirim

Enformasyon bilim en genel anlamda, u� ra� ı alanı enformasyon

olan bir bilim dalı olarak tanımlanabilir. Enformasyon bilim aslen, çok

disiplinli bir u� ra� sahasıdır ve bir çok farklı bilim dalının katkı

sa� ladı � ı do � al meseleleri incelemektedir. Enformasyon bilime katkı

sa� layan di � er bilim dalları � ekil 3.1.1.’de çizge halinde gösterilmi � tir.

BilgisayarBilimleri

EnformasyonBilimleri

EnformasyonTeorisi

Yöntem-bilim(Epistemology)

Bili � sel Bilimler(Cognitive Sciences)

�leti � im

(Communication)

Matematik( � statistik)

Sosyo-Dilbilim

Sosyoloji

Dilbilim

Psiko-DilbilimPsikoloji

YapayZeka

�ekil 3.1.1: Enformasyon bilimine katkıda bulunan di� er bilimler (Ingwersen, 1992).


42

Ingwersen (1992) tarafından, enformasyon bilim içindeki u� ra� lar

4 ba� lık altında sınıflandırılmı � tır:

1. Enformasyon-ölçütleri (Informetrics): Enformasyon ileti � iminin nicel çalı � maları. Örnek: Çapraz atıflar (co-citations).

2. Enformasyon Yönetimi (Information Management): Metin ve di � er medya içerikli Bilgi geri-getirim dizgelerinin de� erlendirilmesini ve kalite kriterlerini belirlemeyi de kapsayacak � ekilde enformasyon yönetimi.

3. Enformasyon (geri-getirim) sistemleri kurgusu (Information (Retrieval) Systems Design). Bir Bilgi geri-getirim sistemi veya sadece Bilgi sistemi tasarlama, altyapısını kurgulama çalı � maları.

4. Enformasyon geri-getirim etkile� imi (Information Retrieval Interaction): Bilgi geri-getirim dizgeleri ile kullanıcı (esas ki � iler, vekil yazılımlar veya di � er Enformasyon geri-getirim dizgeleri) arasında gerçekle� en etkile� imi yönetme ve faydalanma çalı � maları. Örnek olarak Bilgi geri-getirim dizgelerinin uygulamada kullanacakları ara-yüz tasarımları, kullanıcıların yaptıkları sorguların kayıtlarının tutulup tarihsel olarak kullanıcı profillerini çıkartmak ve geri-getirim ba� arımlarını kullanıcı esasına dayalı olarak iyile� tirmek gibi u� ra� lar.

Tez çalı � mamız Ingwersen’ in yaptı � ı enformasyon bilim u� ra� sahaları sınıflandırması içinde Enformasyon (geri-getirim) sistemleri

kurgusu ba� lı � ı altına girmektedir.

3.2. Enformasyon Tanımı ve Farklı Yakla � ımlar

Enformasyon kavram olarak en geni � anlamda, insanlar

arasındaki ileti � imin her hacminde (asgaride iki insan genelde ikiden

fazla ki � i arasında) ve her � eklinde (yazılı, sesli, görüntülü, e� zamanlı


43

veya farklı zamanlı) taraflar arasında nakledildi � i dü� ünülen olguyu

kar � ılar. Thagard (1990) enformasyon kavramının tanımına yönelik

matematik, bili � sel psikoloji ve felsefe bilimleri kökenli 3 farklı

yakla� ımın oldu� unu bildirmi � tir:

1. Enformasyon-i � lem yakla� ımı (Information-processing).

2. Çevrebilimsel yakla� ım (Ecological).

3. Matematiksel yakla� ım (Mathematical).

3.2.1. Enformasyon-i � lem (Anlamsal-Enformasyon)

Enformasyon-i � lem yakla� ımı bili � sel psikoloji (cognitive

phychology – bilme veya kavrama psikolojisi, anlambilim) için genel

bakı � açısıdır. Bili � sel psikoloji’ de enformasyon soyut bir kavramdır ve

ancak insan zihninde bilme eyleminin5 idrak, yani anlayabilme alt

süreci içinde var olur ve anlamsal-enformasyon’ dur (veya

anlambilimsel-enformasyon). Psikoloj i’de, enformasyon fikri sadece

bilgi kavramı ile, yani ayrıca belirtilmeden içine dahil edilmi � � ekilde

tanımlanır. Enformasyon-i � lem yakla� ımda, enformasyon zihnin

tasvirine ait bir mesele olarak, daha do� rusu dü� ünen ki � inin

zekasında/aklında hesaplama ile ilgili yapılar olarak ele alınır. Soergel

(1985) anlamsal-enformasyonun bir ki � inin bilme eylemi içindeki var

olu� noktasını � ekil 3.2.1.1’de oldu� u gibi, dı � dünyadaki veriden

ba� layarak davranı � a kadar ki zihinsel süreçler içinde resmetmi � tir.

5 Bilme eylemi algı, idrak (anlama, kavrayı � ) ve karar verme olarak 3 alt süreçten meydana gelir.


44

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � ��

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � ��

Bilgi

� �leme ve Yorumlama

Karar Verme

Davranı � ın Planlanması

Davranı �

MevcutDurum

�stenilenDurum

Algılama

Veri,enformasyon’a

Dönü � ürVeri

�ekil 3.2.1.1: Bireysel bilme eylemi (Soergel, 1985).

Soergel’ in anlamsal-enformasyon tasviri bili � sel psikoloji bakı �

açısını tam olarak yansıtmaktadır. Bu genel enformasyon betimlemesi,

özelde disiplinler arasında küçük farklar olmasına ra� men insanın

bilme eylemi ile u� ra� an tüm bilim dallarında da geçerlidir. Ancak

enformasyon her ne kadar ki � inin bilgi edinme süreci içinde var

olabilen bir olgu olsa da; bilgi ile enformasyon arasındaki farkı

uygulamalı sahalarda belirleme ihtiyacı vardır. Böyle belirleyici bir

anlamsal-enformasyon tanımı da ancak enformasyon, bilgi ve veri

kavramları üzerinden “ i � levsel tanımlar ve ili � kiler” kapsamında ortaya

konabilir.

Bili � sel psikoloji bakı � açısından veri, bilgi ve enformasyon

kavramlarının tanımları Fosket (1996) tarafından � u � ekilde verilmi � tir:


45

“ Veri (Data) do� rudan, hiçbir aracı olmaksızın gözlemlenen her türlü gerçek veya gerçekler; Bilgi (Knowledge) benim bildi � im � ey, yani ki � i olarak bildi � imiz � ey veya � eyler; Enformasyon (Information) ise bizim bildi � imiz � eyler, yani payla� ılmı � bilgidir.”

(Fosket, 1996)

Fosket’ in tanımlarında belirleyicilik adına altı çizilmesi gereken

husus: sadece enformasyonun insanlar arasında nakledilebildi � i ve

bilginin insana has oldu� udur. Bilgisayar bilimleri için daha belirleyici

ve i � levsel veri, bilgi ve enformasyon kavramları, bili � sel psikoloj i

bakı � açısından sapmadan Creaven (2002) tarafından � u � ekilde

uyarlanmı � tır:

“ Veri (Data), insanlar veya bilgisayarlar tarafından alınabilen, depolanabilen, i � lenebilen ve iletilebilen her türlü sayı, harf ve harf dizileri, resimler ve benzeri � eyler; Bilgi (Knowledge) ise algı, ö� renme ve usa vurmanın psikolojik sonucudur. …; Enformasyon (Information) ise alan ki � inin belirsizli � ini azaltan, alınabilen ve anlanabilen bir mesajdır.”

(Creaven, 2002)

Creaven’ ın tanımlarında da, Fosket’ inkinde oldu� u gibi bilgi

insana ait bir olgu olarak tanımlanmı � ; ancak enformasyonun payla� ım

özelli � i farklı olarak soyut bırakılmamı � , alınabilen ve anlanabilen bir

mesaj olarak nesnele� tirilmi � tir. Mesaj veya ileti ise, sözle veya yazılı

olarak insanlar arasında gönderilen haber olarak tanımlanır.

Enformasyon fikrinin bu tanımı, aslen bili � sel psikoloji bakı � açısından

enformasyonun var olu� noktasını de� i � tirmez, yine insanın bilme

eyleminin soyut bir parçasıdır. Ancak, enformasyon olgusunun

tasvirini, bilmeye kaynak te� kil eden somut, yani nesnel olgulardan

ba� langıçla, insana do � ru, yani bili � eyleminin gerçekle� mesine do� ru

yapar. Bir ba� ka söyleyi � le, öncelikle somut bir nesne ile, daha do� rusu

veri ile temsil edilmi � bir mesaj vardır (ki bu mesajın da kayna� ı aslen

yine bir ba� ka insandır!). E� er bu mesaj bir ki � i tarafından alınabiliyor,


46

anla� ılıyor ve o ki � inin belirsizli � ini gideriyor, yani bir durum hakkında

o ki � inin kararsızlı � ını ortadan kaldıran bir bilgiyi olu� turuyorsa

enformasyondur. Ki � iler arası mesaj iletimini olu� turan alt süreçler �ekil 3.2.1.2.’de resmedilmi � tir.

A Ki � isi

Bilgi � � leme ve Yorumlama

Mesaj Olu � turma

�leti � im Ortamı

B Ki � isi Bilgi leme ve Yorumlama

Veri

Algıma

Veri,enformasyon’a

EnformasyonVeri’ye

Mesaj ≅Enformasyon

�ekil 3.2.1.2 : � nsanlar arasında Mesaj/Haber � letimi. Soergel’ den (1985)

uyarlanmı tır. Enformasyonun veriye ve verinin tekrar enformasyona dönü üm evrelerini betimler.


47

3.2.2. Çevre-bilimsel Yakla� ım

Çevrebilimsel yakla� ım enformasyonun dünyada hazır bulunu� u,

daha do� rusu varlık fikrine dayanır. Çevrebilimsel yakla� ım içinde

enformasyon gerçek olguların veya mahallerin özellikleridir.

3.2.3. Matematiksel Yakla� ım

Matematiksel yakla� ım, enformasyon fikrinin tanımına yönelik

olarak Thagard’ ın verdi � i son yakla� ımdır. � lk defa Shannon6 (1949)

tarafından ortaya konmu� tur. Aynı yakla� ım literatürde ileti � im-teorik

ve enformasyon-teorik olarak da anılır. Bu yakla� ım açısından

enformasyon bir kaynak ve hedef arasında kurulmu� herhangi bir

ileti � im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir,

yani sinyal-enformasyon’ dur (veya öz-enformasyon). Sinyal ile

enformasyon arasındaki ili � ki istatistik esaslıdır, daha do� rusu ileti � im

� ekli içinde söz konusu sinyalin gözlenme olasılı � ına dayanır. En çok

enformasyon içeren sinyal en az olasılı � a sahip olandır ve aralarında

Denklem 3.2.3.1.’de verildi � i gibi ters orantı vardır.

)(log veya)(

1log)( 22 sPI(s)

sPsI −== (3.2.3.1)

Denklem 3.2.3.1.’de; bir sinyal üzerinden ta� ınan sinyal-

enformasyon miktarı I(s), söz konusu sinyalin s, gözlenme olasılı � ının

P(s), -1. dereceden kuvvetinin 2 tabanına göre logaritması alınarak elde 6 Claude Elwood Shannon, 1916-2001 yılları arasında ya� amı � Amerikalı bir bil im adamıdır. 1940 yıl ında MIT’ den matematik dalında doktorasını almı � ve 1941 yıl ında AT&T adına çalı � maya ba� lamı � tır. 1948 yılında enformasyonun nicel olarak nasıl ölçülebilece� ine dair kuramını yayınlamı � tır. Enformasyon teorisi , sayısal mantık ve matematiksel ileti � im modeli için kuramsal alt yapıyı olu� turan ki � idir.


48

edilen sayısal de� erdir. Denklem’den elde edilen sayısal de� er sinyal-

enformasyon miktarını nicel � ekilde “ ikili sayıları” (binary digits)

cinsinden ifade eder, daha do� rusu ikilleri (bits) birim alarak

ölçeklendirmektedir.

Bili � sel psikoloji bakı � açısına dayalı anlamsal-enformasyon

fikrinin bir özelli � i olan anlam, yani idrak edebilen bir zihin tarafından

anla� ılma özelli � i sinyal-enformasyon fikrinde yoktur (Weaver, 1949).

Sinyal-enformasyonun nicel olarak ölçülebilmesinin kökeninde, Türkçe

kar � ılı � ı düzensizlik olan, � ngilizce entropy kavramı vardır. Düzensizlik

kavramı fikir olarak termodinamikten gelmektedir ve tanımı � öyledir:

“ E� er verilen bir durum son derecede organize bir haldeyse, yüksek dereceli rasgele olu� larla veya seçeneklerle nitelenemez, yani söz konusu durumda enformasyon az miktarda bulunmaktadır.”

(Weaver, 1949)

Aslen, Denklem 3.2.3.1.’den belirli bir sinyal için elde edilen

sayısal ifade, hem sistem içinde gözlemlenebilecek farklı durumlar

nispetinde olu� an toplam düzensizli � in bu sinyale ait kısmını, hem de

sinyalin söz konusu sistemdeki sinyal-enformasyon de� erini ikil adedi

cinsinden nicel olarak temsil eder. Örne� in, belirli bir sinyalin

gözlenme olasılı � ı “1” ise bu sinyalin hem sinyal-enformasyon de� eri

hem de sistemde yarattı � ı düzensizlik miktarı ikil adedi cinsinden 0

(sıfır) olur. Bir ba� ka söyleyi � le, e� er kayna� ın hedefe iletebilece� i tüm

mesajların farklı olanlarının her birini temsil için tek bir sinyale ihtiyaç

oldu� u kabul edilirse: Gönderilecek tek bir mesaj oldu� u durumda,

zamanın herhangi bir kesitinde iletim hattı üzerinde gözlemlenecek

sinyal hep aynı kalacak, yani tam bir düzen olacaktır. Dolayısı ile hat

üstünde gözlemlenebilecek farklı durumları kodlamak için gerekecek

asgari ikil sayısı ve söz konusu sinyalin sinyal-enformasyon de� eri 0


49

olacaktır; Ancak nakledilmek istenen mesaj sayısı 2 olursa, zamanın

herhangi bir kesitinde sistem içinde farklı iki sinyalden herhangi birisi

gözlemlenebilir. Dolayısı ile hat üstünde gözlemlenebilecek farklı

durumları kodlamak için gerekecek asgari ikil sayısı ve söz konusu

sinyallerden her birinin sinyal-enformasyon de� eri 1 olacaktır; Aynı � ekilde 3 mesaj için, 3 farklı durumu kodlamak gerekecek dolayısı ile

gözlemlenebilecek farklı durumları kodlamak için gerekecek asgari ikil

sayısı ve sinyal-enformasyon de� eri 2 olacaktır. Genellersek, n farklı

durum için log2(n) ikil gerekecektir.

3.2.4. Enformasyon Yakla � ımlarının Kar � ıla � tırması

Lyons (1977) terminoloji açısından sinyal-enformasyon ile

anlamsal-enformasyon arasında karma� ık bir ili � ki oldu� una da dikkat

çekmi � tir. Lyons bu iki farklı enformasyon kavramı arasında, duyusal

olarak beklenmedik olma, yani � a� kınlık yaratma ölçüsünde bir

ba� lantı oldu� undan bahseder. Bu ba� lantı, bir sinyalin gözlenme

olasılı � ı arttıkça ta� ıdı � ı sinyal-enformasyon azalır ilkesi üzerinden

kurulur. Örne� in “Adam köpe� i ısırdı.” cümlesi “Köpek adamı ısırdı.”

cümlesinden duyusal olarak � a� kınlık yaratma ölçüsünde bir bakıma

daha büyük anlamsal-enformasyon de� eri ta� ır denebilir. Bu ba� lamda

söz konusu iki cümlenin duyusal olarak � a� kınlık yaratma miktarı

sinyal-enformasyon de� erleri olarak da dü� ünülebilir: Duyusal olarak � a� kınlık yaratma miktarı yüksek olan “Adam köpe� i ısırdı” cümlesi

beklenmedik bir durumdur, yani gözlenme olasılı � ı dü� üktür dolayısı

ile sinyal-enformasyon de� eri yüksektir; Benzer � ekilde bir sinyalin

gözlenmesi olasılı � ı e� er “1” ise, bu sinyal hiç sinyal-enformasyon

ta� ımaz. Yani, e� er bir ki � i tamamen tahmin edilebilir bir � ey

söylüyorsa, “Köpek adamı ısırdı” cümlesi gibi duyusal açıdan � a� kınlık


50

yaratma ölçüsünde söyledi � i � eyin hiçbir anlamsal-enformasyon de� eri

yoktur denebilir.

Anlamsal-enformasyonun verilen tanımından da anla� ılaca� ı

gibi enformasyon, ba� langıç olarak veri ile temsilinden dü� ünen bir

zihinde bilgiye dönü� mesine kadar geçen süreçte, tekbir halde

bulunmaz. Çizelge 3.2.4.1.’de enformasyonun, içinde bulundu� u

süreçler açısından hangi hallerde oldu� u verilmi � tir.

Çizelge 3.2.4.1: Enformasyonun çe� itli hallerini gruplayan Buckland Matrisi (Buckland, 1991)

Soyut (Intangible) Somut (Tangible)

Varlık (Entity)

Bilgi-olarak-Enformasyon: Ki � isel, bireysel bilgi

Nesne-olarak-Enformasyon: Kayıtlı her türlü veri: belge vb.

Süreç (Process)

Süreç-olarak-Enformasyon: Edinilmi � enformasyon.

� � lem içindeki enformasyon: Veri i � leme, belge i � leme v.b.

Buckland (1991) enformasyonun söz konusu hallerini kavramsal

(soyut veya somut) ve nesnel (varlık veya süreç) olmak üzere iki boyut

üzerinden 4 gruba ayırır ve söz konusu sınıflandırma Buckland Matrisi

olarak anılır:

1. Bilgi olarak enformasyon: “Soyut varlık” olarak enformasyon sadece insanda bulunur ve ki � isel, daha do� rusu bireye ait bilgidir.

2. Bir � ey olarak enformasyon: “Somut varlık” olarak enformasyon gündelik hayatta kar � ıla� ılan ve nesnel olan her türlü veridir: belge, ses, görüntü v.b. � eyler.

3. Süreç olarak enformasyon: “Soyut süreç” olarak enformasyon bili � sel olarak verinin dü� ünen bir zihinde enformasyona dönü� mü� hali, yani edinilmi � enformasyondur.


51

4. Enformasyonu i � leme: “Somut süreç” olarak enformasyon, yani i � lemin hedefinde bulunan nesnel enformasyon; mekanik olarak semboller (yazılı belgelerdeki alfabe, sayılar vb. ) veya ba� ka

� eklindeki gösterimler üzerinde i � lem yapmak, örnek olarak veri i � leme (data processing), belge i � leme (document processing) ve bilgi mühendisli � i (Knowledge engineering).

Tez kapsamında yaptı � ımız çalı � malar anlamsal enformasyonun

somut hallerini esas almaktadır.

3.3. Enformasyonun � letimi – � leti � im

Enformasyon fikrine Thagard (1990) tarafından verilen

yakla� ımların içinde anılan önemli bir di � er husus da, enformasyonun

nakledilmesi, daha do� rusu genel adı ile ileti � im, haberle� medir. Aslen

Shannon (1949) tarafından sinyal-enformasyon fikrinin ortaya atıldı � ı

çalı � mada, sadece sinyal-enformasyon iletimi için tasarlanmı � olan �ekil 3.3.1.’deki ileti � im modeli, insanlar arasındaki anlamsal-

enformasyon nakli içinde kullanılabildi � inden, literatürde ileti � imin

klasik modeli olarak anılır ve her iki enformasyon fikri kapsamındaki

uygulamalarda genel-geçer model kabul edilir.

�ekil’de, kaynak, daha do� rusu enformasyonun kayna� ı telefonda

konu� mayı yapan ki � idir. Verici sesi elektrik sinyaline çeviren birimdir. �ekilde etiketsiz olarak bulunan kutu ise sinyal gönderip alınabilen

herhangi bir iletim ortamıdır (örne� in telefon hattı). Alıcı, iletim

ortamından aldı � ı sinyali tekrar sese çeviren birimdir. Hedef ise

telefonun kar � ı tarafında konu� mayı dinleyen ki � idir. Gürültü kayna� ı

bu ileti � imi bozacak her türlü ek uyarımdır (örne� in telefon hatlarında

yo � unluk).


52

Kaynak Verici Alıcı Hedef

GürültüKayna � ı

Mesaj MesajSinyalAlınanSinyal

Anlamsal-enformasyon

Sinyal-enformasyon

�

ekil 3.3.1: � leti � imin klasik modeli. (Shannon, 1949, uyarlama)

Shannon’un, enformasyonun iletimi için verdi � i modelle ilgili altı

çizilmesi gereken en önemli husus: kaynak ile hedef arasında anlamsal-

enformasyon naklinin; alıcı ve verici arasında sinyal-enformasyon

gönderiminin söz konusu olmasıdır. Çünkü, ileti � im fikri, daha do� rusu

anlamsal-enformasyonun nakli sadece iki insan arasında var

olmaktadır. � leti � imin klasik modelinde, genel olarak anlamsal-

enformasyon naklinin her � ekli için bir betimleme verilmi � tir, özelde

tez kapsamı içinde ele aldı � ımız yazılı metinlere uyarlanmı � ileti � im

modeli de � ekil 3.3.2.’deki gibidir.

Anlamsal-enformasyonun genelde her � eklinde, özelde de yazı ile

naklinde enformasyonun muhtemelli � i (potansiyel) söz konusudur.

Yazı ile ileti � imde, anlamsal-enformasyon simgesel göstergeler ile

temsil edilen anlamlar silsilesi halinde metne dönü� türülür. Söz konusu

iletilmek istenen anlamsal-enformasyonun tekrar elde edilebilir olması

adına kullanılan simgesel göstergelerin “ dü� ünen bir zihin tarafından

idrak edilebilme, yani anla� ılabilir” olma özelli � ini ta� ıması gerekir.

Temsil edilen anlamlar, bütün halde kaynak ile hedef arasında

nakledilmek istenen mesaj içeri � ini, yani muhtemel enformasyonu


53

olu� turur. Muhtemellik ise ileti � imin hacim özelli � i ile izah edilir, yani

hedef durumunda mesajı okuyan herhangi bir ki � i, enformasyonu

edinebilirken, herhangi bir ba� ka ki � i edinemeyebilir, yani

nakledilmeye çalı � ılan enformasyonu anlamayabilir. Enformasyonun

muhtemelli � i ba� lamında, � ifrelenmi � metinlerin herkes için; hedef

ki � inin bilmedi � i bir do � al dilde yazılmı � metinlerin sadece söz konusu

ki � i için, “ enformasyon” olu� turmayaca� ı örnek olarak verilebilir.

Anlamsal-enformasyonun muhtemellik özelli � ini, yazılı metinler için

genellersek, tanım � öyle olur: Yazılı bir metinde, anlamlar bütünü ile

temsil edilen muhtemel bir enformasyon vardır; bir ki � i söz konusu

metni okur ve idrak ederse, bu muhtemel enformasyon sadece o ki � i için anlamsal-enformasyona dönü� ür.

�leti � im = anlamsal enformasyonun nakli

Kaynak

yazarken

metin

okurken

Okuyan

Anlamlar ile ifade

eder

Anlamları algılar

Enformasyonu

edinir

Mesaj içeri � i (anlamlar bütünü)

Muhtemel Enformasyon

Hedef

Bilgi Olu� ur

Anlamlar silsilesi

Enformasyonu NaklederYazan

Enformasyon Kayna� ı

�ekil 3.3.2: Anlamsal-enformasyonun yazı ile iletim modeli.


54

3.4. Veri, Enformasyon ve Bilgi Tanımları

Tez kapsamında geçerli veri, enformasyon ve bilgi tanımları

anlamsal-enformasyon yakla� ımı esasına göre � öyledir:

Tanım 4.4.1: Veri, insanlar veya bilgisayarlar tarafından alınabilen, depolanabilen, i � lenebilen ve iletilebilen her türlü sayı, harf ve harf dizileri, resimler ve benzeri olgulardır;

Tanım 4.4.2: Enformasyon, alınabilecek ve anla� ılabilecek bir mesajın içeri � ini te� kil eden verilerin temsil edebilece� i her muhtemel anlam ile olu� turulabilecek “anlam bütünleri” toplulu� undan, dü� ünen bir zihin tarafından idrak edilebilir özellikteki her “anlam bütünü” ;

Tanım 4.4.3: Bilgi genel anlamda algı, ö � renme ve usa vurmanın psikolojik sonucunda (her tür edinilmi � enformasyon yorumlanarak), özelde ise deneyim, ya� anmı � lık, tecrübe etme (ki � inin a� ina oldu� u, malum olmu�

� eylere ait bilgi) veya tanımlama, tasvir, betimleme (ki � inin okuyarak veya olgular üzerinden edindi � i bilgi) sonucunda olu� ur ve sadece ki � inin zihninde soyut olarak var olur.

Tanımlanan veri, enformasyon ve bilgi arasındaki ili � kiler de �ekil 3.4.1.’de özetlenmi � tir.

Enformasyon = Veri + Anlam

Bilgi = Enformasyon + � � lem

�ekil 3.4.1: Veri, enformasyon ve bilgi arasındaki ili � kilerin denklemleri.


55

3.5. Enformasyon ve Haber

Bu bölümde, � ngilizce information terimi için Türkçe kar � ılık

olarak haber kelimesinin kullanılması ve bilgi kelimesinin sadece

� ngilizce knowledge terimi ile kar � ılanan anlamı içerecek � ekilde

daraltılması hususu tartı � ılmaktadır. Türkçe kaynaklarda (TBD 2004;

TDK 2004a) hem knowledge hem de information terimi için bilgi

kar � ılı � ı verilmektedir. Tartı � malı ve mesele olan konu � udur: Türkçe

bilgi kelimesi ile, kökeninde kavramsal tanımları farklı olan iki

olgunun birden, yani � ngilizce information ve knowledge kavramlarının

kar � ılanmaya çalı � ılması, dolayısı ile enformasyon bilim adına: bir,

“Türkçe” için yapılacak çalı � malarda hedeflerin belirlenmesi; iki,

ara� tırmalardan elde edilen sonuç ve ürünlerin yerinde kullanılması; ve

son olarak geni � kitlelere özü bozulmadan aktarılması gibi esasa dayalı

üç hususta disiplinler arası birikimsel katkıyı kısmen engellemektedir.

Bu sebeple, Türkçe’de bilgi kelimesi, sadece � ngilizce knowledge

kavramını kar � ılamak için kullanılmalıdır. Information terimi ile

kar � ılanan kavram içinse, uygun olan farklı bir Türkçe kelime

olmalıdır. Bizim önerimiz, bili � im’deki anlamıyla enformasyon

kavramını kar � ılamak için haber kelimesinin kullanılmasıdır. Türkiye

Bili � im Derne� i (TBD) Terimler Sözlü� ünün (2004) ve Türk Dil

Kurumu (TDK) Bilgisayar Terimleri Kar � ılılar Kılavuzunun (2004a)

sayısal uyarlamaları information terimini, Türkçe’ye bilgi olarak

aktarmı � tır. Bilgi kelimesinin Türkçe’de kar � ıladı � ı kavramlar ise,

bili � im için verilen kar � ılık hariç, Fosket (1996) ve Creaven (2002)

tarafından � ngilizce knowledge kavramı için verilen tanımla örtü� ürken

(TDK, 2004b); bili � im için verilen tanımda, information kavramına

verilen tanımla örtü� mektedir:


56

“ Bilgi: 1-) � nsan aklının erebilece� i olgu, gerçek ve ilkelerin bütününe verilen ad, malûmat. … 3-) � nsan zekâsının çalı � ması sonucu ortaya çıkan dü� ünce ürünü, malûmat, vukuf. … 6-) (bili � imde) Kurallardan yararlanarak ki � inin veriye yöneltti � i anlam.”

(TDK, 2004b)

Yine Türk Dil Kurumu güncel Türkçe Sözlü� ün sayısal

uyarlamasında (2004b), haber kelimesi için � u tanımlar verilmektedir:

“ 1-) Bir olay, bir olgu üzerine edinilen bilgi, salık. 2-) � leti � im veya yayın organlarıyla verilen bilgi. 3-) Bilgi. 4-) (eskimi � , gramer ) Yüklem.”

(TDK, 2004b)

Haber kelimesinin kar � ıladı � ı Türkçe kavramları detaylı

inceledi � imizde, ilk dikkati çeken husus, Creaven’ ın enformasyon

tanımı için yaptı � ımız tespitin, yani “ ...enformasyonun var olu� noktasını de� i � tirmez, yine insanın bilme eyleminin bir parçasıdır;

ancak olgunun tasvirini bilmeye kaynak te� kil eden somut olgulardan

ba� langıçla, insana do� ru yapar.” hükmünün haber olgusu içinde

geçerli oldu� udur. Bu ba� lamda haber, alan ki � inin belirsizli � ini

azaltan, alınabilen ve anlanabilen bir mesajdır, yani somut halde

simgesel gösterimler ile temsil edilen bir anlamlar bütünüdür. Haber’ i

içeren mesaj bir ki � iye ula� ınca, o ki � i tarafından simgeler algılanır,

anlamlar tekrar yüklenir ve olu� an anlamlar bütününden haber idrak

edilir (bir anlamda geri-getirilir). Bu noktadan itibaren haber

yorumlanarak edinilmi � bilgiye dönü� mü� tür, yani artık söz konusu

olgu, gerçek veya mekan’a ait mevcut durum, o insana mal olmu� tur, o

insan için malum durumdadır. Bu bakı � açısı, somut nesnellikten, insan

zihnindeki soyut varlı � a, yani bilgiye do� ru enformasyon tarifidir ve

somut nesnellik içinde haber enformasyonun kar � ılı � ıdır. Ancak bir de

insan cephesinden, yani bilgi olgusundan ba� layarak enformasyon

tasvir edilebilir. Bu � ekilde yapılan bir tanımda, enformasyon olgusu:


57

algı, ö� renme ve usa vuruma (idrak) ile insana mal olabilecek her türlü

soyut veya somut nesnelere ait özellikleri ta� ıyan malumat olarak da

tanımlanabilir. Bir ba� ka söyleyi � le, soyut veya somut nesnelere ait

özellikler ile temsil edilen belirli bir durumun, bir insan için malum bir

durum olmasına, bilinmesine sebebiyet veren olgudur. Her iki bakı � açısından yapılan tasvirler kullanım sahalarına göre geçerli olabilirler.

Anacak söz konusu bili � im, yani “ enformasyon bilim” ise insan kökenli

tanım pek i � levsel de� ildir; somut nesnellik ba� lamında bir tanım

u� ra� lar açısından i � levsel olacaktır.

� lk anda haber ile information kelimesinin kavramsal olarak

örtü� medi � i dü� ünülebilir. Bunun sebebi haber kelimesinin, Türkçe’de

yaygın olarak � ngilizce news kelimesi için kullanılması, daha do� rusu

bu anlamının di � er anlamlarını bastıracak kadar yaygın kullanılmasıdır.

Aslen, news terimi ile � ngilizce’de kar � ılanan olgu da, Türkçe’deki

haber’dir, fakat güncel, yani “ yeni” olan information anlamında

kullanılır. Bir ba� ka söyleyi � le, information kavramının, news terimi ile

kar � ılanan halinde, duyusal olarak beklenmedik olma, enformasyonu

alan ki � ide bir � a� kınlık yaratma durumu söz konusudur. Türkçe’de bu

� ekilde bir ayrım yoktur, daha do� rusu haberin “eskisi” ve “yenisi”

diye ayrı kavramlar olu� turulmamı � , farklı terimlerle kar � ılanmamı � tır. Bu yüzden bili � imde bir kar � ılık aranırken, information olgusu için en

uygun terimin, bilgi oldu� u dü� ünülmü� olmalıdır. Fakat, haber

kelimesi, information kelimesinin bili � im için kavramsal çeviri

açısından e� , yani köken olarak aynı, ancak Türkçe güncel kullanımda

daraltılmı � kar � ılı � ıdır. Önerimizin temelinde, bilgi kelimesi ile

Türkçe’de kar � ılanan soyut kavramın sınırları bozularak, � ngilizce

information kavramı ile kar � ılanan bir bakıma somut olguyu da içine

alacak hale getirilmesi yerine, daha do� rusu insan dı � ındaki nesneleri

de içine almaya zorlanması yerine, haber kelimesi ile kar � ılanan


58

kavramın güncel dar anlamından geni � letilmesi yatmaktadır. Bu

yakla� ımın enformasyon bilim göz önüne alındı � ında, i � levsel

tanımlara ula� ma hedefini daha rahat kar � ıladı � ı da söylenebilir.

Önerimizi güçlendirmek adına, son olarak dilbilim’de e� anlamlı iki

kelimeyi do � rulamak amacı ile kullanılan yöntemi information ve

haber için uygulayarak tartı � mamızı bitiriyoruz. Dilbilimde “E� er

farklı biçimlere sahip iki kelime aynı cümlede birbiri yerine kullanılır

ve cümlenin anlamı de� i � mezse, söz konusu iki kelime e� anlamlıdır.”

önermesi, biçimsel olarak farklı � ekillere sahip kelimelerin e� anlamlılı � ının sınanması için kullanılan, geçerli bir yöntemdir. Haber

kelimesini Fosket (1996) ve Creaven (2002) tarafından verilen

enformasyon tanımlarında kullanarak e� anlamlılıklarını sorgulayalım.

“ … Bilgi (Knowledge) benim bildi� im � ey, yani ki � i olarak bildi � imiz � ey veya � eyler; Haber (Information) bizim bildi � imiz � eyler, yani payla� ılmı � bilgidir.”

(Fosket, 1996)

“ …Bilgi (Knowledge) ise algı, ö� renme ve usa vurmanın psikolojik sonucudur. …Haber (Information) ise alan ki � inin belirsizli� ini azaltan, alınabilen ve anlanabilen bir mesajdır.”

(Creaven, 2002)

Görüldü� ü gibi aynı cümlede haber kelimesinin enformasyon

kelimesi ile de� i � tirilmesi; Türkçe anlam birli � inin bozulması bir yana,

verilen tanımları daha belirleyici kılmı � , algılanmasını ve anla� ılmasını

kolayla� tırmı � tır. Ancak alınan bu müspet sonucun aksine, tezde bilgi

geri-getirim terimi Türkçe literatürle bütünlü� ü bozmamak amacı ile

biçimsel olarak aynen kullanılacaktır. Fakat okuyucu, yukarıda izah

edildi � i gibi aslen haber geri-getirim terimi ile kar � ılanması gereken

kavramsal sınırları anlamalıdır. Ek olarak, süre geldi � i � ekilde, �ngilizce information ve knowledge kavramları arasındaki farkı


59

belirtebilmek için information terimi yerine enformasyon kelimesi

kullanımı, knowledge terimi yerine de bilgi kelimesi kullanımı devam

edecektir.


60


61

4. ENFORMASYON KURAMI

Enformasyon kuramı Shannon (1949) tarafından ortaya konmu�

olan sinyal-enformasyon fikrini esas alır (Aynı yakla� ım literatürde

ileti � im-teorik ve enformasyon-teorik olarak da anılır). Sinyal-

enformasyon bir kaynak ve hedef arasında kurulmu� herhangi bir

ileti � im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir,

yani öz-enformasyon’ dur. Shannon aslen, mükemmel olmayan bir

ileti � im hattı üzerinden, örne� in gürültülü bir telefon hattı üzerinden

gönderilecek enformasyonun, miktarını en yüksek seviyeye çekme

amacındaydı. Shannon, bu amaç do� rultusunda, herhangi bir

enformasyon kayna� ı ve ileti � im hattı için iki etmenin kuramsal en

yüksek de� erlerini tespit etmi � tir: 1-) düzensizlik, H de� eri ile elde

edilen veri sıkı � tırma miktarı, 2-) � letim hızı, yani ileti � im kanalı

kapasitesi, C ile verilen de� er. Shannon’a gelinceye kadar, iletilmek

istenen mesajın hızı ne kadar arttırılırsa, mesajın iletimindeki hatanın

da o kadar artaca� ı dü� ünülüyordu. Ancak Shannon, mesaj ile ta� ınmak

istenen enformasyonun, kanal kapasitesinden daha küçük bir hızla

iletilmesi durumunda, mesajın iletiminde hata olması olasılı � ının

istendi � i kadar küçültülebilece� ini ispatlamı � tır. Shannon’un ortaya

koydu� u kuramda, mesaj iletiminde kullanılan sinyal ile enformasyon

arasındaki ili � ki istatistik esaslıdır, daha do� rusu ileti � im � ekli içinde

söz konusu sinyalin gözlenme olasılı � ına dayanır. Sinyal-

enformasyonun nicel olarak ölçülebilmesinin kökeninde ise olasılık

kuramını esas alan düzensizlik (entropy) kavramı vardır.


62

4.1. Düzensizlik (Entropy)

E� er X olasılık de� i � keninin, bir ayrık simgesel de� erler kümesi

A (örne� in alfabe) üzerinden tanımlanan olasılık yo � unluk

fonksiyonunun, p(x) oldu� unu kabul edilirse:

AxxXPxp ∈== ),()( (4.1.1)

Örne� in, iki demir parayı havaya atıp yere dü� tüklerinde gelen

turaları sayarsak, p(0) = ¼, p(1) = ½ ve p(2) = ¼ olasılıklarına sahip

bir olasılık de� i � keni tanımlamı � oluruz.

Bir olasılık de� i � keninin düzensizli � i (Entropy), yani öz-

enformasyonu sahip oldu� u ortalama belirsizliktir:

)(

1log)(

)(log)()()(

2

2

xpxp

xpxpXHpH

Ax

Ax

�=

�−==

∈

∈ (4.1.2)

Düzensizlik, bir olasılık de� i � kenindeki enformasyon miktarıdır. Denklem 4.1.2.’de verilen e� itlik, yalın bir � ekilde ))(/1log()( xpxp

de� erlerinin tüm Ax∈ de� erleri için toplamı olarak yorumlanmamalıdır. xxp ∀

�,)( � terimi bir kalıptır ve her Ax ∈

de� eri için ))(/1log( xp de� erinin, yani sinyal-enformasyon miktarının

toplam üzerindeki etkisini a� ırlıklandırır. Ayrıca, p(x) tanımı gere� i xxp ∀=

�,1)( . � statistiksel olarak xxp ∀

,)( kalıbı bir olasılık

de� i � keni için beklen de� er, yani tahmini de� er tanımlar. Örne� in bir

olasılık de� i � keni Z ve olasılık yo � unluk fonksiyonu p(z) olsun. Z

olasılık de� i � keninin beklenen de� eri E(Z):


63

�=⋅=

∀zzzzpZE )()( (4.1.3)

E(Z) beklenen de� eri, Z olasılık de� i � keninin tanım kümesinin ortalamasının zµ , tahmini, yani z de� erine e� ittir. Beklenen de� er

tanımı kullanılarak, Denklem 4.1.2.’de verilen düzensizlik e� itli � i

Denklem 4.1.4.’ deki biçimde yazılabilir.

�=��

��=∀x xp

xpxp

EXH)(

1log)(

)(

1log)( 22 (4.1.4)

Denklem 4.1.4.’ün Denklem 4.1.3.’den elde edili � inde

belirtilmesi gereken bir nokta vardır. Denklem 4.1.3.’e göre gerçekte düzensizlik ( )( ) ( ) xxpxpp ∀

,)(/1log)(/1log olmalıdır. Bir ba� ka

söyleyi � le, ))(/1log( xp ile betimlenen olasılık de� i � kenine ait olasılık

yo � unluk fonksiyonunun de� erleri ile a� ırlıklandırmak gerekmektedir. Ancak, ( ) ∀== xxpxpp ,1)())(/1log( ve log fonksiyonunun bir

do� rusal ta� ıma olmasından ötürü X ile ))(/1log( xp olasılık

de� i � kenlerinin olasılık yo � unluk fonksiyonları özde� , yani p(x)

olacaktır.

Düzensizli � in 3 (üç) temel özelli � i vardır;

1. )(~;0)( xpXxXH ⇔∀≥ .

2. cXxXH =⇔∀= ;0)( . Yani X olasılık de� i � keni sabit bir c de� erine e� itse, bir olasılık da� ılımına göre de� er almıyorsa.

3. Düzensizlik mesaj uzunlu� u ile orantılı olarak artar.


64

4.2. Bir le� ik Düzensizlik ve Ko� ullu Düzensizlik

Ayrık iki olasılık de� i � keni X,Y ~ p(x,y) çiftinin birle� ik

düzensizli � i, ikisinin de� erini birlikte belirtmek için gereken ortalama

enformasyon miktarıdır.

��−=

∀ ∀x yyxpyxpYXH ),(log),(),( 2 (4.2.1)

Bir ayrık Y olasılık de� i � keninin, X olasılık de� i � keni

verilmi � ken ko ullu düzensizli i (X,Y ~ p(x,y)), kar � ı taraf X’ i bilirken

Y’ yi iletmek için sa� lamak gereken, fazladan ortalama enformasyon

miktarını verir.

��−=

� ��

−=

�==

∀ ∀

∀ ∀

∀

x y

x y

x

xypyxp

xypxypxp

xXYHxpXYH

)(log),(

)(log)()(

)()()(

(4.2.2)

Olasılık kuramında oldu� u gibi, düzensizlik için de bir

zincirleme kuralı vardır.

),()()(),,(

)()(),(

111211 −+++=

+=

nnn XXXHXXHXHXXH

XYHXHYXH

�� (4.2.3)

Olasılık kuramı içindeki zincirleme kuralında, olasılıkların

çarpımları, düzensizlikte log fonksiyonu sebebi ile toplam olmu� tur.


65

( )( )( )

( )( ) ( )

)()(

)(log)(log

)(log)(log

)()(log

),(log),(

),()(

),(

),(

),(

XYHXH

xypExpE

xypxpE

xypxpE

yxpEYXH

yxpxp

yxp

yxp

yxp

+=

−−=

+−=

−=

−=

(4.2.4)

Bir mesaj içinde bulunan enformasyon miktarı, mesajın

boyutuna ba� ımlı oldu� u için, genellikle bir harf için veya bir kelime

için düzensizlikten bahsedilir. Bir mesajın, n uzunlu� unda olması

durumunda düzensizlik hızı (entropy rate) olarak da bilinen bir

harf/kelime için düzensizlik Denklem 4.2.5.’de verildi � i gibi

hesaplanır.

�−==

nxnnnrate xpxp

nXH

nH

1

)(log)(1

)(1

111 (4.2.5)

Denklem 4.2.5.’de, X1n simgesi, genel hali ),,( jiij XXX �=

olan gösterimin, özelidir ve ),,( 1 nXX � olasılık de� i � kenlerinin sıralı

silsilesini temsil eder.

E� er do� al bir dili, simgelerin sıralı diziliminin olu� turdu� u bir

silsile süreci (stochastic process) olarak kabul edersek, L=(Xi), örne� in

bir haber kanalından gönderilen her haber yazısının meydana getirdi � i

bir derlem olabilir, do � al dilin L, düzensizli � ini söz konusu silsile

sürecinin düzensizlik hızı olarak tanımlayabiliriz.

),,,(1

lim)( 21 nn

rate XXXHn

LH �∞→

= (4.2.6)


66

Denklem 4.2.6. ile do� al bir dilin, yani aktif kullanımı olan ve

iç-devinimli olarak de� i � en bir dilin düzensizli � ini hesapladı � ımız için,

elimizdeki örnek derlem boyutu sonsuza giderken düzensizlik hızını

hesaplamamız gerekmektedir. Denklemde bu yüzden limit i � levi

kullanılmı � tır.

4.3. Kar � ılıklı Enformasyon (Mutual Information)

Düzensizli � in zincirleme kuralına göre, iki ayrık olasılık

de� i � keninin X,Y ~ p(x,y) birle� ik düzensizli � i H(X,Y), Denklem

4.3.1.’de gösterildi � i biçimde hesaplanabilmektedir.

)()()()(),( YXHYHXYHXHYXH +=+= (4.3.1)

Denklem 4.3.1.’den de, Denklem 4.3.2.’de bulunan e� itlik elde

edilmektedir.

)()()()( XYHYHYXHXH −=− (4.3.2)

Denklem 4.3.2.’de verilen düzensizlikler arasındaki fark

kar� ılıklı-enformasyon olarak adlandırılmaktadır. Sözle ifadesi edecek

olursak: bir olasılık de� i � kenini (Y) bilmekle bir di � er olasılık

de� i � keninin (X) düzensizli � indeki azalı � miktarıdır. Bir ba� ka

söyleyi � le, bir olasılık de� i � keninin (Y), di � er bir olasılık de� i � keni (X)

hakkında içerdi � i enformasyon miktarıdır. Kar � ılıklı-enformasyon ve

düzensizlik arasındaki ili � kinin çizge olarak ifadesi � ekil 4.3.1.’de

verilmi � tir (Cover and Thomas, 1991).


67

H(X,Y)

H(X) H(Y)

H(Y|X)H(X|Y)

I(X;Y)

�

ekil 4.3.1: Kar � ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili � ki.

Kar � ılıklı-enformasyon, iki de� i � ken tarafından içerilen ortak

enformasyon miktarının simetrik ve pozitif nicel de� eridir. Kar � ılıklı-

enformasyon iki de� i � kenin ba� ımsızlık ölçütüdür ve � u özelliklere

sahiptir:

1. Kar � ılıklı-enformasyon, iki de� i � ken ba� ımsızken 0 (sıfırdır).

2. � ki ba� ımlı de� i � ken için, kar � ılıklı-enformasyon miktarı sadece ba� ımlılı � ın derecesi oranında artmaz, aynı zamanda de� i � kenlerin düzensizli � i nispetinde de artar.

Kar � ılıklı-enformasyon için biçimsel tanımlama Denklem

4.3.3.’de verilmi � tir. Denklem, hem düzensizli � in neden öz-

enformasyon (self-information) olarak adlandırıldı � ını, hem de

tamamen ba� ımlı iki de� i � kenin kar � ılıklı-enformasyonunun neden

sabit olmayıp, de� i � kenlerin düzensizli � ine ba� lı oldu� unu da

açıklamaktadır.


68

�=

�+

� �+=

−=

∀

∀

∀ ∀

yx

yx

x y

ypxp

yxpyxp

yxpyxp

ypyp

xpxp

XYHXHYXI

,

,

)()(

),(log),(

),(log),(

)(

1log)(

)(

1log)(

)()();(

(4.3.3)

Denklem 4.3.4.’de ko� ullu kar � ılıklı-enformasyon ve Denklem

4.3.5.’de de zincirleme kuralı verilmi � tir.

),()());(();( ZYXHZXHZYXIZYXI −== (4.3.4)

�=

++=

=−

−n

iii

nnn

XXYXI

XXYXIYXIYXI

111

1111

),,;(

),,;();();(

�

�� (4.3.5)

4.4. Ko� ullu Düzensizlik (Conditional Entropy)

�ki olasılık yo � unluk fonksiyonu p(x) ve q(x) için göreceli

düzensizlik Denklem 4.4.1.’de verilmi � tir.

( ) =∀x xq

xpxpqpD

)(

)(log)( (4.4.1)

Denklem 4.4.1.’de 0)/0log(0 =⋅ q olarak, ∞=⋅ )0/log( pp

olarak kabul edilmektedir. Aynı zamanda Kullback-Leibner (KL)

ıraksaklı ı (Kullback-Leibner divergence) olarak da anılan göreceli

düzensizlik, aynı örneklem uzayında tanımlı iki olasılık da ılımının ne


69

kadar farklı oldu� unu gösterir. Beklenen de� er olarak tanımlaması

Denklem 4.4.2.’de verilmi � tir:

( ) ��=

)(

)(log

xq

xpEqpD p (4.4.2)

Dolayısı ile, p ve q arasındaki KL yakınsaklı � ı, p da� ılımdaki

olayları, q da� ılımını esas alan kodlarla kodlanması ile fazladan ortaya

çıkan ortalama düzensizlik miktarını, bir ba� ka söyleyi � le kodlama için

fazladan harcanan ikil (bit) sayısını verir.

Göreceli düzensizlik miktarı daima pozitif bir sayıdır ve 0 (sıfır)

olması ancak q da� ılımın, p da� ılımına e� it olması ile gerçekle� ir. Göreceli düzensizlik matematiksel anlamda bir ölçüt de� ildir, yani p ve

q için simetrik de� ildir ve saç aya� ı e� itsizli � ini7 (triangle inequality)

sa� lamaz.

Kar � ılıklı-enformasyon aslında, bir birle� ik da� ılımın

ba� ımsızlıktan ne kadar uzak oldu� unun da bir ölçütüdür ve Denklem

4.4.3.’de verildi � i � ekli ile betimlenir.

))()(),(();( ypxpyxpDYXI ⋅= (4.4.3)

Ko � ullu göreceli düzensizlik, Denklem 4.4.4.’de ve göreceli

düzensizlik için zincirleme kuralı da Denklem 4.4.5.’de verilmi � tir.

7 Herhangi üç nokta X, Y ve Z için saç aya� ı e itsizli � i (triangle inequality) udur: d(x,y) <= d(x,z) + d(z,y). (d(x,y) iki nokta arasındaki mesafedir)


70

( ) ��=∀∀ yx xyq

xypxypxpxyqxypD

)(

)(log)()()()( (4.4.4)

( ) ( ) ( ))()()()(),(),( xyqxypDxqxpDyxqyxpD +=

(4.4.5)

4.5. Çapraz düzensizlik (Cross Entropy)

Düzensizlik (entropy) bir de� i � kenin alaca� ı de� erlerdeki

belirsizli � i nicel olarak ölçer. Bir � ey hakkında daha çok � ey bildikçe,

düzensizlik dü� ecektir, çünkü yapılacak bir denemenin sonucu bizi � a� ırtmayacaktır. Öyleyse, düzensizli � i ne kadar � a� ıraca� ımızın bir

ölçüsü olarak da dü� ünebiliriz. Örne� in, yazılı bir metinde cümle içinde

bir sonraki kelimenin ne oldu� unu tahmin etmeye çalı � tı � ımızı

dü� ünelim. Bu durumda cümlenin ba� ından itibaren okudu� umuz, yani

bildi � imiz kelimelerden h, bir sonraki kelimenin w, ne olaca� ının

tahmin edilmesi P(w | h) biçiminde, � ekilsel olarak gösterilebilir.

Dolayısıyla, ne kadar � a� ıraca� ımızın bir ölçüsü olarak, söz konusu dile

ait geli � tirilmi � bir model, m ile bir sonraki kelimeye, w’ ye atanan

ko � ullu olasılı � ı alabiliriz. � a� ırma, noktasal düzensizlik (pointwise entropy) olarak adlandırılan )|(log)|( 2 hwmhwH −= denklemi ile

ölçülebilir. E� er tahmin edici, verilmi � bir, h ile ifade edilen

kelimelerin akı � tarihini, w kelimesinin izleyece� inden eminse ve bu da

do� ruysa, tahmin edicinin w kelimesini görmesi ile w kelimesinden elde edece� i enformasyon miktarı 01log2 =− olacaktır. Bir ba� ka

söyleyi � le, tahmin edici w kelimesini gördü� ünde hiç � a� ırmayacaktır.

Ancak di � er taraftan, model w kelimesinin verilen, h tarihini izlemeyece� ini öngörüyorsa, dolayısı ile 0)|( =hwm olacaktır ve

tahmin edicinin, w kelimesini görmesi ile elde edece� i enformasyon miktarı ∞=− 0log2 olacaktır. Son durum, kullandı � ımız dil modelinin

m, sonsuz derecede � a� ırması demek olur, bu da model için çok kötü bir


71

� eydir. Genelde dil modelleri, her olay için söz konusu iki uç noktaya

kar � ılık gelen aralık içinde, yani [0,1] kapalı aralı � ında bir olasılık

üretirler, böylece bir sonraki kelime w, belli oldu� unda bir miktar

enformasyon kazanırlar, yani bir miktar � a� ırırlar. Amaç bu � a� ırma

düzeyini, mümkün oldu� unca dü� ük seviyede tutmaktır. Tahmin edici

modelin, tüm kelimeler üzerinden � a� ırma miktarlarının toplamı, bize

modelin toplam � a� ırma miktarını verir:

),,,(log

),,,|(log

212

11212

n

n

jjjtoplam

wwwm

wwwwmH

�

�

−=

�−=

=−

(4.5.1)

Denklem 4.5.1.’de, e� itli � in son satırdaki hali, zincirleme kuralı

kullanarak çıkartılır. Genelde bu ölçüt metnin uzunlu� una ba� ımlı

olmaması için normalle� tirilir. Ölçütün normalle� mi � hali, bir kelime

için ortalama � a� ırma miktarını vermektedir.

Düzensizli � in, � a� ırmanın bir ölçüsü olarak verildi � i yukarıdaki

tanımı biçimsel bir halde verecek olursak, çapraz düzensizli � in

tanımına kolayca ula� ılacaktır. Do� al dili, gerçek bir olgu olarak

modellemeye çalı � tı � ımızı farz edelim. Ayrıca do� al dilde yapılan bir

konu� ma içindeki her bir sözü (yazıdaki kar � ılı � ı kelime), modellemeye

çalı � tı � ımız do � al dilin hesaplama birimleri olarak alalım. Sözler

kümesini, gerçek sayılar kümesine ta� ıyan bir olasılık de� i � keni X,

tanımlarsak, X de� i � keninin sözler kümesi üzerinde tanımlı bir da� ılımı

olacaktır, yani X ~ p(x). Fakat, ne yazık ki bu gün gerçek bir olgu

olarak, hiçbir dil için p(.) da� ılımının ne oldu� u bilinmemektedir.

Ancak, örneklere bakarak, belirli konu� maları kapsayan bir sözler

derlemi olu� turup, de� erlendirme altındaki do � al dilin, söz konusu p(.)

da� ılımının neye benzedi � ini deneysel olarak bulmaya çalı � abiliriz. Bir


72

ba� ka söyleyi � le, gerçek da� ılımın bir modelini m, elimizdeki en iyi

tahminleri kullanarak olu� turabiliriz. Bu modeli olu� tururken, yanlı � sız

bir olasılık da� ılımı elde etme amacımıza ula� mak için gerçek da� ılımla, model arasındaki göreceli enformasyon )( mpD mümkün

oldu� unca küçük olmalıdır. Ne yazık ki, yine bu göreceli enformasyon

da gerçek da� ılımın p(.) ne oldu� u bilinmedi � i için hesaplanamaz.

Ancak, bununla ili � kili bir ba� ka nicelik daha vardır, o da çapraz

enformasyondur.

Bir olasılık de� i � kenine X, ait gerçek olasılık da� ılımı, p ve bir

ba� ka olasılık da� ılımı, q (genelde modelimizi temsil eder) arasındaki

çapraz enformasyon, Denklem 4.5.2.’de verildi � i gibi hesaplanır.

��=

�−=

+=

∀

)(

1log

)(log)(

)()(),(

xqE

xqxp

qpDXHqXH

p

x

(4.5.2)

Denklem 4.5.2.’de, do� al bir dil için düzensizli � i

tanımladı � ımız gibi, do� al bir dil L(Xi) ~ p(x) için geli � tirilmi � bir

model m üzerinden çapraz düzensizlikte, Denklem 4.5.3.’de oldu� u

gibi tanımlanabilir.

−=

∞→nx

nnn

xmxpn

mLH1

)(log)(1

lim),( 11 (4.5.3)

Denklemde, do� al dile ait gerçek olasılık da� ılımı, p(.) halen

yer almaktadır. Dolayısı ile, bu durumda da do� al dile ait çapraz

düzensizlik hesaplanamaz. Ancak, do� al dille ilgi bazı basitle� tirici


73

kabullenmeler yapacak olursak, Denklem 4.5.4.’de verilen

hesaplanabilir haline getirebiliriz.

)(log1

lim),( 1nn

xmn

mLH∞→

−= (4.5.4)

Çapraz düzensizli � in verilen bu biçiminde, sadece kendi

olu� turdu� umuz model m, ve yeterince büyük bir söz kümesi ile

hesaplama yapmamız mümkündür. Yani, gerçekte söz sayısının sınırı

sonsuza giderken hesaplama yapmak yerine, yeterince büyük olan bir

miktar söz kümesi ile hesaplama yapabilmek mümkün olmaktadır:

)(log1

),( 1nxmn

mLH ≈ (4.5.5)

Bu ölçüt, sadece ortalama � a� ırmayı vermektedir. Amaç bu

sayıyı mümkün oldu� unca küçük tutmaktır. E� er H(X) sabitse (yani

bilinmiyorsa), ölçüt göreceli düzensizli � i küçültme� e e� de� er

olmaktadır, yani modelimizdeki olasılık da� ılımının gerçek olasılık

da� ılımından farklılı � ının mümkün olan en küçük de� ere çekilmesi ile

e� olmaktadır. Bu noktadan sonra, geriye kalan tek gereksinim modeli

sınamak için kullanaca� ımız deney metninin ba� ımsız olmasıdır, yani

modelin parametrelerini tahmin etmek için kullandı � ımız talim derlemi,

deney metnin bir parçası olmamalıdır. Çapraz düzensizlik, modelin

deney metnindeki kelimelere atadı � ı ortalama olasılık ile ters

orantılıdır. Genellikle, dü� ük çapraz düzensizlik de� erlerine sahip dil

modelleri, uygulamada daha iyi sonuçlara sebep olur, ancak her zaman

böyle olması gerekmez. Örne� in, çapraz düzensizli � in dü� mesine sebep

olacak � ekilde, modelin kelimelere atadı � ı olasılıkların büyümesi fakat


74

kelimelerin göreceli olarak sıralanmasına atanan olasılıkların aynı

kalması, dil modelinin uygulamada ba� arımını arttırmaz.

Denklem 4.5.4.’den Denklem 4.5.5.’e geçi � i sa� layan sebep,

çapraz düzensizlik denklemi içinde olan beklenti fikridir:

��=

∞→ )(

1log

1lim),(

1nn xmE

nmLH (4.5.6)

Beklenti tüm olası sıralamalar üzerinden elde edilen a� ırlıklı

ortalamadır. Ancak, Denklem 4.5.6.’da sınır de� erlerde hesaplama

yapılmaktadır, yani söz konusu a� ırlıklı ortalamanın do � al dilde

olu� turulabilecek en uzun sıralamaya bakarak olu� turulması

gerekmektedir. Denklem 4.5.5.’e geçi � te kullanılan fikir, yeterince

büyük uzunlukta bir sıralamaya bakarak hesaplanacak a� ırlıklı

ortalamanın çok fazla de� i � meyece� idir. Yani, “dilde olu� turulabilecek

tüm sıralamalara bakmak gerekmez, yeterince uzun bir sıralamadan

genel a� ırlıklı ortalamanın ne oldu� u tahmin edilebilir” fikrini esas

almaktadır.

Sebeplenmenin biçimsel tanımı ise � öyle yapılabilir: E� er do � al

dilin L(Xi) ~ p(x), dura� an (stationary) ergodik bir süreç oldu� u kabul

edilirse, Kuram 4.5.1.’e (Cover and Thomas, 1991) göre Denklem

4.5.4., Denklem 4.5.5.’e e� it olur.

Kuram 4.5.1: (Shannon-McMillian-Breiman Kuramı) E� er Hrate , sonlu sayıda de� ere sahip dura� an ergodik bir sürecin (Xn) düzensizlik hızıysa,

1),,(log1

1 =�

�� →− HXXp

nP n� .


75

Ergodik süreçler, alt süreçlerinden biri içinde sonsuz döngüye

girmeyen süreçlerdir. Dura� an süreçler, sürecin bir adımından, di � er

bir adıma geçi � i için atadı � ı olasılı � ın, sürecin ayrık zaman noktaları ile

indekslenmi � akı � ı içerisinde, iki farklı zaman indeksinde de� i � iklik

göstermemesidir, yani P(wi|wi-1) = P(w2|w1), i = 1,2, ...n olmasıdır.

4.6. � stikrarsızlık (Perplexity)

Düzensizlik kuramı ile ili � kili olarak bahsedece� imiz son konu

istikrarsızlık’ tır. Bu kavram, düzensizlik ile sıkı sıkıya ba� ılıdır.

Hesaplamalı dilbilim sahasında düzensizlik yerine bu ifade için elde

edilen de� erler dil modellerinin kıyaslaması için kullanılır. Bir olasılık

silsile sürecinde Xn, her adımda tercih edilebilecek e� it olasılı � a sahip

ortalama seçenek sayısı, söz konusu sürecin istikrarsızlı� ı olarak

tanımlanır ve Denklem 4.6.1.’deki ifade ile düzensizlik üzerinden

hesaplanır.

nn

mxHn xmmxPer n

1

1),(

1 )(2),( 1−

== (4.6.1)


76


77

5. B � LG � GER � -GET � R � M S � STEMLER �

21. yüz yılın ortalarından itibaren bilimsel, sanatsal, siyasal,

ekonomik, güncel vb. i � sahalarında yapılan birikimli çalı � malar bizleri

yönetilmesi, depolanması ve geri-getirilmesi gereken külliyetli bir

potansiyel enformasyon yı � ını ile kar � ı kar � ıya bırakmı � tır. Bilgisayar

dünyasındaki geli � melere paralel olarak bu ihtiyaçlardan yönetim ve

depolama sayısal kütüphanelerde örnekleri gözlemlendi � i � ekilde

kataloglama ve indeksleme açısından kısmen de olsa çözümlere

kavu� turulmu� tur. Fakat ihtiyaçlardan biri olan geri-getirim, daha

do� rusu bir ki � inin ihtiyaç duydu� u bilgi ile ili � kili/alakalı olan

belgelerin geri getirimi ara� tırma için açık olan bir konudur. Bilgi geri-

getirim i � i bir sorgu veya konu ba� lı � ı talebine kar � ılık tanımlı bir

yapıya sahip olmayan alakalı kayıtların özellikle metin içerikli

belgelerin geri getirimi ile ilgilenen bir disiplin olarak tanımlanabilir.

Söz konusu talebin nasıl yapılaca� ına dair önceden tanımlı bir yapı

olabilir veya olmayabilir, örne� in do � al dilde yazılmı � olan bir soru

cümlesi de olabilir veya boole8 ifadesi � eklinde yapısal bir biçimde de

sorgu olu� turulabilir. Günümüzde bilgi geri-getirim dizgeleri yalnızca

yazılı metinler için kurgulanmazlar, yapısal tanımlamaya sahip

olmayan di � er verilerde kullanılabilir: Foto � raflar, ses, görüntü vb.

Ancak bu tez kapsamında Bilgi geri-getirim (BGG) yalnızca yapısal

olmayan Türkçe yazılı metinler hedef alınaca� ından tez kapsamını

belirlemek amacı ile verilebilecek en iyi tanım bilgi geri-getirim

disiplini öncülerinin, isim verecek olursak Cleverdon, Salton, Sparck

Jones ve di � erlerinin çizgisini özetleyen Lancaster’ ın (1968) tanımı

olacaktır:

8 TBD, Bili � im Terimleri Sözlü� ü


78

“ … Bir bilgi geri-getirim sistemi ki � iyi aramakta oldu� u konu hakkında bilgilendirmez (veya ki � inin aramakta oldu� u konu ile ilgili bildiklerini de� i � tirmez). Ki � iyi sadece aramakta oldu� u konu ile alakalı belgelerin var olup olmadı� ı ve nerelerde bulunabilece� i hakkında bilgilendir.”

(Lancaster, 1968)

BGG tanımının en genel halini ise Kochen (1983) � öyle

yapmı � tır:

“ Bilgi geri-getirim enformasyon bilimin bir alt disiplinidir. Enformasyon bilimi ise geni � tanımı ile enformasyon, bilgi ve anlama ile, yani yazılı metinlerde (belgeler) gömülü ve idrak eden bir zihin tarafından algılanan anlam ile u� ra� ır.”

(Kochen, 1983)

BGG sistemleri için Ingwersen (1992) tarafından verilen,

bilgisayar bilimleri içindeki u� ra� ların hedeflerini belirleyen tanım da

� öyledir:

“ � nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve sunulmasını içine alan bir süreç. Muhtemel enformasyon ancak bir ki � i tarafından anla� ılırsa, yani idrak edilirse o ki � i için enformasyon olur. Muhtemel enformasyon e� er bir ki � i tarafından anla� ılmıyorsa, yani idrak edilemiyorsa o ki � i için veri olarak kalmaya devam eder.”

(Ingwersen, 1992)

Ingwersen’ in BGG sistemleri için verdi � i tanımda “ ... e� er bir

ki � i tarafından anla� ılmıyorsa, o ki � i için veri olarak kalmaya devam

eder.” hükmünden, BGG sistemlerinin veri ile u� ra� an bir sistem

oldu� u sonucuna varılmamalıdır. BGG sistemleri ile veri geri-getirim

(VGG) sistemleri, örne� in ili � kilendirilmi � veri-tabanı uygulamaları

(relational database applications) arasında ciddi farklar vardır. VGG ve


79

BGG sistemlerinin i � levsel özellikleri kar � ıla� tırmalı olarak Çizelge

5.1.’de özetlenmi � tir.

Çizelge 5.1: Veri geri-getirim ile Bilgi geri-getirim sistemlerinin i � levsel özellikleri.

Ver i ger i-getir im Bilgi ger i-getir imE � le� tirme Tam e� le� tirme Kısmi/en iyi e� le� tirmeÇıkarsama Tümden-gelim Tüme-varımModel Belirli OlasılıklıSınıflandırma Tek-hal Çok-halSorgu Dili Yapay Do� al (dil)Sorgu Belir tme Tam EksikAranan Kalemler E � le� tirme AlakalıHataya Tepki Duyarlı Duyarsız

Aslen herhangi bir ki � i, Çizelge 5.1.’de i � levsel özellikleri verilen

iki geri-getirim � ekli arasındaki sınırların pek de net olmadı � ını

dü� ünebilir. Zaten genel anlamda da öyledir; ancak söz konusu iki geri-

getirim � ekline ait uygulamada kar � ıla� ılan güçlüklerin belirlenmesi,

sınırları e� olsa dahi u� ra� sahalarının birbirinden çok farklı oldu� unu

ortaya koyacaktır. Bu yüzden listelenen belirli i � levleri biraz detaya

inerek tanımlayaca� ız.

VGG’de e� le� tirme tamdır, yani aranan bir kalemin belirli bir

sayısal dosyada var olup olmadı � ına bakılır. BGG’de bazı durumlarda

aynı � ey söz konusu olabilir, fakat genelde aranan kalemle kısmi olarak

e� le� enler belirlenir ve ardından bunların arasından en iyileri seçilmeye

çalı � ılır.

Çıkarsama veri geri-getirimde en basit halindedir, yani A ile B

ili � kili ve B ile C de ili � kili ise A ve C ili � kilidir sonucuna varılır.

BGG’de bu � ekilde bir tümdengelim yakla� ımının kullanımı genel


80

içinde çok nadir bir durum bile de� ildir; BGG içinde ili � kiler ancak bir

derecede kesinlik veya belirsizlik içerir, dolayısı ile yapılan

çıkarsamaların güvenilirli � i de� i � kendir. Söz konusu durum, VGG’ in

belirli (deterministic), BGG’ in ihtimalli (probabilistic) olmasına sebep

olur. Bu yüzden BGG’de sıklıkla Bayes9 karar kuramına ba� vurulur,

fakat VGG’deki i � lemlerin içinde ihtimal (olasılık) yoktur.

Sınıflandırma da, iki geri-getirim � ekli arasındaki farklılı � ı ortaya

koyan bir ba� ka niteliksel örnektir. VGG’de sınıflandırma tek-hal’dir,

yani bir sınıfa, i � lemdeki bir nesnenin dahil olabilmesi için gerek ve

yeter � art nesnenin süreç içinde tanımlanmı � özellikleridir ve bu

özellikler süreç içinde de� i � mez. Fakat BGG’de, bu tür bir

sınıflandırma genel anlamda pek kullanı � lı de� i ldir. BGG için çok-

hal’ li bir sınıflandırma daha do� rudur. Bir ba� ka söyleyi � le, bir sınıf

içindeki her nesne, söz konusu sınıfın di � er nesnelerinde bulunan

özelliklerin bütünü ile olu� an toplam özelliklerinden bir kısmını ta� ır. Dolayısı ile, bir sınıfa dahil olmak için, nesnelerin hiçbir özelli � i ne

gerekli, ne de yeterlidir.

Sorgu dili VGG’de yapaydır, yani kısıtlanmı � bir söz-dizim kural

kümesine ve kelime da� arcı � ına sahiptir (örne� in SQL, yani yapısal

ili � kili veri tabanı sorgu dili). Ancak BGG’de, belirtilmesi gereken

istisnalar olması bir yana, genelde do� al dil tercih edilmektedir.

VGG’de sorgular genellikle isteneni tam belirtir özelliktedir; BGG’de

ise her zaman eksiktir. Bu bahsetti � imiz eksik olma durumu, BGG

sorgularında belirtilen istek kalemi ile alakalı nesnelerin (örne� in

belgelerin), VGG’de ise tam e� le� enlerin aranmasından

9 Thomas Bayes (1702-1761) Bayes kuramına ismini veren � ngiliz matematikçi. Bayes tarafından ortaya konan olasılı � a dayalı sebeplenme prensibi karar kuramının temelini olu� turmu� tur.


81

kaynaklanmaktadır. Bir ba� ka söyleyi � le, BGG’de arama süreci “ sorgu

ile alakalı olma” ihtimalini ta� ıyan belgelerin bulunması � eklinde

tanımlanabilir. VGG’de yapılan bir aramada, hata olması durumunda

istenenleri getirmez, yani bir “ toplam hata” söz konusudur. Ancak

BGG’de, e� le� tirmede meydana gelen küçük hatalar, sistemin toplam

ba� arımına o kadar önemli etkilerde bulunmaz.

VGG ve BGG arasındaki farklılık, aslında uygulama

sahalarında da net bir � ekilde de gözükmektedir. � ekil 5.1.’de Veri’den

Bilgi Ke� fi/Madencili � i (VBK – Knowledge Discovery from Data,

KDD) ve belge uzayından Belge/Metin Madencili � i (BM –

Document/Text Mining, DM) u� ra� sahaları için, yapısal kurgular alt

süreçleri esasında e� le� tirmeli olarak gösterilmi � tir. Son ürünlerin,

VBK’da bilgi, BM’de enformasyon olmasının sebebi, VBK’da verinin

yapısal, BM’de ise do� al dil olmasıdır. VBK sahasında son süreç olan

de� erlendirme ile ( � ekilde “4” ile gösterilmekte) veri’ den bilgi elde

etmektir. BM sahasında ise, kar � ılık olan yorumlama süreci ile

enformasyon elde edilmektedir.

Bu tezin ara� tırma konusu olan BGG sistemleri, belge

madencili � i u� ra� sahasının ilk, yani giri � seviyesini olu� turan alt

süreçtir. Bu yüzden, BGG sistemlerinin ba� arımı, BM sahasının hedefi

olan “enformasyon’un ortaya çıkartılması” i � inin ba� arımında, en

belirleyici etmendir. Yani, belge uzayından alakalı belgelerin yüksek

bir ba� arı ile elde edilmesi, di � er süreçlerin ba� arımlarını, dolayısı ile

toplam sistem ba� arımını do � rudan etkiler.


82

Veri

Veri

Veri

Veri

Veri’den Bilgi Ke � fi/Madencili � i (VBK)

De � erlendirme

Veri Madencili � i

Dönü � türüm

Seçim&

Ön-i � lem

Ön-i � lemdengeçmi � veri

Dönü � türülmü � Veri

Desenler

Belge/Metin Madencili � i (BM)

BelgeVeritabanı

AlakalıBelgeler

Dönü � türülmü �Belgeler

EnformasyonMadencili � i

1

2

3

EnformasyonÇıkarımı

BilgiGeri-Getirim

BelgeUzayı

Desenler

Bilgi

Yorumlama

4

Enformasyon

�ekil 5.1: Bilgi Ke� fi/Madencili � i ve Belge/Metin Madencili � i u� ra� larına ait yapısal

kurguların kar � ıla� tırması. “Veri’den Bilgi Ke� fi” ve “Belge Madencili � i” sahalarındaki alt süreçler, yapısal ve içerik benze� imleri nispetinde kar � ılıklı e� le� tirilmi � tir.

5.1. Genel Sistem Yapılanması

BGG sistemlerinin kullanım sahasında, sistem dı � ı etmenlerle

etkile� imleri en genel hali ile � ekil 5.1.1.’de çizge olarak tasvir

edilmi � tir. Herhangi bir BGG sisteminin etkile� imde oldu u dı � etmenlerden iki girdi unsurudur: sorgu ve belge uzayı. Sistem sorgu ile

uzaydaki belgeler arasında bir alaka/ili ki kurarak, en yüksek alaka

de erine sahip olan belgelere ait kılavuzları çıktı olarak verir (alakalı

belge adresleri). Verilen çıktı’ nın, talebi kar � ılama ba� arımı, her zaman


83

geçerli olmasa da talepte bulunan kullanıcı nezdinde sorgu inceltme

(query refinement) amacı ile geri-besleme olarak sisteme girdi

yapılabilir.

BGGSistemi

Çıktı

Geri-Besleme

Sorgu

BelgeUzayı

�

ekil 5.1.1: Bilgi geri-getirim sistemlerinin genel kurgusu.

Tüm BGG sistemlerinin hedefinde “ kullanıcının enformasyon

ihtiyacını kar � ılamak amacı ile alakalı belgelerin etkin � ekilde geri-

getirimi” vardır. Sistem içinde söz konusu etkin geri-getirim ise,

birbirinden ba� ımsız üç sürecin ortaklı � ı ile gerçeklenir:

1. Kullanıcı hizmetleri,

2. Belgelerin ve sorguların sayısal temsil � ekli ve

3. Geri-getirim yöntemi.

BGG sistemleri, kullanıcı için iki temel hizmeti sa� larlar.

Bunlardan birincisi, kullanıcının bilgi ihtiyacını kar � ılamak üzere geri-


84

getirim hizmeti; ikincisi de geri-getirim sistemi ile elde edilmi � alakalı

belgelerin kullanıcı tarafından incelenmesini sa� layacak ara-yüz, daha

do� rusu sonuçlara göz-atma (browsing) i � lemi için gerekli ortamın

sa� lanmasıdır. Kullanıcı bakı � ı açısından, bir BGG sistemi tarafından

verilen hizmetler ve birbirleri ile ili � kileri çizge olarak � ekil 5.1.2.’de

verilmi � tir.

Geri-Getirim

Göz-atma

BelgeUzayı

Kullanıcı

Sorgu

Çıktı

GeriBesleme

�ekil 5.1.2: Kullanıcı bakı � açısından, BGG sistem hizmetleri.

Bu tez kapsamına, BGG sistemlerinin kullanıcı bakı � açısından

sadece geri-getirim hizmeti girmektedir; göz-atma (Browsing) hizmeti

kapsam dı � ındadır.

5.2. Genel �� leyi � Kurgusu ( � ç Yapılanma)

BGG sistemlerinde kullanıcının enformasyon ihtiyacını belirten

sorgu ile belge uzayındaki alakalı belgelerin e� le� tirilerek, sistemin

genel çıktısının olu� masını sa layan iç yapılanma örne i ekil 5.2.1.’de

betimlenmi � tir.


85

Geri-Getirim Sistemi

Belge Uzayı

Sayısal TemsilYordamı

E � le � tirme

Belge Kelime/Cümle

�ndeks

Terimler

�ndeks

Terimler

SayısalTemsil(Belge)

SayısalTemsil(Sorgu)

Çıktı(Alakalı Belgeler)

Sorgu

Alakalı

�

ekil 5.2.1: Bilgi geri-getirim sistemlerinin iç yapılanma örne� i.

BGG sistemlerinin, genel i � leyi � kurgusu içerisinde, yani iç

yapılanmasında iki temel süreç bulunmaktadır: sayısal temsil yordamı

ve e� le� tirme yöntemi. Sayısal temsil yordamı, sistem girdisi olan

metinlerin ve sorgunun, hesaplanabilir yapılara dönü� türülmesinden

sorumlu olan yordamdır. Aslen e� le� tirme sürecinde kullanılan, metin

ve sorgunun hesaplanabilir yapıları, kullanılan geri-getirim yönteminin

nitelikleri do � rultusunda bir takım i � lemlerle elde edilmektedir (örne� in

vektör uzayı modeli geri-getirim yöntemi ise, metinler ve sorgu

vektörler halinde temsil edilir). Ancak, buradaki anlamı ile, metinlerin

ve sorgunun, bir dizi ön süreçten geçirilerek, tüm geri-getirim

yöntemlerinin matematiksel alt yapılarında ortak hesaplama birimi

olarak kullanılan haline, yani ortak bir sayısal temsile dönü� türmektir

(indeks terimler). E� le� tirme, yani sorgu ile ifade edilen ve aranan


86

enformasyonun, belgeler içinde bulunması ise, geri-getirim yönteminin

esas aldı � ı matematiksel alt yapı ile belirlidir. Örne� in, vektör uzayını

esas alan bir geri-getirim yönteminde, belgelerin ve sorgunun sayısal

temsilleri üzerinden vektörleri olu� turulur ve iki vektör arasındaki

açısal uzaklık “ alaka” için bir ölçüt olarak kullanılır. Açısal uzaklı � ı en

az olan belge, sorgu ile en alakalı olarak kabul edilir.

5.3. Sayısal Belge Temsili

BGG sistemlerinde yaygın � ekilde kullanılan sayısal temsil

yordamı ve onu olu� turan alt süreçler � ekil 5.3.1.’de çizge olarak

gösterilmi � tir. Sayısal temsil yordamını olu� turan alt süreçler, “ do� al

dilde yazılı bir belgeden” ba� layan ve nihayetinde “ indeks terimler

� eklinde temsil” ile son bulan bir dönü� türme zincirinde art arda

uygulanırlar.

Bir belgenin en asgari düzeyde temsili, tam metin � eklinde

olabilmektedir; yani belgeden noktalama i � aretleri, bo� luklar vb.

anlamsal-enformasyon açısından önemsiz simgeler arındırıldıktan sonra

geriye kalan kelimeler, isimler, yerler, sayılar v.b. simgelerin listesidir

( � ekil 5.3.1.’de 0 –sıfır- numara ile etiketlenmi � tir). Bu i � lem metin

normalle � tirme (text normalization) yada simgele � tirme (tokenization)

olarak adlandırılır. Tam metin sayısal belge temsili, yordamın çıktısı

olarak elde edilebilecek temsillerin en ilkel � eklidir.


87

� � � � � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � � � � �

Noktalama,bo �luk vb.

YapısalAlgılama

Durma-kelimeleri

KelimeGurupları Gövdeleme

Elle/Otomatik

�

ndeksleme

Metin

Metin+Yapı

Belge

Belge Temsilinin Çe �itli Halleri

Tam Metin

�

ndeksTerimler

0

1 2 3 4

�

ekil 5.3.1: Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal belge temsil yordamı.

�

ekilde kesikli oklar seçimlik; kesiksiz oklarsa zaruri alt süreç i �lemlerine, yordam akı �ını yönlendirmektedir. Seçimlik i �lemler 1, 2, 3 ve 4. i �lemlerdir. “0.” i �lem, yani Noktalama, bo �luk vb. ile etiketli olan genel geçerdir.


88

Aslen, simgele � tirme veya metin normalle � tirme belge ve sorgu

temsili olu� turma süreçlerinde kullanılacak simgelerin, yani silsiledeki

di � er süreçler için temel hesaplama birliklerinin tespit edildi � i adımdır.

Di � er adımların tamamında bu adımda olu� turulan simgeler bir

hesaplama birimi olarak ele alınır. En basit hali ile simgele� tirme

kelimelerin ve kelime aralarında kullanılan di � er yazım sembollerinin

belirlenmesi olarak tanımlanabilir. � ekil 5.3.2.-(a)’da örnek bir yazılı

yalın Türkçe metin ve (b)’de de bu metnin normalle� tiri lmi � hali

gösterilmi � tir. Örnek metnin içinde aynı zamanda biçimlendirme de

iptal edilmi � tir (Büyük/küçük harf, kalın, yatık vb. yazım biçimleri).

(a)

(b)

(c)

(d)

�ekil 5.3.2: Sayısal belge temsili olu � turulması adımlarına örnekler. (a) metnin aslı;

(b) metnin simgele� tirilmi � /normalle� tirilmi � hali; (c) durma kelimelerinden arındırılmı � hali; (d) metnin biçimbirim (morphologic) normal veya gövdelenmi � halidir.

Durma kelimeleri (stop words) metin içeri � inde ta� ınan

enformasyon ile çok alakalı olmayan kelimelerdir. Bu kelimeler,

dervi � 'e ekonomi bakanlı ı yetmez sakın yanlı � anlamayın ba� lıktaki tespit bize ait de il devlet bakanı kemal dervi � 'in çok eski ve yakın dostu bülent eczacıba� ı böyle dü� ünüyor

Dervi � 'e Ekonomi Bakanlı ı yetmez! Sakın yanlı � anlamayın ba� lıktaki tespit bize ait de il. Devlet Bakanı Kemal Dervi � 'in çok eski ve yakın dostu Bülent Eczacıba� ı böyle dü� ünüyor:

dervi � 'e ekonomi bakanlı ı yetmez sakın yanlı � anlamayın ba� lıktaki tespit devlet bakanı kemal dervi � 'in eski dostu bülent eczacıba� ı dü� ünüyor

dervi � ekonomi bakan yetmez sakın yanlı � anla ba� lık tespit devlet bakan kemal dervi � eski dost bülent eczacıba� ı dü�


89

metinin içinden ayıklanırlar. Ta� ınan enformasyon ile alakalı olmama,

yani kelimelerin metin içinde ya gramer yada i � levsel olarak (örne� in

zamirler) kullanılması anlamına gelir. Do � al dilde bu kelimelerin sayısı

200-300 kelimeyi a� maz, ancak toplam kelime sıklı � ının yarısından

fazlasını olu� turabilir. Bu tip, gramer veya dilbilgisi yazım kuralları

gibi i � levleri olan kelimelerin metinden ayıklanması geleneksel

yöntemler içinde yaygın � ekilde görülen bir durumdur. � ekil 5.3.2.-

(c)’de normalle� tirilmi � metinden, bu kelimelerin ayıklanması ile elde

edilen örnek metin gösterilmektedir.

Biçimbirimsel normalle� tirme, yani gövdeleme, yapılan sorguyu

olu� turan kelimelerin farklı biçimlerini de içeren belgelerin, geri-

getiriminin sa� lanması için kullanılır. Ancak sondan eklemeli, çekimli

diller, örne� in Türkçe için bu amacın yanında ba� ka bir amaca daha

hizmet eder: indeks terim listesinin yönetilebilir boyutlarda tutulması.

� ekil 5.3.2.-(d)’de örnek metnin, gövdelenmi � hali gösterilmi � tir.

Analitik diller, yani bir kelimenin biçimbirimsel � ekilleri kısıtlı

olan dillerde, BGG sistemleri için biçimbirimsel normalle� tirme

nispeten basit yöntemlerle yapılabilmektedir. Örnek olarak, “Porter’s

Stemmer” otomatik gövdeleme yordamı, � ngilizce’deki tüm kelimelerin

yazımda kullanılan farklı biçimsel hallerini, sadece 120 kurala dayalı

olarak, gövdelerine indirgeyebilmektedir (Porter, 1980). Bu tür

yordamlarda, aslen dilbilimsel olarak gerçek köklere inildi � i

söylenemez. Dilbilimsel olarak gerçek kökün bulunması için kullanılan

yöntemse, sözlükten bakmadır. Daha do� rusu, tüm kelime köklerinin

bir liste halinde tutulması ve bu köklerden gövde türetme kuralları ile

kar � ıla� ılan kelimenin türetilerek bulunmasıdır. Ancak bu tür

yordamlarında gerçek kökün ne oldu� una dair belirsizli � e dü� tü� ü

durumlara sıkça rastlanmaktadır. Örne� in, � ngilizce “ saw” kelimesi,


90

“see” , yani görmek fiilinin düzensiz ikinci hali midir? Yoksa “saw” ,

yani testere anlamında kullanılan bir isim midir? Böyle bir yordamla

ayırt edilemez. Belirsizli � in giderilebilmesi için, kelimenin kullanıldı � ı

yerdeki sözcük türünün (part-of-speech) iki ihtimalinden, yani isim ve

fii l halinden, hangisinin oldu� unun belirlemesi gerekir. Sözcük

türlerinin bulunması meselesi ise bu i � için geli � tirilmi � bir ba� ka

yöntemle bulunabilmektedir (Brill, 1995; Church, 1988; DeRose,

1988). Gövdeleme ile belgelerin ortak bir dilbilimsel biçime

indirgenmesi gibi dilbilim sahasının u� ra� alanında olan bir yöntem

yerine, kullanıcının sorgusundaki kelimelerin olası tüm biçimlere

ço� altılması da, � ngilizce gibi analitik diller için kullanılan bir di � er

alternatiftir (Hiemstra and de Jong, 2001).

Analitik diller için yukarıda anlatılan yöntemler etkin bir � ekilde

kullanılabilmektedir, ancak Türkçe gibi, sadece bir fii lden

olu� turulabilecek, yazım � ekli de� i � ik biçimlerin sayısı, milyon

seviyelerine çıkabilen diller için söz konusu yöntemler etkinli � ini

yitirmektedir (Jurafsky and Martin, 2000). Örnek olarak Çizelge

5.3.1.’de 1 milyon ve 10 milyon kelimelik iki derlemin sözcük

da� arcıklarının sayıları verilmi � tir (Hakkani-Tür, Oflazer and Tür,

2002).

Çizelge 5.3.1: Bir milyon ve on milyon kelimelik Türkçe derlemlerin kelime da� arcıkları (Hakkani-Tür et. al., 2002).

Derlem boyutu Kelime da� arcı� ı

1M kelime 106,547

10M kelime 417,775

Kelime da� arcı � ındaki bu biçimsel de� i � ikli � in zenginli � inden

kaynaklı büyüklük, sondan eklemeli, ekli diller için farklı yöntemlerin


91

geli � tirilmesi zorunlulu� unu do� urmu� tur. En uzun e� le� me, Kut ve

arkada� ları (1995) tarafından Türkçe için gerçekle� tirilen ilk gövdeleme

yöntemidir. Yöntemde, bir sözlük içine dahil edilmi � kelimeler ve olası

türetilmi � gövdeleri bulunmaktadır. � ndeks terimleri olu� turulacak

belgedeki kelimeler, bu sözlükten aranmakta ve en uzun e� le� en kelime

gövdesi seçilmektedir. Türkçe için geli � tirilmi � bir di � er yordamda

Solak ve arkada� ları (1994) tarafından gövdeleme i � leminin geri-

getirim ba� arımı üzerindeki etkilerinin ara� tırılması esnasında ortaya

konmu� tur. A-F yordamı olarak adlandırdıkları bu çalı � mada, bir

sözlükte güncel Türkçe kelimelerin gövdelerini ve her gövdenin yapım

ve çekim eklerini alı � esaslarını belirten 64 özellik tutulmu � tur.

Belgelerde rastlanan kelimelerin, bu verilerin ı � ı � ı altında

de� erlendirilerek, olası tüm gövdeleri üretilmektedir. Sever ve

arkada� larının ortaya koydu� u gövde-bul (FINDSTEM) gövdeleme

yordamı, BGG sistemlerinin etkinli � ini esas alan ve sözünü etti � imiz

iki yöntemle de deneysel olarak kar � ıla� tırılan bir çalı � madır (Sever ve

Bitirim, 2003). Söz konusu gövdeleme yordamı, yazım � ekilleri farklı

olan kelime biçimlerini, dilbilimsel gövdelerine indirgemektedir.

Yöntemde, kelime gövdeleri ile kelime kökleri birbirlerinde özellikle

ayrı tutulmaktadır ve kelimelerin kökleri de� il gövdeleri tespit

edilmektedir. Çalı � mada, di � er kar � ıla� tırılan iki yöntemin hataları

içinde gövde yerine, kelimenin kökünü seçmeleri gösterilmi � tir. Sever

ve Bitirim’ in çalı � masında, örne� in “gözlü� üm” ve “gözlüklüyü”

kelimeleri “ göz” köküne de� il “ gözlük” gövdesine indirgenmektedir.

Di � er yöntemlerden, gövde olarak “göz” seçiminin ortaya çıktı � ı

durumlar oldu� u tespit edilmi � tir. Kelimenin gerçek gövdesinin

bulunması, dilbilimsel açıdan, yani anlamsal olarak Türkçe için önemli

bir husustur, çünkü kelime gövdeleri, kök kelimeye yapım eki

getirilmesi ile meydana getirilir ve ço� unlukla kökten farklı anlamlar

ta� ırlar. Türkçe için, kelime gövdesine indirgemeyi esas almayan, daha


92

do� rusu gövdeleme gibi bir meselenin, kullanılan geri-getirim kurgusu

içinde var olmadı � ı bir di � er yöntem de, Ekmekçio� lu’ nun (1996) n-

gram modeli ile yaptı � ı çalı � mada ortaya çıkmaktadır. Bu çalı � mada,

geri-getirim kelimeler veya gövdeler esasında uygulanmamaktadır.

Tüm belgelerdeki metinler ve sorguyu olu� turan kelimeler, harf

esasında n-gram birlikleri esas alınarak e� le� tirme yapılmaktadır.

Dolayısı ile, bu bakı � açısı içerisinde ne kelime, ne de gövdesi mesele

olarak ortaya çıkmaktadır. Ancak Türkçe’nin yine dilbilimsel

özellikleri sebebiyle, sayısal belge temsilinin n-gram örne� inde seyrek

veri (sparse data) sorunu, analitik dillere kıyasla daha ciddi boyutlarda

mesele yaratmaktadır.

Gerçek bir dilbilimsel gövdeleme yapılabilmesi için, tam bir

biçimbirimsel ve söz-dizimsel analizin yapılmasına gerek vardır.

Türkçe için geli � tirilmi � ve halen kullanılan tek biçimbirimsel analiz

yordamı, Oflazer (1993) tarafından gerçekle� tirmi � olandır. Söz konusu

yordam, tam bir dilbilimsel biçimbirim analizi yapmaktadır ve Türkçe

kelimelerin olası tüm kök ve gövdelerini bulabilmektedir. Oflazer, bu

biçimbirimsel analiz yöntemi için yordam geli � tirirken, Türkçe’nin

biçimbirim kural kümelerini, Koskenniemi (1983) tarafından ortaya

konulan iki-seviyeli dil tanımlamasını esas alarak yapmı � tır. Fakat, iki-

seviyeli dil modellemesi, teorik olarak girdinin büyüklü� ü ile do� rusal

bir hesap zamanına sahip de� ildir, daha do� rusu hesaplanabilme

açısından NP-Complete bir mesele oldu� u Barton (1986) tarafından

ispatlanmı � tır. Bu yüzden geri-getirim uygulamalarında kullanımı,

Sever’ in de (2003) çalı � masında belirtti � i gibi, uygun de� ildir.

Kelime guruplarının tespiti, BGG sistemlerinde sayısal belge

temsilinde kullanılan yöntemlerden bir di � eridir. Yazılı metinlerde

kelime guruplarının tespiti üç yolla yapılmaktadır: 1-) Elle önceden


93

sisteme tanıtılması (Robertson and Walker, 2000). 2-) � statistiksel

olarak kelimelerin birlikte gözlenme sıklı � ına göre olu� turulması (Mitra

et al., 1997) ve 3-) Söz-dizimsel cümle çözümlemesi ile belirleme

(Strzalkowski, 1995). � statistiksel yöntemler, durma kelimeleri

haricinde yan yana belirlenmi � bir e� ik de� erden daha fazla belgede

gözlemlenen birliklerin kelime gurubu olarak alınması gibi basit bir

mantı � a dayanmaktadır. Söz-dizimsel cümle çözümlemesinde ise,

� ngilizce için “ Information Retrieval” (Bilgi geri-getirim) ile “Retrieval

of Information” (Bilginin geri-getirimi) gibi aslen anlamları aynı fakat

dizilimleri farklı tümceler tespit edilerek tek bir sıralamaya konurlar.

Türkçe cümlelerin sözdizimsel çözümlemesi için de pek çok çalı � ma,

hesaplamalı dilbilim uygulamalarında kullanılmak üzere

gerçekle� tirilmi � tir (Demir, 1993; Güngördü, 1993; Oflazer and

Kuruöz, 1994; Hakkani, 1996; Korkmaz, 1996; Birtürk 1998).

E� anlamlı kelimelerin bulunması da, sayısal belge temsili

olu� turulmasında ba� vurulan bir yöntemdir. Ancak, özellikle sorguların

i � lenmesinde daha yaygın kullanılmaktadır. Kullanıcının bilgi ihtiyacını

kar � ılamak üzere, do� al dilde biçimlendirdi � i sorguyu olu� turan

kelimelerin, e� anlamlıları da geri-getirim sürecine dahil edilerek,

alakalı belgeler kümesinin geni � letilmesine (anma iyile� tirme) yönelik

bir yöntemdir. Belge temsili içinde kullanımı ise gövdeleme benzeri bir

i � levselli � e sahiptir. Farklı � ekillere sahip, fakat aynı anlama gelen

kelime biçimleri, bu sayede tek bir indeks terimle temsil edilirler. Bu

yönde Türkçe için, Orgun (1985) ve Sezer (1999) tarafından yapılan

çalı � malar örnek verilebilir.

Hesaplamalı dilbilim sahasına ait u� ra� lar olan gövdeleme, kelime

guruplarını belirlenmesi ve sözcük türlerinin tespiti, aslen BGG

sistemlerinde kullanımı, geri-getirim ba� arımına olan katkı açısından


94

tartı � malı bir durum yaratmaktadır. Yukarıda tanımlanan sayısal belge

temsil yordamı, geleneksel BGG sistemlerinin yaygın olarak

benimsedikleri alt süreçleri içermektedir. Görüldü� ü gibi, sözcük türü

tespiti bu yordamın alt süreçleri içinde en azından seçimlik olarak dahi

gözükmemektedir.

Gövdeleme yapmanın, analitik diller için, BGG sistemlerinin

geri-getirim ba� arımı üzerinde etkisinin olmadı � ına dair genel bir görü�

hakimdir. Bu yönde menfi sonuçlu ara� tırmalar (Harman, 1991; Kraaij

and Pohlmann, 1996) oldu� u gibi, müspet sonuçların alındı � ı

çalı � malar da mevcuttur: � ngilizce için Krovetz (1993), Hull (1996);

� talyanca için Sheridan ve Balerini (1996); Slovence için Popovic ve

Willet (1992). Ancak, çalı � maların geneli üzerinden olu� an kanı,

gövdeleme yapmanın anlamlı olmadı � ı yönündedir. Analitik dillerde

olu� an bu kanının aksine, Türkçe için yapılan çalı � maların tümünde,

geri-getirim ba� arımının arttı � ı tutarlı bir � ekilde belirtilmi � tir (Solak,

1994; Ekmekçio� lu, 1996; Sever, 2003).

Kelime guruplarının tespiti de, analitik dillerde yapılan

çalı � maların sonucunda, gövdeleme ile aynı akıbeti payla� mı � tır. Croft

ve arkada� ları (1991), Lewis (1992), Kupiec (1993), Jacqemin ve

Royaute (1994), Riloff (1995) ve Lewis ve arkada� ları (1996)

hesaplamalı dilbilim ve istatistiksel yöntemler kullanımı ile geri-getirim

ba� arımının arttı � ını belirtirken, Mitra (1997) � ngilizce için, Kraaij and

Pohlmann (1996) Almanca için kelime guruplarının belirlenerek ve

belirlenmeden yapılmı � olan geri-getirim uygulamalarının ba� arımları

arasında kayda de� er bir fark olmadı � ını belirtmi � lerdir. Ancak,

bilgimiz dahilinde kelime guruplarını belirlemenin Türkçe yazılı

metinlerde bilgi geri-getirim ba� arımına etkisinin olup olmadı � ına dair

bir ara� tırma yapılmamı � tır.


95

Tez hedefimiz içinde bulunan di � er dilbilgisi özelli � inin, yani

cümle unsurlarının sayısal belge temsilinde kullanılması ve Türkçe için

bir BGG sisteminin geri-getirim ba� arımı üzerindeki etkileri de, yine

bilgimiz dahilinde � imdiye kadar yapılmamı � bir çalı � madır.


96


97

6. GER � -GET � R � M MODELLER �

Bilgi geri-getirim sistemleri, kullanıcı tarafından kendi

enformasyon ihtiyacını kar � ılamak üzere, sisteme yönlendirdi � i sorgu

ile belgeler arasında anlamsal açıdan bir alaka kurmaya çalı � ırlar. Bu

anlamsal alakayı kurma i � i, BGG sistemlerinin en önemli görevidir.

BGG sistemlerinde, belgelerin anlamsal olarak modellenmesi, bir birini

tamamlayan iki süreç ile gerçeklenir. Söz konusu süreçler, birbirinden

ba� ımsızdır. Ancak birinin çıktısı, di � erinin girdisi olma esasında

belgelerin sayısal temsilini birlikte tamamlarlar. Önce, sayısal temsil

yordamı ile belge toplulu� u için indeks terimler olu� turulur, sonrasında,

belirlenen indeks terimler için, kullanılan “geri-getirim modelinin”

gerektirdi � i � ekilde indeks terimlerin her birine, her belge için bir

a� ırlık hesaplanır. Her indeks terime, her belge için atanan bu

a� ırlıklar, söz konusu indeks terimin belgede ta� ınan “ içeri � e”

yaptıkları katkının öneminin bir ölçüsüdür ve ne � ekilde hesaplanaca� ı

geri-getirim modeli tarafından belirlenir. Böylece, bir BGG sistem

uygulaması için gerekli olan sayısal belge temsili de tamamlanmı � olur.

Geri-getirim modelleri, bir de BGG sistemlerinin iç yapılanmasında

bulunan “e� le� tirme” yöntemi için bir yordam tarif ederler. Bu

“e� le� tirme” yordamı, indeks terimlere atanan a� ırlıkların hesaplama

yordamı ile aynı ölçekte ve kurgusal olarak geri-getirim modelinin esas

aldı � ı kuramsal alt yapının do � al bir parçası olmak zorundadır.

Dolayısı ile, bir geri-getirim modeli, BGG sisteminin iki i � levsel

yapısının olu� turulması için, yani belgelerin anlamsal olarak

modellenmesi ve “e� le� tirme” için, bir kuramsal alt yapı tarifidir.

Geri-getirim modelleri, esas aldıkları kuramlar açısından

birbirlerinden ayrılırlar. Dolayısı ile, belgelerin anlamsal olarak


98

modellenmesi ve e� le� tirme için farklı yöntemler kullanırlar. Yaygın

olarak, BGG sistemlerinde kullanılan geri-getirim modellerinin

sınıflandırması � ekil 6.1.’de çizge � eklinde verilmi � tir. � ekilde

sınıflandırma BGG sistemlerinin “genel yapılanması” esas alınarak

verilmi � tir. Dolayısı ile, verdikleri kullanıcı hizmetleri, kök olmak

üzere, alt dallanmalar biçiminde guruplara ayrılmı � , dallanmanın a� a� ı

kısımlarında ise, esas aldıkları matematiksel kuramlara göre

sınıflandırılmı � lardır.

Kullanıcı Hizmeti

Geri-GetirimAdhocFitering

Klasik Modeller

- � kil Sayılar-Vektör-Olasılık

Yapısal Modeller

Non-Overlapping ListsProximal Nodes

Küme Kuramsal

FuzzyExtended Boolean

Cebirsel

Generalized VectorLatent Semantic IndexNeural Networks

Olasılık Kuramsal

Inference NetworkBelief Network

Göz-atmaFlatStructure GuidedHypertext

�ekil 6.1: Bilgi geri-getirim modellerinin sınıflandırılması. (Baeza-Yates and Ribeiro-

Neto, 1999, uyarlama).

� ekilde, öncelikle bir BGG sistemi, genel yapılanması esasında,

yani kullanıcıya verdikleri hizmetler açısından iki alt kola ayrılmı � tır:


99

göz-atma (browsing) ve geri-getirim. Tez kapsamımızda, kullanıcı

hizmeti olarak geri-getir im ele almaktadır. Dolayısı ile, bu bölümde

sadece bu alt dalın detayları incelenmektedir.

Bir BGG sistemi, kullanıcıya sa� layaca� ı geri-getirim hizmetini

Adhoc (anlık “sorgu” ) ve Filtering (süzme, yani sabit “sorgu” ) olmak

üzere iki � ekilde gerçekle� tirebilir. Adhoc � eklinde BGG sisteminin

hedefindeki belge toplulu� u sabit, kullanıcının sisteme yöneltti � i

sorgu(lar) de� i � ken’ dir; Filtering � eklinde BGG sisteminin hedefindeki

belge toplulu� u de� i � ken (toplulu� a yeni belgeler eklenir ve bazı

belgeler çıkar), kullanıcının sisteme yöneltti � i sorgu(lar) nispeten

sabit’ dir. Tez kapsamımız içerisinde ele aldı � ımız BGG sistemleri,

kullanıcıya Adhoc � eklinde hizmet verenlerdir.

Geri-getirim hizmet � ekillerinin her ikisinde de, aynı modeller

kullanılabilir. Söz konusu modellerse, belge temsil esasında klasik

modeller ve yapısal modeller ba� lıkları altında iki guruba ayrılır. Klasik

modellerde, belge içeri � inden sadece “ indeks terimler” ile sayısal

temsil olu� turulur; yapısal modellerde ise, sayısal temsilde belge

içeri � i, “ indeks terimler” ve belgenin yapısal özellikleri ile olu� turulur.

Klasik modeller, kuramsal temelde kendi içinde de üç gruba

ayrılır: ikil sayılar (boolean), vektör uzayı (vector space) ve olasılık

(probability). � kil sayılar esasında, yani küme kuramsal ba� lı � ı altında

toplanan modellerde, belgeler ve sorgular “ indeks terim kümeleri”

� eklinde betimlenirler. Vektör uzayı esasında, yani cebirsel ba� lı � ı

altında toplanan modellerde, belgeler ve sorgular “ t-boyutlu uzayda

vektör” � eklinde betimlenirler. Olasılık esasında, yani olasılık kuramsal

ba� lı � ı altında toplanan modellerde, belgeler ve sorgular “olasılık

kuramı” gereklerine göre betimlenirler.


100

Yapısal modeller de, kendi içinde belge yapısını temsil

noktasında ikiye ayrılırlar: Non-overlapping Lists (örtü� meyen

bölümler listesi) ve Proximal Nodes (yakınsaklık dü� ümleri, yani

bölümlerin birbirleri arasındaki mesafeler). Tez kapsamımız içerisinde

ele aldı � ımız BGG sistemleri, klasik modeller gurubunda yer alan geri-

getirim modellerini esas almaktadır. Dolayısı ile, yapısal modeller ve

gerektirdi � i sayısal belge temsil � ekli tez kapsamının dı � ındadır ve bu

bölümde tanıtımları yapılmayacaktır.

Çizelge 6.1’de geri-getirim hizmeti ve sayısal belge temsil � ekli

eksenlerinde, BGG sistemlerinde hangi yöntemlerin kullanılabilir

oldu� u listelenmi � tir.

Çizelge 6.1: Bilgi geri-getirim modellerinin geri-getirim hizmeti ve sayısal belge temsil � ekli eksenlerinde sınıflandırılması.

Tam Metin � ndeks Ter imler Tam Metin+Yapı

Küme Kuramsal Küme Kuramsal

Cebirsel CebirselOlasılık Kuramsal Olasılık Kuramsal

Sayısal Belge Temsil � ekli

Ger i-getir im Yapısal

Tez kapsamımız içerisinde yaptı � ımız çalı � malar genel anlamda,

vektör uzayı modelini esas almaktadır. BGG sistemlerinin ba� arım

ölçümünü yaptı � ımız üstel-puanlama ölçütü de vektör uzayına kar � ı bir

seçenek olan gizli anlam indeksleme modelini (latent semantic

indexing) kurgusal olarak esas almaktadır. Dolayısı ile, bu bölümde söz

konusu iki model, yani vektör uzayı ve gizli anlam indeksleme

modelleri tanıtılacaktır.


101

Söz konusu iki geri-getirim modelini tanıtmadan önce, her klasik

geri-getirim modeli için kullanılan, ortak simge sisteminin

tanıtılmasında fayda vardır.

Her hangi bir geri-getirim modeli olu� turan unsurlar, dört i � levsel

guruba ayrılabilir ve [B, Q, M, R(qi, bj)] gibi bir dörtlü simge sistemi ile

tanımlanabilir. Bu dörtlüyü olu� turan her simge ise model içinde � u

i � levlere kar � ılık gelirler:

1. B simgesi, belge uzayındaki belgelerin sayısal/mantıksal temsillerinin toplulu� undan olu� mu� kümeyi temsil eder.

2. Q simgesi, kullanıcılar tarafından enformasyon ihtiyaçlarını kar � ılamak amacı ile sisteme yönlendirilmi � “sorgu” ların sayısal/mantıksal temsillerinin toplulu� undan olu� mu� kümeyi temsil eder.

3. M simgesi, belgelerin, sorguların sayısal temsillerinin olu� turulması ve aralarındaki alakanın (e� le� tirme) ölçümü için kuramsal alt yapıyı, yani modeli temsil eder.

4. R(qi,bj) simgesi, her Qqi ∈ sorgusu ve Bb j ∈ belgesi için bir

gerçek sayı ile ili � ki de� eri belirleyen “ sıralama i � levi” ’ni temsil eder. Bu � ekildeki bir sıralama i � levi, her qi sorgusu için, belgeler üzerinde “alaka” ile do� ru orantılı bir sıralama tanımlar. Bir ba� ka söyleyi � le, örne� in belirli bir qi sorgusu ile en “alakalı” olan, yani il i � ki de� eri en büyük olan belge, birinci sırada, de� er olarak bir küçük olan belge ikinci sırada v.b. olacak � ekilde bir belge sırası tanımlar.

Her geri-getirim yöntemi, esas aldı � ı kuramsal alt yapı (M)

üzerinden, söz konusu dörtlüyü olu� turan simgelerin kar � ılık geldi � i

i � levsellik için, di � er i � levsel unsurların (B, Q, R(qi,bj)) nasıl

gerçekle� tirilece� ine dair yöntemleri veya yordamları tanımlar.


102

Tez kapsamımız dahilinde bu bölümde tanıtımını yapaca� ımız

geri-getirim modelleri, klasik modeller oldu� undan, bu yöntemlerin

ortak paydasında bulunan, genel kavramların ve kabullenmelerin de

anlatım içerisinde kullanılan � ekli ile, liste halinde verilmesinde fayda

vardır:

1. Modeller içerisinde, her belgenin sayısal/mantıksal temsili “ indeks terimlerin” toplulu� u olarak ele alınmaktadır. Ayrıca, bir belgenin sayısal temsilinde kullanılan indeks terimlerin de, birbirlerinden, olasılık/istatistik ba� lamında matematiksel esasta (yani da� ılımsal olarak), ba� ımsız oldu� u kabul edilmektedir.

2. E� er, bir belge toplulu� unda t adet farklı indeks terim oldu� u ve ki simgesinin bu indeks terimlerden belirli birini temsili etti � i kabul edilirse; K = {k1, k2, ..., kt} tüm indeks terimlerin kümesi olacaktır.

3. Belge toplulu� undaki her belge, Bb j ∈ ile, her indeks terim,

Kki ∈ terim arasında, yani her (ki, bj) ikilisi için a� ırlık olarak

adlandırılan, atanmı � bir gerçek de� er vardır. Bu a� ırlık wi,j simgesi ile temsil edilir ve her zaman sıfıra e� it veya büyük bir gerçek sayı de� erine sahiptir ( 0, ≥∀ jiw ).

4. Belge toplulu� undaki her belge, Bb j ∈ , model içinde kar � ılık gelen

bir indeks terim vektörü ile temsil edilir, ),,,( ,,2,1 jtjji kkkb �=

vardır.

5. Belge toplulu� undaki her belgenin model içindeki temsili olan

vektörler, jb üzerinde i � lem yapan ve Kki ∈ indeks terimi için

a� ırlık de� erini veren bir jiji wbg ,)( = i � levi tanımlıdır.


103

6.1. Vektör Uzayı Modeli

Vektör uzayı modeli, BGG sahasında en yaygın � ekilde

kullanılan geri-getirim modelidir. Bunun sebebi, modelin basitli � i ve

içerdi � i süreçlerin takip edilebilir olmasıdır. Sorgu ile belge arasında

kurulaması gereken anlamsal “alaka” yakınlı � ını, vektörlerin çok

boyutlu uzaydaki yakınlı � ı ile temsili olarak tanımlar.

Vektör uzayı modelinde sorgular da indeks terim vektörleri ile temsil edilirler. Yani, her sorgu, Qqi ∈ için, belgelerde oldu� u gibi

kar � ılık gelen bir indeks terim vektörü, ),,,( ,,2,1 itiii kkkq �= vardır.

Modelde, belgeler ile sorgular arasında anlamsal olarak belirlenmesi,

nicel olarak ölçülmesi gereken “alaka”, temsili olarak

),,,( ,,2,1 itiii kkkq �= indeks terim vektörü ile, ),,,( ,,2,1 jtjji kkkb �=

indeks terim vektörü arasındaki açısal mesafe ile hesaplanır. Dolayısı

ile anlamsal ba� lamda oldukça karma� ık ili � kilerin de� erlendirilmesi

ile karar verilebilecek “alaka” , t boyutlu bir uzayda, iki vektör

arasındaki açısal mesafenin ölçülmesi gibi, matematiksel olarak

modellenmi � , çok basit bir meseleye indirgenmi � olur. Bu model ile

belgelerin “alaka” de� eri en yüksek olanı olarak, sorgu vektörü ile en

küçük açısal mesafeye sahip olan belge vektörü kabul edilmektedir.

Model gere� i, en alakasız belge, daha do� rusu mutlak alakasız belge,

sorgu vektörü ile dik açı (radyan ölçe� inde 90o) yapan vektör ile temsil

edilendir.

Vektör uzayı modelinde, vektörler ile temsil edilen sorgu ve

belgeler arasındaki açısal mesafe benzerlik ölçütü olarak kullanılır ve

kosinüs farkı (cosine difference) veya normalle� tirilmi � kar � ılıklı-il i � ki

katsayısı (normalized correlation coefficient) ile ölçülür. Dolayısı ile,


104

vektör uzayı modelinde, bir sorgu ile belirli bir belge arasındaki

benzerlik Denklem 6.1.1.’de verildi � i gibi hesaplanır.

�⋅

��

⋅=

⋅

•=

==

=

tk jk

tk ik

tk jkik

ji

jiji

ww

ww

bq

bqbqbenzerlik

12,1

2,

1 ,,),( (6.1.1)

Denklem 6.1.1.’de verilen ifadenin, indeks terimler uzayında

temsili betimlemesi � ekil 6.1.1.’de verilmi � tir.

b j

q i

k1

k2 �ekil 6.1.1: Bir bj belge vektörü ile, qi sorgu vektörünün, iki boyutlu indeks terim

uzayında çizgesel betimlemesi.

� ekilde, belge vektörü ve sorgu vektörü, iki boyutlu terim

uzayında aralarında, θ açısı olacak � ekilde gösterilmi � tir. Denklem

6.1.1. ile verilen benzerlik ölçüsü, bu gösterim üzerinden � öyle elde edilmektedir. Vektör uzayında iki vektörün, örne� in iq ve

jb vektörlerinin nokta çarpımı (dot product) Denklem 6.1.2.’de verilen

ifade üzerinden hesaplanır.

jtitjijiji kkkkkkbq ,,,2,2,1,1 ⋅++⋅+⋅=• � (6.1.2)


105

Denklem 6.1.2.’de verilen nokta çarpımının bir takım cebirsel ve

yüzey-ölçüt (geometri) özellikleri vardır. Sorgu ile belge vektörü

arasındaki benzerli � in ölçülmesini sa� layan Denklem 6.1.1.’deki

ifadenin elde edili � i için bu özelliklerden incelenecek olan Denklem

6.1.3.’de verilmi � tir.

θcos⋅⋅=• jiji bqbq (6.1.3)

Denklem 6.1.3.’de verilen geometrik özelik, iki vektörün nokta

çarpımının üçgen-ölçüt (trigonometri) ifadesidir: iq ve jb terimleri,

vektörlerin, örne� in sorgu vektörü olan iq için,

2,

2,2

2,1 itiii kkkq +++= � ifadesi ile hesaplanan uzunluklarıdır.

θcos ifadesi, radyan ölçe� inde θ açısının, kosinüs i � levinden elde

edilen de� eridir.

Denklem 6.1.2.’de ve Denklem 6.1.3.’de verilen, nokta çarpım

ifadeleri e� itlenip, θcos için yeniden düzenlenirse, Denklem

6.1.4.’deki ifade elde edilir.

ji

jiji

bq

bqbqbenzerlik

⋅

•== θcos),( (6.1.4)

Denklemden de anla� ıldı � ı gibi, benzerli � in çok boyutlu uzayda

neden açısal bir ölçüt oldu� u çok açıktır.

Bir vektörün normalle� tirilmi � olması demek, uzunlu� unun bire

e� it olması demektir. Dolayısı ile, bir vektörün normal hali, vektörü

olu� turan her elemanının, vektörün uzunlu� una bölünmesi demektir.


106

Denklem 6.1.1. veya Denklem 6.1.4.’de verilen benzerlik ifadelerinde

de görüldü� ü gibi, e� er sorgu ve belge vektörleri, önceden

normalle� tirilmi � olursa, benzerlik Denklem 6.1.2.’de hesap � ekli

verilen basit bir nokta çarpımı haline gelecektir. Vektör uzayı geri-

getirim modelini esas alan BGG sistemlerinde yaygın olarak

uygulanan, belge ve sorgu vektörlerinin normalle� tirilerek

kullanılmasıdır.

Vektör uzayı modelinde, indeks terimlerle belgeler arasındaki

a� ırlık hesabı da Denklem 6.1.6.’da verilen � ekilde yapılır.

ijijiji idftfbgw ×== ,, )( (6.1.6)

Denklem 6.1.6.’da, jitf , terimi, e� er jif , , jb belgesinde ik

indeks terimine ait gözlenme sıklı � ı ve jfmax , jb belgesindeki her

hangi bir indeks terime ait olabilecek en yüksek gözlenme sıklı � ı olarak kabul edilirse, jji ff max/, (normalle� tirilmi � gözlenme sıklı � ı olarak

da adlandırılır) i � leminden elde edilen sayısal de� erdir; iidf terimi,

e� er N belge toplulu� undaki toplam belge sayısı ve ni, ik indeks

teriminin gözlendi � i belge sayısı olarak kabul edilirse, )/(log10 inN

i � leminden elde edilen sayısal de� erdir. Bu a� ırlık hesaplama yöntemi

çok yaygın olarak kullanılır ve TFxIDF olarak adlandırılır. Aslen bu

adlandırma, kökü Denklem 6.1.6.’da verilen a� ılık hesabı ifadesinden

türetilmi � , bir a� ırlıklandırma denklemleri ailesinin genel adı olarak

kabul edilebilir (Salton, 1971).

Sorgu cümlesinden, sorguya ait vektörün olu � turulması için

yapılması gereken a� ırlıklandırma, belgelerde oldu� undan farklıdır.

Sorgularda uygulanması önerilen a� ırlıklandırma Denklem 6.1.7.’de

verilmi � tir (Salton and Buckley, 1988).


107

)/log(max

5.05.0

,, i

q

qiqi nN

f

fw ⋅��

��

⋅+= (6.1.6)

Vektör uzayı modelinin bazı olumlu ve olumsuz yönleri vardır.

Bu özellikleri maddeler halinde listeleyecek olursak:

Olumlu yönleri;

• Uygulamada basit ve hızlıdır.

• Kosinüs farklı ile benzerlik hesaplanması, sorgu için belgeler kümesi üzerinde belirlenmesi gereken R(qi,dj) i � levini de aynı anda yapmı � olur.

Olumsuz yönü;

• � ndeks terimlerin da� ılım esasında ba� ımsız kabul edilmesi.

6.2. Gizli Anlam ndeksleme Modeli

Vektör uzayı modelinde, indeks terimlerin bireysel gözlenme

sıklıkları ile a� ırlıklarının belirlendi � ini söylenmi � ti. Dolayısı ile,

vektör uzayı modeli içerisindeki a� ırlıklandırma � ekli, belge içerisinde

indeks terimlerin birlikte gözükme durumlarını göz önüne

almamaktadır. Gizli anlam indeksleme (latent semantic indexing - LSI)

modelinin kurgusu ile, birlikte gözükme durumunun ne � ekilde ele

alındı � ını takip edebilmek için, anlatıma bir örnek üzerinden devam

edece� iz.


108

Klasik modeller içerisinde her belgeye, Bb j ∈ , kar � ılık gelen bir

indeks terim vektörü, ),,,( ,,2,1 jtjji kkkb �= ile temsil edildi � i

belirtilmi � ti. Dolayısı ile, belirli bir belge toplulu� u, satırları indeks terimler Kki ∈ , sütunları belgeler Bb j ∈ ve elemanları wi,j, yani (ki,

bj) indeks terim-belge ikilisi için atanmı � a� ırlıklardan olu� an bir terim-belge matrisi, txbA olarak temsil edilebilir (t, terim sayısı, b belge

sayısı). Hayali dört belgeden ve üç indeks terimden olu� an, örnek belge

toplulu� umuz, terim-belge matrisi olarak � ekil 6.2.1.’de verilmi � tir.

0001televizyon(k3)

0011a � (k2)

1110bilgisayar(k1)

b4b3b2b1

0001televizyon(k3)

0011a � (k2)

1110bilgisayar(k1)

b4b3b2b1

�ekil 6.2.1: Örnek belge uzayı için, terim-belge matrisi.

� ekilde verilen örnek belge toplulu� unun, terim-belge matrisinde

dört belge sütunlardadır (b1, b2, b3 ve b4), satırlarda ise üç indeks terim

görülmektedir (k1=bilgisayar, k2=a� , k3=televizyon). Belgelerden, b1 ve

b2 , k2=a� indeks terimini ortak � ekilde içermekte; b3 ve b4

içermemektedir. Bu yüzden, b1 ve b2 için bir a� ırlık de� eri, w2,1=w2,1=1

atanmı � ; ancak, b3 ve b4 belgeleri indeks terimi içermedikleri için

kar � ılık gelen a� ırlık de� erleri, sıfır olarak, w2,3 = w2,4=0, atanmı � tır. Bir

ba� ka söyleyi � le, terim-belge matrisinde, a� ırlık de� eri sıfır olan

hücrenin sütununda bulunan belgede, satırdaki indeks terim

gözlenmemi � demektir.


109

Gizli anlam indeksleme yöntemi, sorgu ve belgeleri, terimlerin

birlikte gözlenmesine dayalı olarak, eksenleri “ gizli” anlamlar olan bir

uzaya yansıtır. Birlikte gözlenen terimler aynı eksenlere yansıtılırken,

birlikte gözlenmeyenler farklı eksenlere yansıtılırlar. Gizli anlam

uzayında, bir sorgu ve belge, aynı biçime sahip terimleri içermeseler

bile, e� er anlamsal benzerlikleri, birlikte gözlenme ile belirlenebildi � i

oranda, yüksek seviyelerde kosinüs benzerli � ine sahip olabilirler.

Gizli anlam uzayının boyutları, belge uzayının boyutlarından

daha azdır. Belge uzayının boyutları indeks terimlerin sayısı kadar

olabilir. Ancak, gizli anlam uzayının boyutları, belge uzayında

anlamsal olarak benzer olan boyutların birle� imi ile olu� ur. Bu yönden

açıklandı � ında, gizli anlam indeksleme bir “ boyut indirgeme”

yöntemidir. Bir boyut indirgeme yönteminin yaptı � ı � ey, çok boyutlu

bir uzayda temsil edilen nesneleri, daha küçük boyutlu bir uzaydaki,

örne� in iki boyutlu bir uzaydaki temsile yansıtmaktır. Gizli anlam

indeksleme modelinde kullanılan boyut indirgeme i � lemi, e� siz sayılara

ayrı� tırma-ESA (singular value decomposition - SVD) yöntemi ile

gerçekle� tirilir. ESA yöntemi, aslen temel bile� en analizi – TBA

(principle component analysis) yöntemi ile aynı i � i görür. Ancak, TBA

sadece kare matrislerle çalı � abilirken, ESA, mxn boyutlu tüm

matrislerle çalı � abilir. ESA yöntemi ile, çok boyutlu uzaydaki bir

nokta, daha küçük boyutlu bir uzaydaki “en iyi” kar � ılı � ına yansıtılır.

Buradaki “en iyi” , çok boyutlu uzaydaki noktanın, kendisinden küçük

boyutlu uzayda yansıtılabilecek tüm olası seçeneklerden, mesafe olarak

en yakını demektir.

Gizli anlam indeksleme modelinin, geri-getirim yöntemi olarak

terim-belge matrisi üzerinde kullanılı � ından önce, esas aldı � ı ESA yönteminin matematiksel tanımını yapmak gerekmektedir. Bir txbA


110

matrisinin, ESA yöntemi ile olu� turulan kar � ılı � ı Denklem 6.2.1.’de

verilen ifadedeki gibi üç matrisin çarpımı � eklindedir (n sayısı, t ve b

sayılarının en küçü� üne e� ittir).

Tbxbtxbtxttxb BSTA = (6.2.1)

�ekil 6.2.1.’de verdi � imiz örnek derlemin terim-belge matrisi için

ESA yöntemi ile elde edilen txtT , txbS ve bxbB matrisleri �ekil

6.2.2.’de verilmi � tir.

(T matrisi)

boyut-1 boyut-2 boyut-3k1 -0.789 0.577 0.211

k2 -0.577 -0.577 -0.577

k3 -0.211 -0.577 0.789 (S Matrisi)

boyut1 boyut2 boyut3 boyut4boy-1 1.932 0.000 0.000 0.000

boy-2 0.000 1.414 0.000 0.000boy-3 0.000 0.000 0.518 0.000

(B Matrisi)

boyut-1 boyut-2 boyut-3 boyut-4b1 -0.408 -0.817 0.408 0.000

b2 -0.707 0.000 -0.707 0.000

b3 -0.408 0.408 0.408 -0.707

b4 -0.408 0.408 0.408 0.707

�ekil 6.2.2: Örnek derlem terim-belge matrisi için hesaplanmı � , ESA bile� en

matrisleri.

ESA yöntemi ile �ekil 6.2.2.’de görüldü� ü gibi olu� turulan

bile� en matrislerinden, T ve B matrislerinin, sütunları dik-cepheli birim

vektörlerdir (orthonormal). Yani, her sütün ile temsil edilen vektörlerin

boyu bire e� ittir; aynı zamanda vektörlerin birbirleri arasındaki açı dik


111

açıdır (900). Dolayısı ile, IBBTT =⋅=⋅ −− 11 e� itli � ine sahiptir (I,

birim matrisdir).

ESA yöntemi, n-boyutlu bir uzayın döndürülmesi olarak

tanımlanabilir. Bu döndürme i � i, ilk eksenin, belgeler üzerinden elde

edilmi � olan en yüksek de� i � im yönünde, ikinci eksenin bir sonraki en

büyük de� i � im yönünde, v.b. � ekilde tüm uzayın aynı � ekilde

de� i � imler yönünde döndürülmesi ile sonlanır. T ve B matrisleri

döndürme sonrasında elde edilen yeni uzayın, indeks terim ve

belgelerini temsil ederler.

Kö � egen S matrisiyse, A matrisinin e� siz sayılarını azalan sırada

içermektedir. S matrisinin kö � egenindeki, örne� in 2. de� er, yani s2

de� eri, 2. eksende, özgün uzaydan, yeni uzaya dönü� için ne kadar de� i � im oldu� unu belirtmektedir. Söz konusu txbA matrisi i le ifade

edilen uzayın, k boyuta indirgenmi � olan ( e� er n, t ve b sayılarının en

küçü� üne e� it olarak kabul edilirse; k < n olacaktır) “en iyi”

yakınsaması, T, S ve B matrislerinin ilk k sütunu ile olu� turulacak olan matrisle elde edilecektir. Örne� in, k=2 olarak alındı � ında, txbA

matrisini, 2 boyutta “en iyi” ifade edilebilecek bile� enler, 2txT , 22xS ve

xbB2 olacaktır. Örne� imiz için bu bile� enler ve olu� turdu� u yakınsak

matris � öyle olacaktır:


112

��

�

�

��

�

�

−−

−=

��

��

−−−−−

×

��

��

×��

�

�

��

�

�

−−

−−−

=⋅⋅

17.017.029.083.0

12.012.079.012.1

96.096.008.104.0

408.0408.00817.0

408.0408.0707.0408.0

414.10

0932.1

577.0

577.0

577.0

211.0

577.0

798.0

242223Txxx BST

ESA ile bulunan yakınsama, tektir, biriciktir. Bu yakınsamanın

yapılması sırasında, benzer birlikte gözlenme desenleri gösteren

terimler aynı eksene yansıtılır, yani birbiri üzerine bindirilir. Dolayısı

ile, benzerlik için kullanılan ölçüt, anlamsal olarak benzer olan sorgu

ve belgeleri, yazıda farklı kelime biçimleri ile kar � ılansalar bile benzer

olarak belirleyecektir. Gizli anlam indekslemenin temelinde bu

kabullenme, böyle bir beklenti vardır. T matrisinin sadece iki boyutu

alınmı � � eklini inceleyecek olursak, “bilgisayar” , “a� ” ve “ televizyon”

terimlerinin birlikte gözükme açısından aynı (de� er olarak aynı) ancak,

anlamca farklı oldukları (pozitif ve negatif) gözükmektedir. Aslen,

anlamca farklı olu� un ortaya çıkmasının sebebi, “bilgisayar” teriminin

d3 ve d4 belgelerinde yalnız ba� ına kullanılıyor olması etkisiyle, yani

birlikte gözlenme olmaması sebebiyle ortaya çıkmı � tır. Tahmin

edilece� i gibi, bazı durumlarda birlikte gözükme ile, aynı konu

ba� lı � ına sahip terimlerin belirlenmesinde mesele çıkabilir. Fakat, ço� u

zaman aynı konu ba� lı � ına sahip terimler tespit edilebilmektedir.

Bu terim benzerliklerinin belge benzerliklerine farklı bir etkisi vardır. � ekil 6.2.3.’de özgün 43xA örnek matrisinin kar � ılıklı i li � ki

katsayıları, matris halinde verilmi � tir ( 43xA örnek matrisi, sütunları,


113

yani belgeleri temsil eden vektörleri, uzunluk ile normalle� tirilmi �

durumdadır. Çünkü, kar � ılıklı ili � ki matrisi, AAE T ⋅= ile elde

edilmektedir). ESA ile k=2 için, A matrisinin yakınsaması üzerinden elde edilen kar � ılıklı ili � ki katsayı matrisi için, 4222 xx BSD ⋅=

� eklinde, B matrisinin yeni uzay için ölçeklendirilmi � hali

kullanılmaktadır, yani DDE T ⋅= (aynı � ekilde D matrisi de, sütunları

normalle� tirilmi � olarak i � leme alınır).

(a) b1 b2 b3 b4

b1 1.000

b2 0.500 1.000

b3 0.000 0.707 1.000

b4 0.000 0.707 1.000 1.000 (b)

b1 b2 b3 b4

b1 1.000

b2 0.564 1.000

b3 -0.033 0.807 1.000

b4 -0.033 0.807 1.000 1.000

�ekil 6.2.3: Belgeler arası kar � ılıklı ili � ki katsayı matrisleri. (a) Özgün örne� in terim-

belge matrisi ile olu� turulan (ATA) ve (b) k=2 için ESA yakınsaması ile olu� turulan yeni uzayda ölçeklendirilmi � belge matrisinden olu� turulan (DTD) kar � ılıklı ili � ki katsayıları matrisleri.

�ekil 6.2.3-(b).’de verilen, yeni uzay için ölçeklendirilmi � belge

matrisi için hesaplanan kar � ılıklı ili � ki katsayılarında b1 ile b3 ve b4

arasında bir ili � ki oldu� u gözükmektedir (-0.033). Özgün belgeler için

hesaplananda, yani �ekil 6.2.3-(a).’da böyle bir benzerlik yoktur.

Dikkat edilmesi gereken noktalardan bir tanesi de � udur: Özgün A

matrisine ait kar � ılıklı ili � ki katsayıları ile, ESA yöntemi ile elde edilen

S ve B matrisleri oldu� u gibi kullanılarak hesaplanacak kar � ılıklı il i � ki

katsayıları birbirine e� it olur. Yani, aslen boyutsal bir indirgeme


114

yapılmadı � ı takdirde, belgeler arasındaki kar � ılıklı ili � kilerde bir

de� i � iklik olmaz. Boyutsal indirgeme yapıldı � ında, birlikte gözlenme

desenlerinden elde edilen enformasyon, belgeler arasındaki benzerlik

için kullanılmaya ba� lar.

Gizli anlam indeksleme ile sorguların ne � ekilde yeni uzayda

temsil edilece� i de tanımlanınca, bu model uygulamada kullanılır hale

gelmektedir. Bir kez sorgu, yeni uzaydaki belgelerle aynı ölçe� e

alındı � ında, vektör uzayı modelindeki benzerlik ölçütü sorgu ile

belgeler arasındaki alakanın ölçümü için kullanılacaktır. Denklem

6.2.2.’de özgün terim-belge matrisinin, yeni uzaydaki yansıması

Denklem 6.2.1.’den türetilmi � tir. Sorgu da, belgelerle aynı ölçekte

olacak � ekilde, yeni uzaya yansıtılmaktadır.

qT

BSAT

BSTTAT

BSTA

T

TT

TTT

�∴

⋅=⋅⇔

⋅⋅⋅=⋅⇔

⋅⋅=

(6.2.2)

Olumlu yönleri;

• Terimler arası birlikte gözlenme enformasyonundan faydalanır. E� anlamlı, ancak farklı biçimli kelimeleri benze� tirir.

Olumsuz yönü;

• ESA yönteminin hesaplama karma� ıklı � ı çok yüksektir.


115

7. � NDEKSLEME VE � NDEKS TER � MLER

Amerikan Ulusal Standartlar Enstitüsünün 1968 yılında (ANSI

1968) � ndeks kavramı için verdi � i tanım:

“ Bir ö� eler toplulu� unun içindeki bireysel ö� eler veya bu ö� elerden türetilmi � kavramlar için olu� turulmu� sistemli bir kılavuz. Bu ö� eler veya türetilmi � kavramların kılavuz içindeki temsilcileri ise bilinen veya verilen, örne� in alfabetik, tarihsel veya sayısal bir sıralama içindedirler.”

� ndeksleme için verilen tanım:

“ � ndeksleme: Bilgi kayıtlarından enformasyon muhteviyatını analiz etme; ve indeksleme sistemi’nin dili ile bu enformasyon muhteviyatını beyan etme i � lemidir. Bu i � lem sırasıyla: bir belgede indekslenebilir muhteviyatın seçilmesi ve indeksleme sisteminin dili ile bu muhteviyatın beyanının sıralı bir liste haline getirilmesi adımlarından olu� ur.”

Bir indeksleme sistemi için verilen tanım:

“ Geri-getirim veya da� ıtım, yani yayma amacıyla bilgi kayıtlarının muhteviyatını organize eden (elle veya otomatik) nizam koyucu yöntemler/yordamlar kümesi.”

Bir indeks terim ise, yukarıda verilen tanımların ı � ı � ı altında, bir

metnin içeri � inde bulunan enformasyonun (veya üst –meta-

enformasyonun) kayda de� er bir kısmını içeren ifadedir. Örne� in bir

kitap indeks’ i, o kitabın muhteviyatında bulunan önemli içerikleri, daha

do� rusu kavramları temsil eden terim’ lerden olu � ur: konular, ki � iler,

yerler gibi.


116

BGG sistemlerinde indeksleme dili, belge ve sorguları tasvir

eden, sistem içinde, içsel temsilini sa� layan dildir; söz konusu dilin

yapı ta� ları ise indeks terim’ lerdir, bir ba� ka adla anahtar kelimelerdir. �ndeksleme, insanlar tarafından elle veya bilgisayarlar tarafından

otomatik olarak yapılabilir. �ndeks terimler, aslen olu� turuldukları

metnin veya belgenin içindeki kelimelerin yazım biçimlerinden

ba� ımsızdırlar. Bu açıdan indeks terimler, olu � turuldukları metnin

yüzeysel bir özeti gibi dü� ünülebilir. Ancak, indeks terimlerin asıl

amaçları kullanıcıyı metnin içeri � inde ne oldu� u konusunda haberdar

etmektir. Bu sebeple söz konusu özet, metnin içeri � ini olu� turmada

kullanılan konuları, kavramları içerir, içeri � in bizzat kendisi de� ildir.

Tüm indeksleme i � lerinin kökeninde, kullanıcılara ihtiyaç

duydukları enformasyona ula� maları için kılavuzluk etme amacı vardır.

Ancak indeksler, bir çok tür ve detay seviyelerde olu� turulabilirler.

Farklı tür ve seviyeler ile olu� turulabilecek indeksler, a� a� ıdaki

guruplar altında sınıflandırılabilir (Cleveland and Cleveland, 1983).

1. Kelime ve isim indeksleri: Bu tür indekslerde indeks terimleri, kelimelerin metnin içinde görüldükleri � ekillerinden olu� ur ve bir kelime hazinesi sınırları yoktur.

2. Kitap indeksleri: Terimler genellikle elle olu� turulur ve metnin içinde görüldükleri yazılı � ekillerinden farklıdır. Örne� in bir indeks terimi “Dinozorlar, bkz. Dinozor” � eklinde metnin içinde geçti � i

� eklini, indeks terim olan � ekline yönlendirebilir.

3. Periyodik (süreli yayın) indeksleri: Periyodik indeksler, kapsamlarının daha geni � olmalarının haricinde, tamamen kitap indekslerinin yapısal özelliklerine sahiptirler. Periyodik indeksleme projeleri ucu açık projelerdir, hiçbir zaman sonlanmazlar.


117

4. Bilgi geri-getirim sistem indeksleri: Bu indeksleme türünün amacı, içerik belirticileri i � aretleyerek, alakalı belgelerin etkin � ekilde geri-getirimini sa� lamaktır.

Tez kapsamımızda, indeks sınıfı olarak bilgi geri-getirim sistem

indeksleri ele alınmaktadır.

BGG sistemlerinde, sayısal belge temsili için indeks terimlerin

seçimi iki yoldan yapılabilmektedir: elle veya otomatik. Elle indeks

terim seçiminde, metnin içeri � ini temsil eden terimler, bir veya birkaç

ki � i tarafından i � aretlenir ve listelenir. � kinci yöntemde ise, yani

otomatik olarak indeks terimlerin seçiminde, metnin içeri � ini temsil

eden terimlerin, bir bilgisayar yordamı ile otomatik olarak bulunması,

dolayısı ile indeks terim listesinin otomatik olu� turulması söz

konusudur. � � te, hangi kelimelerin veya kelime guruplarının metnin

içeri � ini temsil etti � ini, bilgisayar yordamları ile bulma i � ine otomatik

indeks terim seçimi denir.

7.1. Elle � ndeksleme

Bir belge toplulu� una, yeni bir belge katıldı � ı zaman,

indekslemeyi yapacak ki � i veya ki � ilerin cevaplamak zorunda oldukları

bir takım sorular vardır (Lancaster, 1991):

1. Belge ne hakkında?

2. Neden, belge toplulu� una eklenmek zorunda?

3. Kullanıcıları ilgilendiren yönleri nelerdir?


118

�ndekslerin, özellikleri ve kalitesi çok geni � bir yelpazede

de� i � iklik gösterir. Elle indeksleme için, indeksleme yapan ki � iye yol

göstermesi açısından yordamlar ve talimatlar olu� turulabilir. Ancak, bir

indeksleme i � lemi çok çe� itli u� ra� lardan meydana gelmektedir

(Cleveland and Cleveland, 1983):

1. �çerik analizi,

2. �çerik belirticilerin i � aretlenmesi,

3. Yer, pozisyon belirticilerin i � aretlenmesi,

4. Sonuçta olu� an kılavuzların elden geçirilmesi,

5. Son indeks � eklinin nasıl gösterilece� inin belirlenmesi.

�çerik belirticilerin tespiti, çok dikkatli bir içerik analizi

gerektirmektedir. Bu i � lem içinde, metinde geçen ba� lıklar, alt ba� lıklar

ve özet iyi birer içerik belirtecidir. Belge incelenip, içerdi � i metinlerin

konuları belirlendikten sonra, yapılması gereken, indeksleme dilinin

kontrollü kelime da� arcı � ı içinden konuların bulunmasıdır. Daha sonra,

bu kontrollü kelime da� arcı � ından elde edilmi � , terimlerin standart bir

e� anlamlılar sözlü� ünden kontrol edilerek son halini alması sa� lanır.

E� anlamlılar sözlü� üne bakılmasının sebebi, terimin tam kar � ılı � ının,

e� anlamlısının, dar anlamlısının, daha geni � anlamlısının veya ili � kili

terimlerin de tespit edilmesidir. �ndeksleme i � lemi için konulmu �

kuralların ço � unun amacı, indekslerin kalitesini arttırmaktır. Fakat söz

konusu kurallar evrensel de� ildir. Hatta, bazı indeksleme kılavuzlarında

bulunan kurallar birbirleri i le çeli � kili bile olabilir. Bu kuralların neler

olabilece� ini a� a� ıda verilen örne� i inceleyerek çıkarabiliriz (Cleveland

and Cleveland, 1983):


119

1. Tekil terimleri, ço� ul olanlarına yönlendir: örne� in “kitap, bkz. kitaplar.” gibi.

2. Terimin de� i � ik anlamlarını ifade etmek için, kullanıcının kastedilen anlamı kavrayabilmesi için, bir tümcede kullan: örne� in “matematik, ö� retiminde bilgisayarın kullanımı” veya “bilgisayar, matematik ö� retiminde kullanımı” gibi.

3. Yazarları, ilk adlarını dahil ederek kullan: “Dinçer, B.T.” gibi.

4. Yazar tarafından vurgulanmak, açıklanmak istenen kadar özele indirgenmi � � ekilde indeks terimler seç (E� er yazarın seçti � i terim, konu içerisinde kabul edilebilir bir seviyeye denk geliyorsa, daha üst genel hali ile indeksleme). Örne� in, yazar “F-16” uçaklarından bahsediyorsa, “F-16” olarak indeksle, daha üst genel konu ba� lı � ı olan “uça� ı” kullanma.

�ndekslemeyi yapan ki � i ayrıca, indeksin derinli � ini de, yani

kapsamı da iyi ayarlamalıdır. Bir ba� ka söyleyi � le, belge içerisinde

bahsedilen konu ba� lıkları en iyi � ekilde kapsanmalıdır. E� er, kapsam

çok yüzeysel olursa, kullanıcıların kaçırdı � ı kavramlar olabilir. E� er

çok fazla detay olursa, kullanıcı alakasız metinleri okumak zorunda

kalabilir. Özetle, kapsamı en iyi � ekilde belirleyebilmek oldukça güç ve

ciddi bir i � tir.

Bir çok kitap, isim indeksleri ile içerik indekslerini birbirinden

ayırır. �sim indeksleri metin içerisinde geçen özel isimlerin bir

listesinden olu� turulurken, içerik indeksleri metin içerisindeki konuları

kar � ılayan terimlerden olu� turulur. Borko ve Bernier (1978), daha

detaylı bir ayrım tarif etmi � lerdir:

1. Konu indeksleri: Konular, yapılan i � in bütünü ile hedef alınan � eydir, yani yazarın dikkatinin ve u� ra� ının yönlendi � i ana temadır. Bunlar, yapılan i � in özelliklerine ait çe� itli yönleri ortaya koyan özgün fikirler, açıklamalar veya tanımlamalardır.


120

2. Kavram indeksleri: konular bazen di � er bazı kavramların tanıtılmasına, içinde geçen fikirlerin açıklanmasına ve örneklerle izah edilmeye ihtiyaç duyabilir. Bu tür kalemler, kavram olarak tanımlanır. Kullanılmalarındaki amaç, ana “ konu” nun anla� ılmasını sa� lamaktır, ancak kendileri “ konu” de� illerdir, dolayısı ile konu indekslerinde de� il, bu � ekilde kavram olarak indekslenmeleri gerekir.

3. Ba� lık indeksleri: Ço� u metin ba� lıklara bölünmü � tür, sıklıkla da alt ba� lıkları vardır. Bu ba� lıkları veya alt ba� lıklarını indekslemek, ba� lıklar için bir indeks olu� turacaktır. Bazı durumlarda bu ba� lıklar, “konu” olabilir, bu durumda konu indeksleri içerisinde yer almalıdır. Genellikle, konu indeksleri için çok geni � kapsamlı olurla; bazen de hedef alınan konunun tanıtımı, do� rulaması, ispatı amacı ile kullanılan kavramlardır.

4. Kelime indeksleri: kitap içerisinde geçen tüm kelimelerin birli � idir, veya kelime indeksidir. Bir konu indeksi de� ildir.

En kalabalık olan indeks kelime indeksidir. Bir sonraki kalabalık

indeks, kavram indeksi; ba� lık indeksi bir sonraki; en seyrek olan

indeks de konu indeksidir. Tez kapsamında, ele alınan indeks terimler,

kavram indeksleri ’dir. Aslen, otomatik indeksleme konusunda da

açıklanaca� ı gibi, indeks terimler, kelime indeksleri ile kavram

indeksleri arasında bir yo � unlu� a sahiptir. Sayısal belge temsili ile elde

edilen, kelime indeksleridir; otomatik indeksleme yordamından

beklenense, bu kelime indeksini mümkün oldu� unca kavram indeksine

do� ru götürmesidir.

7.2. Do� al Bir Dilde, Kelimeler in Da� ılımı.

Yazılı metinlerde bulunan simge veya simge birlikleri,

kelimeler, sayılar, çizimler v.b. insanlar tarafından anlam yüklenmi �


121

her türlü harf, sayı, i � aret ve bunların olu� turdu� u birliklerdir. Bir metni

olu� turan içerik, bu simge veya simge birlikleri ile kar � ılanan

anlamların bütününden olu� ur. Ancak, anlamsal-enformasyonun yazı

ile iletiminde metni olu� turan her simge veya simge birli � inin temsil

etti � i anlam, metnin içeri � ine, yani anlamlar bütününe her durumda e� it a� ırlıkta, yani aynı önemde katkıda bulunmaz veya bazıları hiç katkıda

bulunmaz. Anlamsal-enformasyon bakı � açısından, “yazılı bir metinde

kelimelerin gözlenme sıklıkları” ile “bu kelimelerin kar � ıladıkları

anlamların muhtemel enformasyonu olu� turan anlamlar bütünü içindeki

önem dereceleri” arasındaki ili � ki Luhn10 (1958) tarafından � ekil

7.2.1’deki gibi betimlenmi � tir. Luhn, yazılı metinlerde orta frekanslı

kelimelerin önemli, dü� ük ve yüksek frekanslı kelimelerin önemsiz

olduklarını söylemi � tir. Ta� ınan enformasyona katkıları açısından,

önemsiz kelimeler, dilin yazım kuralları, yani dilbilgisi içinde görevli

olan ve yüksek sıklıkta gözlenen kelimeler ile metin içinde çok az

görülen kelimeler dahil edilir. Bu tür önemsiz kelimeler i � levsel olarak

görevli veya i � lev terimler olarak adlandırılır, yani yazım veya anlatım

içinde i � levleri vardır ancak nakledilen enformasyon ile ilgili

de� illerdir.

10 Hans Peter Luhn (1896-1964). Alman uyruklu bir mühendistir. Bilgi geri-getirim’ in fikir babası olarak bilinir. � lk otomatik anahtar kelime indeksleme yöntemi olan (KWIC) ve enformasyonun seçici da� ıtımı (SDI- Selective Dissemination of Information) sistemlerini ortaya atan ki � idir.


122

Kel

imen

in ö

nem

i

Kelime frekansı

Önemliorta frekanslılarÖnemsiz

dü � ük frekanslarÖnemsiz

yüksek frekanslar

�ekil 7.2.1: Kelimelerin frekansları ile muhtemel enformasyonu temsile katkı miktarı

arasındaki ili � kinin çizgesi (Luhn, 1958, uyarlama).

Luhn çalı � masında kelimelerin ta� ıdı � ı anlamsal önemin

uygulama sahası konusunda � unları söylemi � tir:

“ ... Burada, kelimelerin bir makale içinde görülme sıklıklarının kelime öneminin ölçülmesi için kullanı � lı bir alt yapı hazırlayaca� ı önerildi. Ayrıca bir de önem de� eri atanmı � kelimelerin cümle içinde göreceli yerleri, cümlelerin öneminin belirlenmesinde kullanı� lı bir alt yapı hazırlar; Dolayısı ile bir cümlenin önem etmeni, bu iki ölçümün birle� imini esas alabilir. ...”

(Luhn, 1958)

Sinyal-enformasyon bakı � açısından (Bölüm 3.2.3), enformasyon

ile sinyal arasındaki ili � ki, anlamsal-enformasyon bakı � açısından

(Bölüm 3.2.1), enformasyon ile anlam arasındaki ili � kiden, köken

olarak farklıdır. Sinyal-enformasyon bakı � açısı içinde, gözlenme

olasılı � ı en dü� ük olan sinyal en yüksek enformasyona sahipken;

anlamsal-enformasyon bakı � açısından, Luhn tarafından tanıtılan kuram

gere� i, orta sıklıkta görülme olasılı � ına sahip kelimeler en yüksek

enformasyon de� erine sahip olmaktadır. Örne� in bir ba� lık altında

belirli bir konudan bahsederken nakledilmek istenen enformasyonu


123

temsil eden ve temsile yardımcı olan simge birlikleri sıkça geçer, yani

görülme olasılı � ı artar. Bu durum, söz konusu simge birliklerinin

sinyal-enformasyon de� erinin azalmasına sebep olurken; Luhn kuramı

gere� ince, belirli bir e� ik de� erinden sonra ve bir üst sınırdan önceki

aralıkta gözlenme sıklı � ına sahip olanların, anlamsal-enformasyon

de� erinin, aralı � ın dı � ında kalanlardan daha fazla olmasına sebep olur.

Luhn tarafından ortaya konan kelimelerin bir metin içindeki

gözlenme sıklıkları ile ta� ınan enformasyona katkı açısından önemleri

arasındaki ili � ki, aslında Zipf (1929; 1949) tarafından ortaya atılan ve

Asgari Gayret (Least Effort) ilkesi içerisinde geçen “birinci kanunu”

esas almaktadır (Manning and Schütze, 2003). Zipf birinci kanunu: bir

belge içindeki kelimelerin gözlenme sıklıkları büyükten küçü� e

sıralandı � ında, gözlenme sıklıkları (f) ile sıra numaraları (r) çarpılarak

elde edilecek sayısal de� erin (c), yakla� ık olarak sabit kalması olarak

tanımlanır (Çizelge 7.2.1; Denklem 7.2.1).

Çizelge 7.2.1: Zipf birinci kanunun, Tom Sawyer romanı üzerinde deneysel de� erlendirmesi (Manning and Schütze, 2003, uyarlama).

Kelime Sık ( f ) Sıra (r ) f x r Kelime Sık ( f ) Sıra (r ) f x r

the 3332 1 3332 comes 16 500 8000

and 2972 2 5944 group 13 600 7800

a 1775 3 5235 lead 11 700 7700

he 877 10 8770 friends 10 800 8000

but 410 20 8820 begin 9 900 8100

be 294 30 8820 family 8 1000 8000

there 222 40 8880 brushed 4 2000 8000

one 172 50 8600 sins 2 3000 6000

about 158 60 9480 could 2 4000 8000

more 138 70 9660 applausive 1 8000 8000


124

rfsabitrf

1 veya ∝≈×

(7.2.1)

Mandelbrot (Manning and Schütze, 2003) daha büyük derlemler

ile yaptı � ı çalı � malarda, Zipf tarafından verilen genellemenin aslında

detayları belirleyicilik noktasında, çok kötü oldu� unu ortaya

koymu� tur. Mandelbrot sıra ile sıklık arasındaki genel ili � kiyi

kelimelerin deneysel da� ılımına daha uygun olacak � ekildeki Denklem

7.2.2’de oldu� u � ekilde de� i � tirmi � tir.

)log(loglog veya)( ρρ +−=+•= − rBPfrPf B (7.2.2)

Denklem 7.2.2.’de P, B ve ρ metne ait parametrelerdir ve hep

birlikte metinde kullanılan kelime da� arcı � ının zenginli � ini ortaya

koyarlar. Zipf tarafından verilen özgün ili � kideki hiperbolik da� ılım

(Denklem 7.2.1), Denklem 7.2.2. için de geçerlidir. Denklem 7.2.2.

verilen ifade, logaritma ölçekli eksenler kullanılarak çizgeye

dönü� türüldü� ünde, sıralamanın (r) en yüksek de� eri için e� imi –B

olan bir do � ruya çok az hata ile uyum gösterir. E� er denklemde, B=1

ve ρ=0 alınırsa aslen, Zipf birinci kanunu için Denklem 7.2.1.’de

verilen ifadeye e� it oldu� u görülür. Mandelbrot tarafından, ifadede P =

105.4, B=1.15 ve ρ=100 parametre de� erleri için Brown külliyatı ile en

iyi uyumun yakalandı � ı belirtilmi � tir.

7.2.1. Zipf Güç Kanunları

Günümüzde, geleneksel BGG sistemlerinin, e� er hepsi de� ilse,

büyük bir kısmında, bir kelimenin metin içinde gözlenme sıklı � ı, bu

kelimenin metnin içeri � ini temsildeki önemini belirlemede en temel


125

özellik olarak kullanılmaktadır. Ayrıca, görülme sıklı � ı ile metin

içeri � ini temsildeki önem arasında ili � kiye ait, Luhn tarafından ortaya

atılan model de, en baskın olan, daha do� rusu tek modeldir. Bu

modelin kuramsal alt yapısı Zipf (1929; 1949) tarafından ortaya atılan

birinci güç kanunudur. Zipf birinci kanunu, Denklem 7.2.1.1.’de bir

do� ru denklemi � eklinde betimlenmi � tir.

)log()log( rBHf NNr −= (7.2.1.1)

Denklem 7.2.1.1.’de fr kelimenin gözlenme sıklı � ını (bazı

makalelerde fr göreceli frekans, yani kelimenin gözlenme olasılı � ı

olarak da yorumlanmaktadır. Bu anlamda iki yorum arasında ilke

açısından bir farklılık olmaz.), r sıra numarasını, HN ise bir sayısal

sabiti temsil etmektedir. HN derlem büyüklü� üne (N) ba� ımlı, ancak

sıra numarasından (r) ba� ımsız bir sabittir. Ayrıca, büyüklü� ü artarak

sonsuza giden bir derlem için, bu do � ru uydurulmaya çalı � ılırsa, BN

de� eri de derlem büyüklü� üne ba� ımlı olacaktır. Denklemden de

anla� ıldı � ı gibi, Zipf, kelimelerin gözlenme sıklıklarının logaritması ile

bu kelimelerin gözlenme sıklıkları sıralandı � ı zaman ortaya çıkan sıra

numaralarının logaritmaları arasında do� rusal ili � ki oldu� unu belirtir.

Bu do � rusal ili � ki, negatif bir e� imine, -BN sahiptir, yani sıklık ile sıra

numarası arasında ters orantı vardır. Aslen Zipf, bu kanunları ortaya

koyarken, kelimelerin kar � ıladı � ı anlamların görüldükleri metnin

içeri � ini olu� turmada önemleri konusuna, do� rudan model olduklarını

belirtmemi � tir. Bu konu Luhn (1958; 1960) tarafından, Zipf

kanunlarının bir uzantısı olarak ortaya konmu� tur. Luhn, içeri � i

olu� turan kelimelerin sıklıklarının, metnin içinde orta seviyeli

oldu� unu, çok yüksek ve çok dü� ük frekanslara sahip kelimelerin içerik

için önemli olmadı � ını söylemi � tir. Bu iddia, halen BGG sahasında

geçerlidir ve yaygın � ekilde de kullanılır.


126

Zipf tarafından ortaya atılan kuram üzerinde çok tartı � ılan bir

konu olmu� tur (Herdan, 1960; Mandelbrot 1952, 1959; Simon, 1955)

ve halen tartı � ılmaktadır (Baayen 1996, 2001; Kornai, 2002; Powers,

1998; Samuelsson, 1996; Turner, 1997). Bazı yazarlar “Zipf kanunu”

kelimesini sadece Denklem 7.2.1.1.’deki ili � kide e� imin bir oldu� u,

yani BN=1 oldu� u durum için kullanmaktadırlar. Çünkü, e� imin birden

büyük olması (B >1), derlem için, açık kelime da� arcı � ı; e� imin birden

küçük olması (B < 1) ise kapalı kelime da� arcı � ı anlamına gelmektedir.

Zipf tarafından ortaya konan ilk kanun ile yakından alakalı, bir

ikinci Zipf kanunu daha vardır ve Zipf ikinci kanunu olarak adlandırılır.

E� er V(i,N), i kere rastlanan farklı kelime � ekli/biçimi sayısı olarak

kabul edilirse, i kere rastlanan farklı kelime � ekli sayısı ile sıra

numaraları arasındaki ili � kiyi betimleyen, Zipf ikinci kanunu Denklem

7.2.1.2.’de verildi � i gibi olacaktır. Denklemde verilen Zipf ikinci

kanunu ile birinci kanununun yorumlanması benzer � ekildedir.

)),(log()log( NiVDKi NN −= (7.2.1.2)

Hesaplamalı dilbilim sahasında Zipf kanunlarına atıfta

bulunuldu� unda, genellikle inceledi � imiz birinci ve nadiren de ikinci

kanun kastedilir. Ancak, Zipf “en az gayret ilkesi” çerçevesinde ba� ka

kanunlarda ortaya atmı � tır. Bunlardan biri, kelimelerin anlamlarının,

gözlenme sıklıkları ile ili � kili oldu� udur. Bir ba� ka söyleyi � le, Zipf, bir

konu� macının anlatmak istedi � ini, tüm anlamları kar � ılayan tek bir

kelime ile yapmayı tercih edece� ini; ancak, dinleyicinin her anlam için

tek bir kelime duymak isteyece� ini belirtmi � tir. Bu öyküde, tarafların

e� it etkilerinin oldu� u kabul edilince, Zipf, bir kelimenin farklı anlam

sayısının ϖ , frekansının karekökü ile do � ru orantılı oldu� unu, dolayısı


127

ile bir kelimenin farklı anlam sayısının, sıra numarası ile ters orantılı

olup, r/1=ϖ denkleminden elde edilece� ini söylemi � tir.

Zipf tarafından verilen bir di � er kanun da, içeri � i olu� turan

kelimeleri, metin içinde bazı yerlerde yı � ılım gösterece� idir. E� er bir

derlemde, her kelimenin metin içinde gözlendi � i yerlerin araları satır

veya sayfa sayıları cinsinden sıklık, F olarak ölçülürse; Zipf, belirli bir

uzunlu� un, I’ nın derlem içinde gözlenme sıklı � ı i le ters orantılı

oldu� unu belirtmi � tir: pIF −α (Zipf � ngilizce için gözlenme sıklı � ı en

fazla 24 olan kelimeler için 260,000 kelimelik bir derlemde yaptı � ı

çalı � mada p de� erinin 1 ile 1.3 arasında de� i � ti � i saptanmı � tır). Bir

ba� ka söyleyi � le, Zipf içerik kelimelerin metin içinde gözlemlendi � i

yerin ço� unlukla bir di � er gözlemlendi � i yerle yakın oldu� unu

belirtmektedir. Bu olay, bilgi geri-getirim sahasında ta� ma (burstness)

olarak adlandırılır. � çerik kelimelerin belirlenmesinde kullanılan bir

özelliktir. Uygulama sahasında, çe� itl i yöntemlerle icra edilmektedir.

Zaten, geleneksel geri-getirim yöntemleri içinde en yaygın olan,

TFxIDF yöntemindeki IDF (Inverse Document Frequency – Devrik

Belge Frekansı) etmeninin esas aldı � ı kuramsal fikir de budur: bir

kelime, bir belge toplulu� u içinde ne kadar az belgede gözleniyorsa, o

belge toplulu� unda o kadar içerik kelime olma özelli � i ta� ıyor

demektir.

Mandelbrot (1952), klasik “ maymun ve daktilograf” öyküsü

üzerinden, Zipf birinci kanunu sınamı � tır. Söz konusu öyküde

kelimeler, daktilonun tu� larındaki sembollerden birisi kelime sınırı

olacak � ekilde, elde edilecek en uzun sembol birli � i olarak kabul

edilmektedir. Mandelbrot, e� er bu öyküde, yeni sembollerin rastsal

olarak üretildi � i kabul edilirse, Zipf birinci kanunu ifadesine ait e� imin

birden büyük oldu� u durumda, (B > 1) uyumun sa� lanabildi � ini


128

ispatlamı � tır. Ayrıca, Zipf birinci kanunun, derlemdeki detayları çok iyi

modelleyemedi � ini, sıra numarasının küçük de� erleri için yukarıda, sıra

numarasının büyük de� erleri için de a� a� ıda kaldı � ını belirterek, bu

özellikleri daha iyi temsil eden, Zipf birinci kanunun bir türevi olan bir

ba� ka denklem ortaya koymu� tur (Denklem 7.2.1.3.).

)log()log()1()1log()log( WrBWBBf r +−−+−= (7.2.1.3)

Mandelbrot, Zipf birinci kanununa yeni bir W>0 parametresi

katmı � tır. Bu parametrenin amacı, e� imin birden büyük olması

durumunda (B>1), göreceli frekansların toplamının bire e� it olmasını

sa� layarak, gerçek bir olasılık da� ılımını korumaktır (Aslen bu

denklem, B>1 kabullenmesi ile geçerli olmaktadır). Bu düzeltme ile,

kelimelere atanacak göreceli frekansların toplamı Denklem 7.2.1.4.’de

verildi � i � ekilde bire e� itlenmektedir.

1)1( )1(0 =

�−≈

� ∞ −−∞=

W

BBr r dxxWBf (7.2.1.4)

Denklem 7.2.1.3.’de W parametresi sabit olarak alınsa dahi,

do� runun )(NVr > oldu� u alan üzerine, BBN /)1( − kadar bir olasılık

yo � unlu� u da� ıtılacaktır. Ancak bu hata, derlem büyüklü� ü (N)

sonsuza giderken sıfıra e� it olaca� ından, büyük derlemler üzerinde

yapılan çalı � malarda W parametresi belirli sabit olarak

alınabilmektedir. Dolayısı ile, Mandelbrot denkleminin uygulamaya

daha yatkın bir biçimi, Denklem 7.2.1.5.’de verildi � i � ekilde

tanımlanabilir.

)log()log()log( WrBPf NNr +−= (7.2.1.5)


129

7.3. Otomatik � ndeksleme

Bir indeks terimin anlamla ili � kili iki i � levi vardır: temsil ve ayırt

etme. Temsil i � levi ile, indeks terimin belge içeri � ini olu� turan

muhtemel enformasyonu kar � ılaması zorunlulu� u � eklinde tarif edilir

(anma i � levi). Ayırt etme i � levi de, belge uzayındaki belgelerin

birbirlerinden ayırt edilebilmesini mümkün kılmasıdır (duyarlılık

i � levi).

Temsil ile ayırt etme arasında bir rekabet söz konusudur. Bir

ba� ka söyleyi � le, e� er bir terimin ayırt edicilik de� eri dü� ükse, belge

toplulu� undan çok sayıda belge sonuç olarak döndürülecektir, dolayısı

ile sorgu ile alakalı belge veya belgeler alakasız belgelerin kalabalı � ına

gömülecektir. Aynı, � ekilde e� er bir indeks terimin ayırt edicili � i çok

yüksekse, sorgu ile direk alakalı olmayıp, ancak çok yakın ili � kide olan

belgeler sonuç kümesinde yer almayacaktır. Uygulamada, otomatik

indeksleme ile amaçlanan bu iki i � levin, yani temsil ve ayırt etmenin,

rekabeti içindeki en yüksek de� erlere ula� maktır. Temsil ve ayırt etme

de� erlerini, rekabet içerisinde söz konusu en uygun de� erlere çekmeyi

hedefleyen pek çok indeks terim a� ırlıklandırma yöntemi

geli � tirilmi � tir (Manning and Schütze, 2003).

Temsil i � levi için, a� ırlıklandırma yöntemlerinde yaygın olarak

esas alınan indeks terim özelli � i, indeks terimin gözlenme sıklı � ıdır,

yani frekanstır. Ayırt etme için çe� itli yöntemler önerilmi � tir: ters belge

frekansı (inverse document frequency-idf), sinyal-gürültü oranı (signal-

noise ratio) ve terim ayırt etme de� eri (term discrimination value) bu

yöntemlere verilebilecek yaygın kullanımı olan örneklerdir.


130

Ters belge frekansı (idf) ile belge ayırt etme i � levinin

a� ırlıklandırma için kullanımı, Bölüm 6.1.’de, yani vektör uzayı geri-

getirim modeli incelenirken gösterilmi � ti. Bu ayırt etme yönteminin

esas aldı � ı fikir: bir terimin, derlem içinde gözlendi � i belge sayısı

azaldıkça, gözlendi � i belgeler açısından ayırt edicili � inin artaca� ı

� eklindedir. Bir indeks terim, k için, ters belge frekansı de� erinin

hesaplanmasına yönelik Sparck Jones (1972) tarafından önerilen ifade,

Denklem 7.3.1.’de gösterilmi � tir.

kk

k nnn

nidf 222 loglog1log1 −+=+= (7.3.1)

“ idf” için verilen denklemde n, derlemdeki toplam belge sayısı,

nk ise, k indeks teriminin gözlendi � i belge sayısıdır. Ters belge frekansı

ölçü olarak bir indeks terimin tüm a� ırlı � ı olarak kullanılmaz. Bunun

sebebi, örne� in belge sayısı olarak sıklıkları aynı olan terimlerin

tamamı, idf de� eri olarak e� itlenir. Ancak, terimlerin her biri, her

belgede aynı sıklıkta gözlenmezler. Dolayısı ile, terimlerin belge içinde

gözlenme sıklılıkları ile ters belge frekansları birlikte kullanılır. Bu

birlikte kullanım TFxIDF olarak adlandırılır ve Denklem 7.3.2.’de

verilmi � tir.

IDFTFnntfw kkiki ×=−+×= ]loglog1[ 22,, (7.3.2)

Robertson ve Sparck Jones (1997), TFxIDF a� ırlıklandırma

� emasında belgelerin uzunluklarını da hesaba katan bir geli � tirme

önermi � leridir. Bu a� ırlıklandırma � emasında, üç enformasyon kayna� ı

kullanılmı � tır: derlem frekansı (IDF), terim frekansı (TF) ve belge

uzunlu� u. Bu indeks terim a� ırlıklandırma � emasında, farklı olarak

belge uzunlu� unu kullanımının arkasındaki fikir, uzun ve kısa belgeler


131

arasında, terimlerin gözlenme frekansları arasındaki farkın, terimin

“önem” ba� lamına etkisinin olmadı � ı, dolayısı ile uzun belgelerle, kısa

belgeler arasında bir aynı ölçekte ölçüm alınması için frekansların

normalle� tirilmesidir. Belge uzunlukları, içerdikleri terim sayısı

cinsinden ölçülmektedir. Dolayısı ile, i belgesindeki toplam terim

sayısı, BUi ile temsil edildi � inde, bu i belgesi için normalle� tirilmi �

belge uzunlu� u, “ NBUi = BUi / (ortalama belge uzunlu� u)” � eklinde

hesaplanmaktadır. Normalle� tirilmi � belge uzunlu� unun da hesaba

katıldı � ı a� ırlıklandırma � eması, k terimi için, Denklem 7.3.3.’de

verilmi � tir.

kii

kkiki tfNBUbbK

Kidftfw

,

,, ))(1(1

)11(

+⋅+−⋅+⋅⋅

= (7.3.3)

Denklemde, K1 ve b uyarlama sabitleridir. K1 sabiti i le terim

frekansının etkisi geni � letilir. Bu sabitin, en iyi de� eri belirlenmi � bir

derlem üzerinde yapılan denemelerle tespit edilir. TREC (Text

Retrieval Conferences) çalı � maları sırasında, K1=2 de� erinin etkin bir

de� er oldu� u tespit edilmi � tir. Uyarlama sabitlerinden ikincisi olan b

ise, belge uzunlu� unun etkisini ayarlamaktadır. Bu sabit 0 ile 1

arasında de� i � mektedir. E� er, b=0 olursa, belgelerin birden fazla konu

ba� lı � ı içermesi dolayısı uzun oldu� u kabul edilir. E� er, b=1 olursa,

belgelerin tekrarlar yüzünden uzun oldu� u kabul edilmi � olur. TREC

çalı � malarında b=0,75, en uygun de� er olarak saptanmı � tır.

Buckley (1996) ve arkada� ları tarafından, TREC-4 çalı � malarında

tanıtılan bir di � er indeks terim a� ırlıklandırma yöntemi de ltu � emasıdır

(Denklem 7.3.4.).


132

NBU

idftfw

i

kkiki ⋅+

⋅+=

2.08.0

)1)(log( ,, (7.3.4)

Bir di � er TFxIDF türevi a� ırlıklandırma � eması da, Okapi olarak

adlandırılandır (Robertson and Walker, 2000). Okapi, kuram olarak

Poisson da� ılımını esas almaktadır, daha do� rusu 2-Poisson olarak

adlandırılan terim da� ılım yakla� ımına dayanmaktadır (Van Rijsbergen,

1979). Okapi a� ırlıklandırma � eması ile, bir terimin bir belge için

a� ırlı � ı Denklem 7.3.5.’de verilmi � tir.

idf

idfN

tfNBU

tfw

k

k

kii

kiki )

5.0

5.0log(

5.15.0 ,

,, +

+−+⋅+

(7.3.5)

Sinyal-gürültü oranı, sinyal-enformasyon kuramını esas alır

(Bölüm 3.2.3). Sinyal-enformasyon fikrinde, bir kelimenin gözlenmesi

olasılı � ı arttıkça, ta� ıdı � ı, yani kar � ıladı � ı enformasyon de� eri dü� er.

Sinyal-enformasyon fikri ile benzer � ekilde, bir terime k, ait gürültü de

hesaplanabilir (Denklem 7.3.4).

Gürültük

ki

kn

i k

ki

tf

F

F

tf

,2

1

, log�==

(7.3.4)

Denklem 7.3.4.’deki ifadede, Fk, k teriminin derlem içindeki

toplam gözlenme sıklı � ı, tfi,k ise i belgesinde k teriminin gözlenme

sıklı � ıdır. Derlemdeki toplam belge sayısı n ile temsil edilmi � tir. Bir

içeri � i temsil etmeyen, yani i � levsel olan kelimeler derlem içerisinde

daha yaygın gözlenece� i için, sahip oldukları gürültü de� eri de yüksek

olacaktır. Dolayısı ile bir k terimin sinyal de� eri hesaplanırken,

gürültünün tersi, yani tamlayanı kullanılabilir (Denklem 7.3.5.).


133

Sinyalk −= kF2log Gürültük (7.3.5)

E � er, bir belgenin indeks terimlerine ait sinyal de� erleri büyükten

küçü� e sıralanırsa, belge uzayında çok az belgede gözlenen ve sıralama

yapılan belgeyi ayırt edenlerinin çok yüksek sinyal de� erlerine sahip

oldu� u görülür. Temsil i le ayırt etmenin enformasyonunu birlikte

kullanmak için sinyal de� eri, terimin frekansı ile çarpılır (Denklem

7.3.6.).

wi ,k = tfi ,kxSinyalk (7.3.6)

Terim ayırt etme de� eri, belirl i bir terimin, bir belgeyi di � erinden

ayırt etmek için ne kadar enformasyon sa� ladı � ının bir ölçüsüdür. Bir

terimin k, ayırt etme de� eri, ADk, iki belgenin benzerli � ini içerdikleri

terimler üzerinden hesaplanması ile elde edilen benzerlik de� eri, BD

ile, k terimi belgelerden çıkarıldıktan sonra hesaplanan benzerlik

de� eri, BDk, kar � ıla� tırılarak hesaplanabilir (Denklem 7.3.7.).

ADk = BDk - BD (7.3.7)

Ayırt etme de� erleri hesaplanan terimler, daha sonra üç gurup

altında toplanır:

1. Ayırt edicilik de� eri pozitif olan terimler. Bu terimler, güçlü indeks terimlerdir.

2. Ayırt edicilik de� eri sıfır olan terimler. Bu terimlerin indeks terimler listesinden çıkartılması veya bırakılması belgeler arası benzerli � i etkilemez.

3. Ayırt edicilik de� eri negatif olan terimler. Bu terimler, zayıf indeks terimlerdir ve çıkartılmaları belgelerin benzerli � ine katkıda bulunmaktadır.


134

Terim ayırt etme de� eri de, öncekilerde oldu� u gibi yine

terimlerin frekansı ile çarpılarak indeks terim a� ılı � ı olarak

kullanılabilir (Denklem 7.3.8.).

wi ,k = tfi ,k x ADk (7.3.8)

7.3.1. � ndekslemenin Kapsamı ve Ter im Öznelli � i.

Geleneksel olarak, bir indeksleme sisteminin ba� arımının iki

etmene ba� lı oldu� u dü� ünülür: indekslemenin kapsamı ve terim

öznelli � i. Kapsamlı bir indeks, çok sayıda indeks terim içerir, fakat

kapsamı dar olan bir indeks, sadece en önemli konuları, kavramları

kar � ılayan indeks terimleri içerir. Daha kapsamlı bir indeks demek,

daha fazla belgenin geri-getirilece� i anlamına gelir ve anma de� eri

yükselir. Aynı zamanda, geri-getirilen belgeler arasındaki alakasız

belgelerin oranı da artar, dolayısı ile duyarlılık azalır. Anma ve

duyarlılık arasındaki rekabet bu ba� lamda ortaya çıkar.

Di � er taraftan, terim öznelli � i, indeks terimlerin konu ve

ba� lıkları kesinlik içerisinde kar � ılayabilmeleri ile alakalıdır. E � er

indeks terimler çok yüksek de� erlerde öznelli � e sahiplerse, bu

duyarlılı � ı arttırabilir, yani çok az sayıda belge geri-getirilece� i için

ço� u sorgu ile alakalı olacaktır. Geni � anlam içeren terimler, dar anlam

kar � ılayan terimlerde oldu� u � ekilde alakalı dokümanlarla, alakasızlar

birbirinden ayırt etmekte kullanılamazlar. Dar ve öznel terimlerin

kullanılması anmaya etki eder, bunun sebebi ise, alakasız belgelerle

birlikte bir çok alakalı belgenin de geri-getirilmemesidir.


135

Ayırt edicilik de� eri sıfıra yakın, dü� ük frekanslı, dar anlamlı

kelimeleri, e� anlamlı kelimeler sözlü� ü kullanarak daha geni � bir

gurup altında toplamak mümkündür. Aynı � ekilde, ayırt edicilik de� eri

negatif olan, yüksek frekanslı, geni � terimleri de, bir araya getirerek,

yani kelime gurubu olarak de� erlendirerek kullanmak mümkündür.

Örne� in, “ i � ” ve “ güç” kelimelerini tek ba� larına dü� ündü� ümüzde,

kavram olarak çok geni � tirler. Ancak “ i � gücü” � eklinde ele

alındı � ında, ekonomide kullanılan bir kavramı kar � ılarlar ve tekil

oldukları durumdan daha dar bir terimsel anlam kar � ılarlar.

7.3.2. Kelime Gurupları ile � ndeksleme

Tek kelimeden ibaret indeks terimler yerine, iki veya daha fazla

kelimeden olu� mu� , kelime gurupları ile indeks terim olu� turmak, geri-

getirim duyarlılı � ını artırıcı bir etki yaratır. Tekil kelimelerden indeks

terimler yaratmak iki çe� it meseleyi gündeme getirmektedir (Zhai et al.,

1997):

1. Tek kelimeden olu� an indeks terimler yanıltıcı olabilir. Sözcüksel atom11 ba� lamında, örne� in “ hot dog” (sosisli sandviç), kelime gurubunu olu� turan bireysel kelimeler birlikte kar � ıladıkları anlamı ta� ımamaktadır ve bireysel olarak indeks terim olarak kullanılırlarsa, çok yanıltıcı olurlar.

11 Zhai ve Evans, “sözcüksel atom” terimini, anlamca tutarlı kelime gurubu olarak tanımlamaktadır. Sözcüksel atomlar, özel isimlerde, deyimlerde ve bir çok isim tamlamasında bulunabilmektedir. Sözcüksel atomu olu� turan kelimelerin, tekil anlamları ile, birlikte ifade ettikleri anlam arasında bir ili � ki yoktur.


136

2. Çok genel olabilirler. Örne� in, bireysel kelime olarak “ junior” (çömez) ve “college” (yüksekokul) kelimeleri, “college junior” (yüksekokul çömezi, yani yüksekokulda yeni olan, tecrübesiz) kelime gurubunu, “ junior college” (yüksekokul, yani üniversitenin ilk iki yıllık e� itimini veren yer) kelime gurubundan ayırt etmek için çok genel kalmaktadır.

Zhai ve arkada� ları, yukarıdaki tespitlerin ardından, iki hipotez

öne sürmü� lerdir:

1. Sözcüksel atom ba� lamındaki kelime guruplarının, onları olu� turan bireysel kelimeleri yerine indekslenmesi, hem duyarlılı � ı hem de anmayı arttırır.

2. Bireysel kelimeleri desteklemek için, sözdizimsel kelime guruplarını kullanmak, örne� in “ junior college” , anmaya bir ters etkide bulunmadan, duyarlılı � ı arttıracaktır. Bu � ekildeki kelime guruplarının sayısını arttırmak, duyarlılıktaki ilerlemeyi arttıracaktır.

Bu hipotezler, TREC-5 çalı � malarının do � al dil i � leme aya� ında,

Zhai ve arkada� ları tarafından test edilmi � tir (CLARITTM takımı12).

Sonuçlar göstermi � tir ki, bireysel kelimeler yerine sözcüksel atomların

kullanılması, ortalama duyarlılıkta az da olsa tutarlı bir artı � ın oldu� unu

göstermi � tir. Di � er taraftan, bireysel kelimelerin, sözdizimsel kelime

gurupları ile desteklemesi, geri-getirim ba� arımında tutarlı ve anlamlı

bir artı � ortaya koymu � tur. Ancak, kelime guruplarının eklenmesi bazı

sorguların lehine olurken, bazı sorguların aleyhine sonuçlar vermi � tir. Kelime guruplarının faydasının en yüksek oldu� u durumlar, aynı

12 CLARIT, CLARITECH firmasının kayıtlı ticari markasıdır ve Computational-Linguistic Approaches to Retrieval and Indexing of Text için akronomidir. Bu sistem Carnegie Mellon Üniversitesinde geli � tirilmi � tir (Laboratory of Computational Linguistics, CMU Pittsburgh).


137

kelime gurubunun hem sorguda hem de belgede gözlendi � i zamanlar

olmu� tur.

Bilgi geri-getirim sistemlerinin ço� u tekil kelimeleri indeksleme

için kullanır. Ancak, sıklıkla indekslere, basit istatistiksel yöntemlerle

tespit edilmi � kelime gurupları da destek olmak amacıyla alınır.

Dilbilimsel yöntemlerle tespit edilecek kelime guruplarının, geri-

getirim ba� arımı üzerinde daha etkili sonuçlar verece� i dü� ünülebilir.

Fakat, TREC çalı � malarında, dilbil imsel yöntemler, istatistiksel

yöntemlerden anlamlı � ekilde farklılık yaratamamı � tır.

Basit ve klasik kelime gurubu olu� turma yöntemlerinden biri,

SMART sistemi içinde kullanılan yöntem olan, gövdelenmi �

kelimelerin yan yana getirilmesidir. � ndeksleme için kullanılacak olan

kelime gurupları, gözlenme sıklı � ı yüksek olanlardan seçilmekte ve

daha sonra, bireysel kelimelerin, indeks terim olarak a� ırlıklandırılması

ile aynı � ekilde a� ırlık hesaplanmaktadır (Buckley et al., 1995). Xerox

takımı bu basit SMART yöntemi ile hafif ayrı � tırma (light parsing)

yöntemini TREC-5 çalı � masında kar � ıla� tırmı � tır. Sonuç olarak,

öni � lem a� amasında çok zaman harcama pahasına, hafif ayrı � tırmanın,

basit SMART yöntemine göre nispeten daha iyi oldu� u bulunmu � tur.

Hull ve arkada� ları (1997) � u sonuçlara varmı � lardır:

“ Her � eye ra� men, bir çok sebepten ötürü, bu yakla� ımın uzun vadede kullanı� lı olaca� ı konusunda iyimseriz: 1-) � ngilizce dı� ındaki bir çok dilde, Bilgi geri-getirim sahasından daha yo� un bir � ekilde, dilbilim sahasında çalı � malar yapılmaktadır. Bu diller için geli � tirilen biçimbirimsel analiz yordamları, basit gövdeleme yordamlarını, � ngilizce için geli � tir ilmi � gövdeleme yordamları kadar ya� lanınca, ba� arım olarak geçeceklerdir. 2-) Bilgisayarlar daha güçlü hale geldikçe, i � lem zamanları dü� meye devam edecek, dolayısı ile karma� ık metin analizlerini ekonomik olarak mümkün hale getirecektir.”

(Hull et al., 1997)


138

7.4. Hesaplamalı Dilbilim Yöntemler i.

Son yıllarda, çok farklı bilgi geri-getirim teknikleri, TREC (Text

REtrieval Conferences) çalı � maları içerisinde sınandı ve kar � ıla� tırıldı.

Örne� in, 1997 yılında düzenlenen TREC-6 çalı � masına, 12 ülke ve 21

firmadan 51 ki � i katılmı � tır (Voorhees and Harman, 1998). Tüm

katılımda bulunan takımlar, aynı talim ve test malzemelerini

kullanmı � lardır. Böylece, sonuçlar birbiri ile kar � ıla� tırılabilmi � tir.

Sparck Jones (1995), a� a� ıdaki noktalara de� inerek TREC

deneylerinin sonuçlarını vermi � tir:

1. Model ile ilgil i sorular.

1.1. Dilbilimsel esasa dayalı modeller, istatistik esasındaki modellerden daha iyi midir? CMU’nun çalı � ması (CLARIT), dilbilimsel yöntemlerinde iyi ba� arım de� erlerine ula� tı � ını göstermi � tir, ancak istatistiksel yöntemlerden daha iyi de� ildir.

1.2. Dilbilimsel esasa dayalı kelime gurupları, e� le� tirme ile olu� turulanlardan daha de� erli midir? Dilbilimsel esasa dayalı kelime guruplarının kullanımı, yan yana olma ile belirlenen kelime guruplarının kar � ısında bir kazanç sa� lamamı � tır

2. Kelime da� arcı � ı ile ilgil i sorular.

2.1. Bireysel kelimelerle indeks terim olu� turma kar � ısında, kelimeleri de� i � ik biçimlerde indeksleme fayda getirir mi? Bazı çalı � malarda az da olsa ba� arım artırımı sa� lanmı � tır, ancak bireysel kelime indekslemeden anlamlı � ekilde farklılık ortaya konmamı � tır.

2.2. Dilbilimsel bilginin artırımı gerekli midir? Elle olu� turulan e� anlamlılar sözlü� ü, anlamlı bir ba� arım artırımı sa� layamamı � tır.


139

3. Tanımlama ile ilgili sorular.

3.1. Dilbilgisine dayalı indeksleme yöntemleri, istatistik esaslı indeksleme yöntemleri kar � ısında daha etkili midir? Belge terimlerinin seçiminde kullanılan yöntem içinde, dilbilgisi özellikleri açık bir kazanç sa� lamamı � tır.

3.2. � statistiksel veya dilbilimsel kelime gurupları, bireysel kelimelere göre daha iyi midir? Bireysel kelimelere nazaran, kelime guruplarının kullanımı az da olsa lehte sonuçlar vermi � tir.

Strzalkowski ve arkada� ları (1998), do � al dil bilgi geri-getirim

için düzenlenen TREC-6 çalı � masının sonuçlarını � öyle özetlemektedir:

“ Çalı � malardan edindi � imiz temel tespit, do� al dil i � leme tekniklerinin, daha iyi indeksleme, sorgulara ait terimlerin daha iyi temsil edilmesi gibi beklentilerimizin çok uza� ında sonuçlar vermemi � oldu� udur. Dilbilimsel birliklerin kullanılması, örne� in kelime gurupları, ba� -niteleyen çiftleri ve isimler geri-getirim duyarlı� ının geli � tir ilmesine yardımcı olmu� tur, ancak kazanım çok az düzeylerdedir.”

(Strzalkowski et al., 1998)

Yukarıdaki alıntılar, do� al dil i � leme veya di � er adıyla

hesaplamalı dilbilim yöntemlerinin, bilgi geri-getirim içerisindeki

durumunu özetlemektedir. TREC ba� lamındaki çalı � malardan elde

edilen sonuçlar, hesaplamalı dilbilim yöntemlerinin etkileri konusunda

sonuçsuz kalmaktadır. Ancak, bu durum hesaplamalı dilbilim esasında

bilgi geri-getirim çalı � malarının faydasız veya nafile u� ra� lar oldu� u

anlamına gelmemektedir. TREC içerisindeki en iyi sistem bile,

öngörülen ula� ılabilir ba� arım seviyesine varmamı � tır. Dolayısı ile,

geri-getirim tekniklerinin geli � tirilmesine olan ihtiyaç ilk zamanlardaki

kadar kuvvetlidir.


140


141

8. BA � ARIM ÖLÇÜTLER �

Bilgi geri-getirim sistemlerinin ana hedefi kullanıcının, yani

insanların enformasyon ihtiyaçlarını kar � ılamaktır. Bir insanın kendi

ihtiyaçları ile alakalı buldu� u enformasyon, bir ba� ka kullanıcı için pek

o kadar da alakalı olmayabilir. Hatta, insanlar sıklıkla verilen bir sorgu

ile geri-getirilen belgelerin alakalı oldukları konusunda anla� mazlık

gösterirler (Hersh et al., 1995). � nsanlar arasındaki anla� mazlı � ın ortaya

çıkması ihtimali, belgeler ile sorgular arasındaki alakanın mutlaklıktan,

bir derece alakalı olu� a do� ru gidi � i yönünde artı � gösterir. Ayrıca,

alaka sadece sorgu ve eldeki belge toplulu� una ba� lı da de� ildir,

alakaya karar veren ki � inin o anki istekleri, yani ihtiyaç ba� lamı ile de

yakından ili � kilidir. Belirtildi � i gibi, “BGG sistemlerinin hedefinde

insanların enformasyon ihtiyacını kar � ılamak” oldu� u için, öznellikten

kurtulmanın bir yolu da yoktur. Bu yüzden, bilgi geri-getirim

sistemlerinin ba� arımlarının ölçülmesi kendi do � asında içinde, sorunlu

bir durum te� kil eder.

8.1. Anma ve Duyar lılık Esasında Ölçüt Tür ler i.

BGG sistemlerinin, ba� arımlarının de� erlendirilmesinde yaygın

olarak kullanılan yöntemler, anma (recall) ve duyarlılık (precision)

fikrini esas almaktadır (Baeza-Yates and Ribeiro-Neto, 1999). Bu

yüzden, BGG sistemlerinin ba� arım ölçütlerini vermeden önce, anma

ve duyarlılık fikrinin tanıtılmaya ihtiyacı vardır. BGG u� ra� sahasında

geri-getirim meselesi, � u � ekilde kurgulanabilir: bir sorgu kar � ısında,

eldeki belge uzayı içinde alakalı olan belgeler toplulu� unu hedef

kümesi olarak; sistemin, belge toplulu� undan seçerek kullanıcıya


142

döndürdü� ü belge toplulu� unu da, seçim kümesi olarak

adlandırdı � ımızı kabul edelim. Söz konusu durum, � ekil 8.1.1.’de

gösterildi � i gibi çizge olarak betimlenebilir. Belge toplulu� u içindeki

her belge için, sistem tarafından seçilmi � “ olma” ve “olmama” ile sorgu

ile alaka açısından, hedefte “ olma” (alakalılar) ve “ olmama”

(alakasızlar) durumları birbirinden ba� ımsız olarak geçerlidir. E � er

seçim (S) ve hedef (H) ile yapılan sınıflandırmayı iki olasılık de� i � keni

olarak tanımlarsak, bu iki olasılık de� i � keninin, belge uzayı üzerindeki

birle� ik da� ılımları bir 2x2 ihtimal tablosu � eklinde özetlenebilir

(Çizelge 8.1.1.).

Belge Uzayı (B)

Hedef BelgeToplulu � u� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � ��

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � ��

Seçilen BelgeToplulu � u

dp yn

dn

yp

�ekil 8.1.1. Anma ve duyarlılık ölçümlerini betimleyen çizge. Seçilen = yp + dp;

Hedef = dp + yn; dn = B - (Seçilen+Hedef).

Seçim, S de� i � keni belge uzayını seçilmi � ve seçilmemi � olmak

üzere iki parçaya ayırır. Hedef, H de� i � keni de, belge uzayını, gerçekte

sorgu ile alakalı olanlar ve olmayanlar diye iki parçaya ayırır. Dolayısı

ile, belgelerin her biri için seçilmi � olma/olmama ve hedefte

olma/olmama � eklinde ikili bir sınıflandırma, yani dört guruptan birine


143

ait olma durumu söz konusu olur. Bu guruplar: seçilmi � ancak gerçekte

alakasız olan belgeler, yani yanlı � -pozitifler (yp); seçilmi � ve gerçekte

de alakalı olan belgeler, yani do� ru-pozitifler (dp); seçilmemi � ancak

gerçekte alakalı olan belgeler, yani yanlı � -negatifler (yn); seçilmemi �

ve gerçekte de alakasız olan belgeler, yani do � ru-negatiflerdir (dn).

Çizelge 8.1.1: Seçilmi � (S) ve hedef (H) olasılık de� i � kenlerinin birle� ik da� ılımının 2x2 olasılık tablosu olarak gösterimi.

Sistem Alakalı (h) Alakasız (~h) Toplam

Seçilmi � dp yp dp+ypSeçilmemi � yn dn yn+dn

Toplam dp+yn yp+dn

Gerçek

Duyarlılık (D), bir sistemin seçti � i, gerçekte alakalı belge

sayısının (dp), toplam seçilmi � belge sayısına (dp+yp) oranı � eklinde

tanımlanır:

ypdp

dpD

+= (8.1.1)

Anma (A), bir sistemin seçti � i, gerçekte alakalı belge sayısının

(dp), toplam hedef belge sayısına, yani gerçekte alakalı olan toplam

belge sayısına (dp+yn) oranı � eklinde tanımlanır:

yndp

dpA

+= (8.1.2)

Sistemlerin ba� arımı, anma ve duyarlılık ile de� erlendirilirken,

genellikle iki ölçüt birbiri ile rekabet içinde kullanılır, yani bir sistemde


144

her ölçütünde en iyi de� erleri yakalanmaya çalı � ılır (Belge uzayındaki

tüm belgeleri geri-getiren (seçen) bir sistem çok yüksek bir anma

de� erine sahip olur, ama çok dü� ük bir duyarlılı � ı olacaktır.). Bir

sistem için iki ölçütün söz konusu rekabeti, temsili olarak � ekil

8.1.2.’de betimlenen çizgeye benzer � ekilde olacaktır.

1

10

D

A

�ekil 8.1.2. Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki rekabetin

temsili çizgesi.

Anma ve duyarlılık ölçülerini, iki ayrı ölçüt olarak ele alıp, bir

sistemin ba� arımını aralarındaki rekabet ile izah etmenin yanında, iki

ölçütü birle� ik olarak, yani tek bir ölçüt � eklinde tanımlamak ve

kullanmak mümkündür. Bunun bir yolu, van Rijsbergen (1979)

tarafından tanıtılan E-ölçüsünden türetilmi � F-ölçüsünü ( F = 1 – E )

kullanmaktır:

AD

F1

)1(1

1

αα −+=

(8.1.3)


145

Denklem 8.1.3’de, α ile gösterilen de� er, anma (A) ve duyarlılık

(D) ölçütlerinin, F-ölçütüne katkılarının a� ırlı � ıdır. A � ırlı � ın, yani α

de� erinin 0.5 seçilmesinin anlamı A ve D ölçütlerinin katkısını

e� itlemek demektir. A � ırlıkları e� itlenmi � , A ve D ölçütleri ile F-ölçütü’ nün sadele� tirilmi � hali )/(2 NAAN + biçiminde olur.

Yukarıda bahsi geçen ölçütlerin dı � ında, � ekil 9.1.1. ile

betimlenen anma ve duyarlılık çizgesinden, ba� ka ba� arım ölçütleri

türetmek de mümkündür. Do� ruluk (accuracy) ve hata (error) oranları

türetilebilecek ölçütlerden ikisidir. Do� ruluk oranı (DO), belirli bir

sistemin, toplam do � ru seçiminin (dp+dn), belge uzayındaki toplam

belge sayısına (B) oranıdır:

ynypdndp

dndpDO

++++= (8.1.4)

Hata oranı (H), söz konusu sistemin toplam yanlı � seçiminin (yp

+ yn), belge uzayındaki toplam belge sayısına oranıdır:

ynypdndp

ynypHO

++++= (8.1.5)

Ancak do� ruluk ve hata oranlarının, ba� arım ölçüsü olarak

kullanılmasında sakıncalar vardır. Söz konusu ölçütlerde, dn içindeki

belge sayısının, yani hem seçim kümesinde, hem de hedef kümesinde

yer almayan belgelerin sayısının, di � er de� erlere nazaran çok büyük

olması, ölçütün sonuç de� erlerinin çok küçük olmasına sebep olur.

Anma ve duyarlılık ölçütlerinin, do� ruluk ve hata ölçütleri yerine BGG

sistemlerinin ba� arım ölçüsü olarak kullanılmasının faydaları � öyledir:


146

• BGG sistemleri açısından önemli olan dp, yp ve yn de� erleri sayısal olarak küçüktür; Do� ruluk oranı, küçük sayısal de� er de� i � imlerine çok fazla duyarlı de� ildir, fakat duyarlılık ve anma bu konuda hassastır.

• Di � er durumlar e� itken, F-ölçütü daha çok do� ru seçilmi � gerçekte alakalı, yani pozitif hedef belgesi oldu� u durumları gözetir. Buna kar � ın, do� ruluk oranı sadece hatalara kar � ı hassasiyet gösterir. Ancak, BGG sistemlerinde amaçlanan sorgu ile alakasız belgelerin seçim kümesine alınmı � olması pahasına, alakalı belgelerin seçim kümesinde olmasıdır. Bir ba� ka söyleyi � le, seçim kümesine hiçbir belgeyi almayan bir BGG sisteminin, do� ruluk oranı %100 olacaktır, ancak hiçbir belgenin seçilmemesi istenen bir durum de� ildir.

• Duyarlılık ve anma ölçütlerinin kullanımı, BGG sistemlerinin de� erlendirilmesinde, seçilmemi � alakalı belgelerin de maliyet cinsinden de� erlendirmeye katılabilmesine imkan tanımaktadır.

Çizelge 9.1.2.’de anma (A), duyarlılık (D), F-ölçütü (α=0.5) ve

do� ruluk (DO) oranının 1000 belgelik örnek bir belge uzayı için

hesaplamaları listelenmi � tir (Manning and Schütze, 2003).

Anma ve duyarlılık fikrini esas alan, ancak nadir kullanılan bir

sistem ba� arım ölçütü de, seçilenlerden gerçekte alakasız olan

belgelerin sayısının (yp), tüm alakalı, yani hedef kümesinde olan

belgelerin sayısına (yp+dn) oranı ile hesaplanan yanlı � a dü� me (Y:

fallout) ölçütüdür:

ypdn

ypY

+= (8.1.6)


147

Çizelge 9.1.2: 1000 belgelik örnek bir belge uzayı için anma (A), duyarlılık (D), F-ölçütü (α=0.5) ve do� ruluk (DO) oranı ölçüm listesi. Üstteki, (a) listede artan F-ölçütü kar � ısında dü � en do� ruluk oranı, alttaki, (b) listesinde e� it do� ruluk oranı varken artan F-ölçütü verilmi � tir. F-ölçütü “seçilmi � alakalı belgelerin”, (dp) ço� almasına duyarlı iken, do� ruluk oranının, sadece sınıflandırma hatasına duyarlılık göstermektedir.

(a)

dp yp yn dn D A F DO

25 0 125 850 1.000 0.167 0.286 0.875

50 100 100 750 0.333 0.333 0.333 0.800

75 150 75 700 0.333 0.500 0.400 0.775

125 225 25 625 0.357 0.833 0.500 0.750150 275 0 575 0.353 1.000 0.522 0.700

(b)

dp yp yn dn D A F DO50 0 100 850 1.000 0.333 0.500 0.90075 25 75 825 0.750 0.500 0.600 0.900100 50 50 800 0.667 0.667 0.667 0.900150 100 0 750 0.600 1.000 0.750 0.900

Yanlı � a dü� me (Y) ölçütü, bazı durumlarda, seçilmi � ancak

gerçekte alakasız belge sayısı küçük, yani yp de� eri dü� ük olan bir

sistemin, gerçekle� tirilmesinin ne kadar güç oldu� unu göstermek için

de kullanılır. E� er, hedef kümesinde yer almayan belgelerin sayısı

(dn+yp) çok büyükse, yn de� erinin dü� üklü� ünden, yani seçilmemi �

ancak alakalı olan belge sayısının azlı � ından kaynaklanan, dü� ük anma

de� eri kaçınılmaz olur. Bir ba� ka söyleyi � le, arka plandaki, hedef küme

dı � ında kalan belge yı � ının çok büyük olması sebebiyle, bazı belgelerin

yanlı � sınıflandırılması kaçınılmaz olur.

Anma (A) ve duyarlılık (D) ölçütleri rekabetine benzer � ekilde,

yanlı� a dü� me (Y) ve anma (A) ölçütlerinin de rekabeti ile sistem

ba� arımlarını de� erlendirmek mümkündür. Söz konusu ölçütlerle

yapılan de� erlendirme, de� i � ik yanlı � a dü� me (Y) de� erlerinin, anma


148

(A) de� eri üzerindeki etkisini ortaya koyacaktır. Bu durum, öncül

etmenlere (örne� in öncül sarsıntılar, vb.), duyarlılı � ı sabitlenebilen bir

deprem tahmin edicisi üzerinden örneklenebilir. Belirli bir öncül etmen

duyarlılık ayarında, verilen bir yanlı � a dü� me (Y) de� erine kar � ılık

gelen anma (A) de� eri, deprem tahmin edicisinin tespit etmesi

beklenen ortalama do � ru deprem sayısını, oran olarak temsil eder.

Yani, belirli bir öncül etmen duyarlılık ayarında, yanlı� a dü� me de� eri

100 deprem alarmında 1 tane olan bir deprem tahmin edicisi için,

herhangi bir ki � i, kar � ılık gelen anma de� erine göre, örne� in 0.05

olsun, alarmlardan %95’ inin gerçek deprem alarmı, %5’ inin yanlı � deprem alarmı olmasını bekleyecektir. Yanlı � a dü� me (Y) ölçütü bir

sistemin hedef kümesi dı � ındaki belgeleri, reddetmede ne kadar ba� arılı

oldu� unun bir ölçütü olarak da yorumlanabilir (Blair, 1990).

8.2. Anma ve Duyar lılık Esasında Ba� ar ımın Ölçümü.

BGG sistemlerinin ba� arımı, geri-getirilen (seçim kümesi)

belgeler kümesinin, kullanıcıya sıralı bir liste � eklinde çıktı olarak

sunulması a� amasında, sorgu ile alakalı belgelerin alakasız belgelerden

ne kadar önce sıralamaya alındı � ı esasına dayalı olarak ölçülür. Bir

ba� ka söyleyi � le, BGG sistemlerinin ba� arımı, geri-getirilen belgeler

kümesindeki belgelerin kendi içlerinde ne � ekilde sıralandı � ı esasına

dayanan ölçütlerle de� erlendirilir, yani sıralama esaslı ölçütlerdir.

Çizelge 9.2.1.’de BGG sistemleri için sıralamanın neden önemli oldu� u

ba� arım ölçümleri üzerinden örneklenmi � tir.


149

Çizelge 9.2.1: BGG sistemlerinin sıralama esasına dayalı de� erlendirme örne� i. Sütunlarda belgelerin farklı üç sıralaması bulunmaktadır: √ simgesi belgenin alakalı oldu� unu, × simgesi alakasız oldu� unu göstermektedir.

Sıra_1 Sıra_2 Sıra_3d1: √ d10: × d6: ×d2: √ d9: × d1: √d3: √ d8: × d2: √d4: √ d7: × d10: ×d5: √ d6: × d9: ×d6: × d1: √ d3: √d7: × d2: √ d5: √d8: × d3: √ d4: √d9: × d4: √ d7: ×d10: × d5: √ d8: ×

5 belgede duyarlılık 1 0 0.410 belgede duyarlılık 0.5 0.5 0.5ara-de� er-tahminsiz ortalama duyarlılıkara-de� er-tahminli

ort. duyar. (11-nokta)e� it-ölçek sıralaması 1 0 0.56

De� erlendirme Ölçütü

1 0.3544 0.5726

1 0.5 0.644

Çizelge 9.2.1.’de sıralamalar 5 ayrı ölçüte göre

de� erlendirilmi � tir: 5 belge de duyarlılık, 10 belgede duyarlılık, ara-

de� er-tahminsiz ortalama duyarlılık, ara-de� er-tahminli ortalama

duyarlılık (11-nokta) ve e� it-ölçek sıralaması. Örnek verilen 10 belgeyi

sadece yalın duyarlılık (%50) ile ölçtü� ümüzde, geri-getirim

kümesinde (seçim) 5 alakalı ve 5 alakasız belge oldu� undan, üç

sıralama da birbirinden farksız çıkıyor. Ancak, geri-getirilen belgelerin

sonuç listesi oldu� u dü� ünüldü� ünde, sıralanı � ları ile paralel olarak

yukarıdan a� a� ıya do� ru göz-atan bir kullanıcı için, 1. sıralamanın, 2.

sıralamadan daha iyi oldu� u çok açıktır. Bu durum, herhangi bir

kullanıcının, örne� in Web sayfalarını tararken sıklıkla yaptı � ı göz-atma

� eklidir.


150

BGG sistemlerinin ba� arım ölçümü için tanıtaca� ımız ölçütlerden

ilki, belirli bir kesme (cutoff) de� erine kadar olan belgeler üzerinden

duyarlılık hesaplanmasıdır. Çizelge 9.2.1.’de 5 ve 10 kesme de� erleri

için duyarlılık hesaplanmı � tır (di � er kullanımı yaygın kesme de� erleri

20 ve 100 belgedir.). Bu ölçütle, bir sistemin geri-getirim sonuç

kümesinde yaptı � ı sıralamanın, birçok farklı uzunluktaki ba� langıç

parçasına bakarak, sistemin alakalı belgeleri alakasız belgelerden önce

ne derece bir ba� arımla sıraladı � ı konusunda fikir sahibi olunur.

Ara-de� er-tahminsiz ortalama duyarlılık (uninterpolated average

precision), bir çok duyarlılık de� erini tek bir sınama de� erine

kümelemektedir: sıralamanın ba� ından itibaren, her alakalı belgenin

oldu� u nokta için duyarlılık hesaplanarak, bu de� erlerin ortalaması

bulunur. Örnek olarak, Çizelge 9.2.1’deki 1. sıralama için duyarlılık

de� eri 1.0’dır. Çünkü, son alakalı belge olan d5’ dir ve bu belgeye

gelene kadar gözüken d1, d2, d3 ve d4 belgelerinin tamamı alakalıdır.

Dolayısı ile, ortamla duyarlılık 1.0’dır. Ancak, örne� in 3. sıralamada,

alakalı belgeler için hesaplanan duyarlılık de� erleri � öyledir: 1/2 (d1),

2/3 (d2), 3/6 (d3), 4/7 (d5) ve 5/8 (d4); dolayısı ile ara-de� er-tahminsiz

ortalama duyarlılık de� eri, be� duyarlılık de� erinin ortalaması olan

0.5726’dır. E� er, geri-getirilen belgeler içinde, ba� ka alakalı belgelerde

varsa, hesaplama söz konusu belgelere do� ru geni � letilmelidir. Ara-

de� er-tahminsiz ortalama duyarlılık hesabında, alakalı olup, geri-

getirilen seçim kümesinde olmayan belgelerin duyarlılı � ı 0 (sıfır)

olarak kabul edilir. Bu yüzden söz konusu ortalama duyarlılık, dolaylı

olarak anma’yı da hesaplar, yani geri-getirilen sonuç kümesinde alakalı

olan belgelerin yüzdesidir (bu durum, seçim kümesinde yer almayan

hedef belgelerin, yani gerçekte alakalı olup seçilmemi � belgelerin (yn)

duyarlılı � ının 0 olarak, ortalama duyarlılık hesabına katıldı � ı fikrinden

kaynaklanır.).


151

Ara-de� er-tahminli ortalama duyarlılık (interpolated average

precision) ölçütü anma ölçümünü esas alır. Duyarlılık de� erleri, çe� itli anma de� er seviyelerinde hesaplanır; örne� in 11-nokta ortalama

duyarlılık hesabında %0, %10, %20, %30, %40, %50, %60, %70, %80,

%90 ve %100 anma de� er seviyeleri için duyarlılık hesaplanarak

bulunur (bu en yaygın kullanılan � eklidir). Anma’ nın α de� eri için,

duyarlılı � ın sayısal de� eri olan β, sıralanmı � listedeki alakalı belge

oranının, α de� erine e� it oldu� u noktada hesaplanır. Listede a� a� ı

do� ru inerken, bir α de� erine kar � ılık gelen belgeye kadar hesaplanan

duyarlılık de� erinde artı � varsa, artı � boyunca belgeler için hesaplanan

en yüksek duyarlılık de� eri söz konusu anma düzeyinin duyarlılık

de� eri olarak alınır. Örne� in, 3. sıralamada %60 anma düzeyinde,

hesaplanan ara-de� er-tahminli duyarlılık 4/7 de� ildir (yani d5

belgesindeki duyarlılık de� eri), çünkü %60 anma de� erine son belgede,

yani d8 belgesinde ula� ılır (geri-getirilen 5 alakalı belgenin belge

uzayındaki tüm alakalı belgeler oldu� u kabul edilerek). Bu noktadaki

duyarlılık de� eri 5/8 oldu� undan ve 4/7 de� eri bu de� erden küçük

oldu� u için, %60 anma de� erine kar � ılık gelen ara-de� er-tahminli

ortalama duyarlılık 5/8 olacaktır. Buradaki bakı � açısı, kullanıcının

duyarlılık arttıkça, listeden a� a� ı do � ru göz atmayı sürdürece� i

varsayımını esas almaktadır. � ekil 9.2.1’de, 3. sıralama için verilen iki

grafik sırasıyla, ara-de� er-tahminsiz ve 11-nokta ara-de� er-tahminli,

anma-duyarlılık e� rilerini göstermektedir (precision-recall curves).


152

1

0

D

1A (a)

1

0

D

1A (b)

�ekil 9.2.1: Anma-duyarlılık e� risinin iki örne� i. � ki örnek de, Çizelge 9.2.1’de

verilen 3. sıralamaya aittir: (a) ara-de� er-tahminsiz; (b) ara-de� er-tahminli.

BGG sistemlerinin ba� arım de� erlendirmesi için, Çizelge 9.2.1.’de verilen e� it-ölçekli sıralama ( normR ), de� erlendirme altındaki

sıralamaları birbirleri ile nicel olarak kar � ıla� tırılmasını sa� lar, yani 0

(sıfır) ile 1 (bir) arasında bir gerçek sayıya indirger (Yao, 1995):

��

�

�−+= +

−+

max

12

1

R

RRRnorm (8.2.1)

Denklem 8.2.1.’de verilen e� it-ölçek sıralama denkleminde: +R

simgesi ile, sıralama içinde alakalı olan her belgeden sonra gelen

alakasız belge sayıları toplamı; −R simgesi ile, sıralama içindeki her

alakasız belgeden sonra gelen alakalı belge sayıları toplamı; +maxR

simgesi ile +R ’ ın ve −R ’ in alabilece� i en büyük de� er ifade edilmektedir ( }max{}max{max

−++ == RRR ). Örne� in Çizelge

9.2.1.’deki 3. sıralama için, +R de� eri: 4 alakasız (d1), 4 alakasız (d2),

2 alakasız (d3), 2 alakasız (d5), ve 2 alakasız (d4) belge sayılarının,


153

toplamı olan 14’ tür. +maxR de� eri ise, e� er geri-getirim kümesinin belge

sayısını en çok 10 olarak kabul edersek, 5 alakalı ve 5 alakasız belgenin

1. sıralamada oldu� u gibi dizilmesi ile elde edilen, 25’e e� it olacaktır.

BGG sistemlerinin ba� arımlarının ölçülmesinde, kapsam (K) ve

özgünlük (Ö) olarak tanımlanan, iki ölçüt de kullanılmaktadır

(Korfhage, 1997). Bu ölçütlere ait e� itlikler biçimsel olarak Denklem

8.2.2. ve 8.2.3.’de verilmi � tir.

URK k /= (8.2.2)

ku

u

RR

RÖ

+= (8.2.3)

Denklem 8.2.2. ve 8.2.3.’de, U kullanıcı tarafından daha önceden

belge uzayında oldu� u bilinen alakalı belgeler kümesidir. Denklemde

kR simgesi ile, sistemin sonuç, yani geri-getirim kümesinde,

kullanıcının daha önceden alakalı oldu� unu bildi � i belgelerden olu� an kısmı; uR simgesi ile de, daha önceden alakalı oldu� unu bilmedi � i

belgelerden olu� an kısım temsil edilmektedir.

Yukarıda açıklanan, anma ve duyarlılık fikri esasına dayalı

ölçütlerden her biri, BGG sistemlerinin ba� arımını ölçmek için

kullanılabilir. Farklı kurgulara sahip, birden fazla sistemin

kar � ıla� tırılmasında kabul gören yakla� ımlardan bir tanesi, sistemleri

aynı derlem ve sorgu kümesi ile çalı � tırmak, kullanılan ba� arım

ölçütünün, tüm sorgular için elde edilen ölçümlerinin ortalamasını

almaktır. E� er kar � ıla� tırılan sistemlerden, örne� in 1. sistemin

ortalaması, 2. sistemin ortalamasından iyi ise, bu durum 1. sistemin

ba� arımının 2. sistemin ba� arımına göre daha iyi oldu� una delil olarak


154

kabul edilir. Belirli bir sistemin, birden fazla sorgu için geri-getirim

ba� arım ortalamasının bulunması ile ilgili iki yakla� ım söz konusu

olabilir: mikro ve makro ortalamalar. Bir sistem için, iki yakla� ımın,

yani mikro ve makro ortalamaların farklı de� erlere sahip olması

durumuna, söz konusu sistemin sorgular kar � ısında geri-getirim

kümesini olu� turan belge sayılarının farklı olması sebep olur. Herhangi

bir sistemin ortalama ba� arımı: Makro yakla� ımda, tüm sorgular için

geri-getirilen toplam alakalı belge sayısının, her sorgu için geri-

getirilmi � belge kümelerinin toplam eleman sayısına bölünmesi ile

bulunur; Mikro yakla� ımda ise, önce her sorgu için geri-getirilmi �

alakalı belge sayısı, sorgunun kendi geri-getirim kümesinin eleman

sayısına bölünerek ara ortalama de� erleri hesaplanır, daha sonra bu ara

ortalama de� erleri toplanarak, toplam sorgu sayısına bölür ve sistemin

ortalama ba� arım de� eri elde edilir. Makro ortalama yakla� ımı sistemin

ba� arımını belge esasına dayalı olarak ölçerken, mikro ortalama

yakla� ımı sorguları esas alan bir ölçüm ortaya koyar.

BGG sistemlerinin sonuç kümesindeki belgelerin, bir sıralama

ile kullanıcıya sunulması, kullanıcının anma ve duyarlılık ölçütlerinin

rekabetini istekleri do � rultusunda kullanmasına imkan tanır. Örne� in,

e� er sıralı sonuç listesinin ilk sayfasında, anma dü� ük ve istenen

enformasyon bulunamamı � sa, kullanıcı bir sonraki sayfaya

yönlenecektir (ço� u durumda sonraki sayfalarda anma yükselecektir). �� te bu kullanıcı davranı � ı, Olasılık sıralama ilkesi (probability ranking

principle) ile izah edilmekte ve BGG sistemlerinin sıralama esasına

dayalı kurgularının altındaki kabullenmeleri açık bir � ekilde ortaya

koymaktadır (van Rijsbergen, 1979).


155

Tanım 8.2.1: Olasılık Sıralama (OS) � lkesi (Probability Ranking Principle): Belgeleri, alakalı olma olasılıklarına göre büyükten küçü� e do� ru sıralamak, sistemin sonuç kümesi için en iyi l isteleme � eklidir.

Tanımdaki ana fikir, geri-getirim i � inin bir arama i � lemi olarak

dü� ünülmesi ve sistemin, zamanın istenen her hangi bir anında, sürecin

ilerledi � i noktaya kadar olan kısım içindeki en yüksek alaka “de� erine”

sahip belgeyi belirleyebilmesidir. Söz konusu aramada, zamanın

herhangi bir anında en yüksek “de� ere” sahip olacak bir d belgesi,

sürecin ilerledi � i noktaya kadar olan kısımdaki belgeler içinde, beklenen alakalı olma ihtimali en yüksek belge olacaktır, yani )( dRP

olasılık de� eri en yüksek olan olacaktır (daha tüm belgelerin

de� erlendirmeye girmedi � ini dü� ünüyoruz). Aynı � ekilde, silsile

halinde birden çok zaman kesiti için, en yüksek “de� ere” sahip olan

belgelerin belirlenmesi ile elde edilecek bir liste, aynı zamanda tanımda

verilen alakalı olmanın dü� en olasılık de� erlerine göre sıralanmı � belge

listesi de olacaktır.

BGG sistemlerinin ço� u OS ilkesini esas alırlar. O yüzden, bu

ilke ile, hangi kabullenmelerin yapıldı � ının tanımlanması da

gerekmektedir:

1. � lk kabullenme, belgelerin ba� ımsız oldu� udur. Bu kabullenmenin en açık � ekilde ihlali, aynı belgenin belge uzayında tekrarlanmasıdır. E� er bir belgeden iki tane varsa, örne� in d1 ve d2 olsun, d1 belgesi listelendikten sonra d2 belgesine ait tahmini alaka ihtimali de� i � meyecektir. Fakat d2 belgesi kullanıcıya yeni bir enformasyon sunmayacaktır. Açıkçası, iyi bir kurgu içinde, böyle çift belgelerden sadece birinin listeye alınması gerekir, fakat bu durum, aynı zamanda OS ilkesinin ihlali de demektir.


156

2. Kullanıcı tarafından, sisteme yönlendirilmi � enformasyon ihtiyacı bir bütündür. Ancak, OS ilkesini esas alarak olu� turulan bir sonuç listesinde, söz konusu ihtiyaç, küçük ve yalıtılmı � sorgucuklar

� eklinde ele alınır ve bu sorgucukların her biri için en yüksek “de� ere” sahip belgelerin tespiti yapılır. Fakat, belge uzayındaki her hangi bir belge, kullanıcının sisteme yönlendirdi � i, enformasyon ihtiyaç bütünü ile çok alakalı olmasına ra� men, OS ilkesi gere� i yapılan arama sürecinin ara adımlarında, en yüksek “de� ere” sahip olarak belirlenmeyebilir. Örne� in, bir kullanıcının Murat kelimesini sorgu olarak yönlendirmesi halinde, ideal bir BGG sisteminin, kelimenin araba adı, ki � i adı ve istek/dilek anlamlarından hangisine ihtiyaç duyuldu� unu belirlemesi gerekir. Fakat OS ilkesini esas almı � bir sistem, eldeki belge uzayı içinde, en yüksek alaka gösteren bu anlamlardan ilk bulunana göre, sonuç listesini sıralayacaktır.

3. OS ilkesi esasına göre hesaplanan, alakalı olmanın olasılı � ı sadece tahminidir. Bir BGG sisteminin kurgusu içinde, bir çok basitle� tirici tanımın kabul edilmesinden dolayı, yapılan olasılık tahminleri de tamamen güvenilir olmayacaktır. Söz konusu durumun en büyük yan etkisi � udur: BGG sistemleri kar � ıla� tırılırken, alakalı olmanın olasılık tahminleri arasındaki de� i � ime (variance) bakılmaktadır; dolayısı ile olasılık tahminlerinin güvenilir olmaması, kar � ıla� tırmaların da güvenilir olmaması sonucunu do� uracaktır.

Daha önce bahsedildi � i gibi, BGG sistemlerinin ba� arımlarının

ölçülmesi için kurgulanmı � , sorgulardan elde edilen sonuçların

ortalamasına dayalı bu deneysel düzenek, aslen bir çok tartı � malı

mesele içermektedir. Ortalamalar arasındaki fark, � ans eseri de olu� mu�

olabilir. Örne� in, 1. sistemde, sadece tek bir sorgunun, 2. sistemdeki

sorgulardan çok büyük bir farkla iyi olması neticesinde (di � er

sorguların ba� arımları e� it olacak � ekilde) ortalama farklı da çıkmı �

olabilir. Aslen, sistemler arasında anlamlı bir farklılık olup olmadı � ına

bakılması için, böyle basit tanımlayıcı istatistikler yerine, uygun � ekilde

geli � tirilecek istatistiksel yöntemlerin kullanımı, daha güvenilir bir yol

olacaktır.


157

8.3. Anma ve Duyar lılı � ı Esas Almayan Ba� ar ım Ölçütü.

Bu tezde, ba� arım ölçütü olarak kullanaca� ımız yöntem olan

üstel-puanlama (meta-scoring), matematiksel/istatistiksel yöntemler

sınıfına girmektedir (Jin, 2001). Carnegie Mellon üniversitesinde, dil-

bilim teknoloj ileri enstitüsü ve bilgisayar bilimleri bölümünün ortak

çalı � ması ile geli � tirilen bu yöntem, anma ve duyarlılık ölçütlerinin tüm

olumsuz yönlerinden arındırılmı � tır. Yöntem gizli anlam indeksleme

(Bölüm 6.2.) geri-getirim modelinin esas aldı � ı, matematiksel kurguya

göre biçimlendirilmi � tir. Yöntemde, belgeler ve sorgular bazı yönlerden

de� i � ik, bazı yönlerden gizli anlam indeksleme ile benzer � ekilde

yorumlanmaktadır. Belgeler, bir vektör olarak kabul edilir. Bu vektörün

elemanları, bir geri-getirim yöntemi ile hesaplanmı � sayısal

a� ırlıklardır. Belge uzayındaki belgelerde bulunan, tüm içerikler, yani

konular bir içerik toplulu� u olarak kabul edilir (Buraya kadar tüm

vektör uzayı modelini esas alan yöntemler, aynı � ekilde yorumlara

sahiptir). Yöntemde, belge vektörlerini içine alan çok boyutlu uzayın

öz-vektörleri (eigen-vectors), gerçek belge içeriklerini olu� turan,

birbirinden ba� ımsız, birim “ içerik” ler toplulu� u olarak kabul edilir.

Böylece her belge, bu ba� ımsız “ içerik” lerin bir kümesi ile ifade

edilebilir olmaktadır. Belirli bir geri-getirim yöntemi ile, bir belge için

sayısal belge temsili olu� turuldu� unu kabul edersek (yani belge

vektörü), bu sayısal belge temsilinde, birim “ içerik” lerden ne miktarda

bulundu� u, belge vektörünün “ içeri � ini” olu� turan öz-vektörler

üzerindeki iz-dü� ümü ile ölçülecektir. Dolayısı ile, asıl belgelerin

içerikleri, öz-vektörler ile temsil edilen bir nevi a� ırlıklandırılmı �

“ içerik” toplulu� u olacaktır. Yöntemde, bir de temsili “belge içeri � i”

vardır. Bu temsili “belge içeri � i” , öz-vektörler kümesinden herhangi bir

elemana e� it olabilir. Ancak, tüm öz-vektörler “belge içeri � i” olma


158

açısından e� it ihtimale sahip de� ildir. Bir öz-vektörün, temsili “belge

içeri � i” olma ihtimali, öz-vektöre kar � ılık gelen öz-de� er (eigen-values)

ile do� ru orantılı olarak hesaplanmaktadır.

Bir geri-getirim yönteminin üstel-puanı, temsili “ belge içeri � i” ile

asıl belge için olu� turulmu� a� ırlık vektörü arasındaki kar � ılıklı-

enformasyon (mutual information) miktarına e� ittir (Bölüm 4.3). E� er

iki geri-getirim yöntemi birbiri ile kıyaslanacaksa, her ikisi için de

üstel-puan hesaplanır ve de� er olarak büyük olanı daha iyidir denir. Jin

ve arkada� ları (2001), yöntem ile hesapladıkları üstel-puanın, derlemin

ortalama-duyarlılı� ı ile tutarlı oldu� unu, yani do � ru orantılı oldu� unu

bildirmi � lerdir. Dolayısı ile, tezin sonuçlarındaki üstel-puanlar, orantılı

ortalama-duyarlılık � eklinde de yorumlanabilir.

�ki olasılık de� i � keni, D ve C için kar � ılıklı-enformasyon’un

I(C;D), biçimsel ifadesi, Denklem 8.3.1.’de verilmi � tir.

)()();( DCHCHDCI −= (8.3.1)

Denklem 8.3.1.’de verilen kar � ılıklı-enformasyon, I(C;D)

e� itli � indeki H(C) simgesi ile, C olasılık de� i � keninin düzensizli � i, yani

sinyal-enformasyon de� eri temsil edilmektedir; H(C|D) simgesi ile,

aynı C olasılık de� i � keninin, D olasılık de� i � keninin de� eri bilinirken

hesaplanan düzensizlik de� eridir. Dolayısı ile, C ve D olasılık

de� i � kenlerine ait kar � ılıklı-enformasyon de� eri, D olasılık de� i � kenine

ait de� erin bilinmesinden kaynaklı, C olasılık de� i � keninin

düzensizli � inde olu� an de� i � im miktarı olarak sözle ifade edilebilir. Bir

ba� ka söyleyi � le, kar � ılıklı-enformasyon iki olasılık de� i � keninin

birlikte ta� ıdı � ı, ortak sinyal-enformasyon miktarıdır. Söz konusu iki


159

olasılık de� i � keni ba� ımsızsa, ta� ıdıkları kar � ılıklı-enformasyon miktarı

da 0 (sıfır) olacaktır.

Üstel-puan ölçütünün, kar � ılıklı-enformasyon I(C;D), esasında

tanımlanmasında, C olasılık de� i � keninin örneklem kümesini, “belge

içerik” leri kümesidir; D olasılık de� i � keninin örneklem kümesi de,

indeks terimler ve bir belge için hesaplanan a� ırlıklarından olu� an

çiftler toplulu� udur. Böylece, H(C) de� eri, “belge içerik” lerinin yalın

olarak ta� ıdı � ı sinyal-enformasyon miktarını; H(C|D) de� eri de, D

belgesinin “ içerik” vektörü bilinirken “belge içerik” lerinin ta� ıdı � ı

ba� ıl sinyal-enformasyon miktarını temsil eder. Dolayısı ile, kar � ılıklı-

enformasyon miktarı, iki sinyal-enformasyon de� erinin farkından, yani

“belge içerik” lerinin yalın olarak ta� ıdı � ı sinyal-enformasyon

de� erinden H(C), “ içerik” vektörü D verilmi � ken “belge içerik” lerinin

ta� ıdı � ı ba� ıl sinyal-enformasyon de� erinin H(C|D), çıkartılması ile

elde edilir.

BGG sistemlerinin hedefinde bulunan belge uzayı, belge-terim

matrisi M, olarak temsil edilebilir. Olu� turulan söz konusu matrisin

satırlarında belgeler, sütunlarında terimler ve M i j hücresinde, ise söz

konusu yöntemin j. terime, i. belge için atadı � ı hesaplanmı � a� ırlık

de� eri bulunmaktadır. Gizli anlam indeksleme modelinde, M matrisinin

belge vektörlerini içine alan uzayının öz-vektörleri (eigen-vectors), yani

dikey birim vektörleri (eksenleri), birbirinden ba� ımsız “ içerik” ler

olarak kabul edilir. Her belge, bir “ içerik” vektörü olarak temsil

edildi � i için, herhangi bir belgede, bir “ içeri � in” önemi, “ içeri � i” temsil

eden öz-vektör üzerine, söz konusu belge vektörünün iz dü� ümü ile

ölçülür. Üstel-puan ölçütündeki olasılık de� i � keni, C için, örneklem

kümesi, e� er bir “ içerik” toplulu� u olarak dü� ünülürse, gizli anlam

indeksleme yönteminde öz-vektörler ile olu� turulan “ içerik” uzayı, C


160

ile temsil edilen “belge içeri � i” kavramı için kullanılabilir. Jin ve

arkada� ları (2001), C olasılık de� i � kene ait olasılık da� ılımının

hesaplanabilmesi için, M matrisinin öz-vektörleri ile e� le� en öz-

de� erlerin (eigen-values), bu öz-vektörlerin önemini betimledi � ini,

dolayısı ile “ içerik” lerin öneminin, söz konusu öz-de� erlerin genli � i

(miktarı) ile orantılı oldu� unu öne sürmü� lerdir.

Bir BGG sisteminin hedef belge uzayındaki, belge sayısı n olarak

kabul edilirse: terim uzayındaki belge vektörleri nbbb �� ,,, 21 olacaktır.

Terim uzayındaki belge vektörleri, M belge-terim matrisini de

olu� tururlar. Üstel-puan ölçütünün, bir geri-getirim yöntemi için

kullanılmasında, belge-belge matrisine ihtiyaç vardır. Belge-belge

matrisine D dersek, M belge-terim matrisi kullanılarak � u � ekilde

olu� turulur:

Tnttnnn MMD ××× ⋅= (8.3.2)

Denklem 8.3.2. ile elde edilen belge-belge, kısaca D belge matrisine ait, nλλλ ,,, 21 � öz-de� erler (eigen-values) ve nvvv �� ,,, 21

öz-vektörler (eigen-vectors) için, tanım gere� i, � u ko � ul sa� lanır:

njvvD jjj ≤≤=• 1;��

λ (8.3.3)

C olasılık de� i � keni, yani “belge içerik” leri, bir “ içerik” toplulu� u

olarak kabul edildi � i ve her “ içerik” de, D matrisinin bir öz-vektörüne

kar � ılık geldi � i için, C olasılık de� i � keninin örneklem kümesi, yani alabilece� i de� erler kümesi, öz-vektörler toplulu� u },,,{ 21 nvvv olur.

Jin ve arkada� larının (2001) kabullenmesinde, her jv� öz-vektörünün

önemi, bu vektöre kar � ılık gelen öz-de� erle jλ , ölçülmektedir.


161

Dolayısı ile, C olasılık de� i � keninin, jv� öz-vektörüne e� it olması

olasılı � ı )( jvCP �= , jλ öz-de� eri ile orantılı olacaktır:

njvCPn

kk

jj ≤≤�==

=

1;)(

1λ

λ�

(8.3.4)

Olasılık de� i � keni D, belge vektörlerini temsil etmektedir. D

olasılık de� i � keninin, alabilece� i de� erler kümesi, belge vektörleri toplulu� u, yani },,,{ 21 nbbb �� olacaktır. BGG sisteminin hedefindeki

belge uzayında, her belge e� it önemdedir. Dolayısı ile, D olasılık de� i � keninin herhangi bir ib� belge vektörüne e� it olması olasılı � ı,

)( ibDP = sabittir:

nin

bDP i ≤≤== 1;1

)( (8.3.5)

D olasılık de� i � kenin de� eri, ib� belge vektörü olarak

verilmi � ken, C olasılık de� i � keninin herhangi bir, jv� öz-vektörüne e� it olmasının, ko � ullu olasılı � ı, )( ij bDvCP �� == ise, ib� belge

vektörünün, jv� öz-vektörü üzerindeki iz-dü� ümünün, ib belge

vektörünün, tüm öz-vektörler nkvk ≤≤1,�

üzerindeki iz-dü� ümleri

toplamı içindeki a� ırlı � ı ile orantılı olacaktır:

nkvb

vbbDvCP

n

kk

Ti

jT

i

ij ≤≤�•

•===

=

1;)(

1

��

��

(8.3.6)


162

Denklem 8.3.6.’da, ib� belge vektörünün, jv�

öz-vektörü üzerine

iz-dü� üm de� eri jT

i vd �� • , mutlak olarak alınmı � tır. Bunun sebebi, iz-

dü� üm de� erlerinin, negatif olabilmesidir; ancak olasılık de� erleri

negatif olamazlar.

Bu � ekilde hesaplanarak, BGG sistemlerinin ba� arımlarının

kar � ıla� tırılmasında kullanılabilecek üstel-puan yöntemi, aslen kendi

türünün içinde, yani anma ve duyarlılık ölçütleri dı � ındaki ba� arım

ölçütlerine tek örnektir.


163

9. TEZ KAPSAMINDA GEL �� T � R � LM �� YÖNTEMLER

Bu tez, bilgi geri-getirim sistemlerinin, yazılı Türkçe’nin

dilbilgisi kullanılarak, Türkçe için ba� arımlarının arttırılmasını hedef

almaktadır. Dolayısı ile, yazılı Türkçe belgelerin çok dilli bir belge

toplulu� undan, örne� in � nternet ortamından tespit edilmesi gibi bir

meseleyi de içermektedir. Son yıllarda çok dilli uygulamalar, daha

do� rusu çok dilli bilgi geri-getirim, � nternet ortamının do � al bir sonucu

olarak u� ra� sahası haline de gelmi � tir. Ancak, tez kapsamımızda,

hedef aldı � ımız asıl mesele, yazılı metnin hangi dilde oldu� undan çok,

Türkçe olan metnin otomatik olarak tespit edilmesidir. Tez içerisinde

geli � tirilen di � er yöntemlerin uygulanabilirli � i için, asgari ve yeter � art

budur.

Hesaplamalı dilbilim sahasında, bilgi geri-getirim sahasında ve

bir çok yazılı dil hedefli, hesaplamaya dayalı u� ra� lar içerisinde

geli � tirilen yöntemler, öncelikle yazılı metnin belirli biçime

getirilmesine ihtiyaç duyarlar. Bu ortak biçime getirme, yazılı metni

hesaplanabilir birimlerine ayrı � tırma i � ine, genel adıyla metin

normalle� tirme denir. Aslen, bilgi geri-getirim sahasında ihtiyaç

duyulan nitelikleri ile metin normalle� tirme, sayısal belge temsil

yordamının (Bölüm 5.3.) ilk alt sürecinde belirtildi � i � ekli ile yer

almaktadır ve en basit halindedir. Kelime sınırlarının belirlenmesi ve

kelime dı � ı unsurların metinden ayıklanması, bilgi geri-getirim

sistemleri için yeterli metin normalle� tirme nitelikleridir. Ancak,

hesaplamalı dilbilim sahasında, metin normalle� tirme, bilgi geri-getirim

sahasında oldu� u gibi, asgari nitelikler ta� ımaz. Metin içindeki

kelimelerin belirlenmesi gerekir, ancak kelime dı � ındaki unsurların

ayıklanması de� il, ne olduklarının i � aretlenmesi, yani o unsurların da


164

belirlenmesi söz konusudur. Ayrıca, hesaplamalı dil bilim sahasında,

dilbilgisi özelliklerinin tespit edilmesi hedefindeki yöntemlerin hemen

hepsi, cümle sonu ve ba� ının belirli olmasını da ön � art olarak

istemektedirler. Cümle sonlarının belirlenmesi meselesi, her ne kadar

hesaplamalı dilbilim içerisinde önemsenen bir konu olarak belirtilmese

de, mesele yaratan bir durumdur. Cümle sonu belirlemede en büyük

sorun, “nokta”nın, her zaman cümle sonu belirlemiyor olmasıdır.

Nokta, bazen cümle sonu, bazen bir kısaltmanın sonu veya bazen her

ikisi de olabilir. Tez hedefimizde, bilgi geri-getirim sahasında, dilbilgisi

özelliklerinin kullanılması söz konusu oldu� u için, cümle sonun

belirlenmesi meselesine, yani nokta üzerindeki belirsizli � in

kaldırılmasına dönük bir çözüm de geli � tirilmi � tir.

Hesaplamalı dilbilim sahasında, yazılı metinlerdeki dilbilgisi

özelliklerinin belirlenmesine dönük geli � tirilmi � yöntemler, temelde iki

gurupta toplanmaktadır: kural tabanlı yöntemler ve istatisti � i/olasılı � ı

esas alan yöntemler. Her iki guruptaki yöntemler de, kurguları

açısından çok büyük farklara sahip de� i llerdir; temel birkaç ortak

unsuru yapı ta� ı olarak kullanırlar. Aralarındaki fark, olasılık

kuramından ibarettir. Kural tabanlılar, kuralları, olasılık kuramı yerine

kullanırlar. Fakat, her iki gurubun melezi olan, yani hem kural tabanlı

hem de olasılık kuramını kullanan yöntemler de vardır. E� er n-gram dil

modelleri tartı � manın dı � ında tutulacak olursa, yani hesaplama birimi

olarak kelimenin esas alındı � ı di � er yöntemlerin tamamı için, ortak

yapı ta� ı, dile ait kelimelerin ve kelimelere ait çe� itli kapsam ve

derinlikte özelliklerin içerildi � i bir sözlük’ tür. Yöntemlerin

kurgularında yer alan bu sözlükler, yazı içinde geçen kelimeleri

e� le� tirme ile belirlemek ve daha önceden kaydedilmi � olan

özelliklerine eri � mek için kullanılır.


165

Sözlük kullanımının mümkün olması için kuramsal bir

kabullenme de yapılmaktadır. Bu kabullenme, dillerin kapalı kelime

da� arcı � ına (yazımda farklı � ekle sahip harf birli � i, kelime biçimleri

toplulu� u) sahip oldu� udur. Kabullenmenin do � ru olup olmadı � ı, daha

do� rusu hangi � artlar altında geçerli oldu� u, tüm diller için halen sıcak

bir tartı � ma konusudur. Kuramsal olarak, bir dilde yazılabilecek, olası

tüm metinlerin toplulu� una ula� tı � ımızda, kelime da� arcı � ı, bütün

metinler elimizde oldu� u için, kapalı olacaktır, yani farklı � ekilde

söylenebilecek her � ey söylenmi � , yazılabilecek her � ey yazılmı �

olacaktır. Uygulamada, bu ideal durum yakalanamadı � ı için,

kar � ıla� ılmı � ve kar � ıla� ılacak metinler � eklinde iki durum söz konusu

olmaktadır. Kar � ıla� ılmı � metinlerden, farklı kelime biçimleri tespit

edilmekte ve kelime da� arcı � ı bu kelime biçimleri toplulu� u ile

olu� turulmaktadır. Mesele, bu kelime da� arcı � ının, kar � ıla� ılacak

metinlerde yer alan kelime biçimlerinin tamamını, her zaman kapsayıp

kapsamayaca� ıdır. Kapalı kelime da� arcı � ı kabullenmesi, telafi

edilebilir büyüklükte, belirli bir hata payı ile her zaman kapsanaca� ını;

açık kelime da� arcı � ı ise, bu hata payının her zaman çok büyük

olaca� ını ve kelime da� arcı � ının oransal olarak telafi edilemez

boyutlarında gerçekle� ece� ini öngörmektedir. Türkçe için kelime

da� arcı � ının açık ve kapalı olu� u meselesi, Bölüm 10.’da Zipf

kanunları çerçevesinde istatistiksel olarak, deneysel derlemler

üzerinden tartı � ılmı � tır.

Hesaplamalı dilbilim yöntemlerin kurgularında sözlük

kullanılması, bu günün teknolojisi açısından, hesaplama karma� ıklı � ını

arttırıcı bir unsurdur. Dolayısı ile, geleneksel bilgi geri-getirim

sistemlerinin ön i � lem a� amalarında, ba� arıma olan katkısı anlamlı dahi

olsa, maliyetleri sebebi ile kullanımlarından ço� unlukla kaçınılır.

Yapılan ara� tırmaların sonuçlarından da, anlamlı bir ba� arım artı � ının


166

tutarlı � ekilde elde edilememesi, kullanılmalarıyla kazanılacak

ba� arımdan feragat edilir hale gelmelerine sebep olur.

Hesaplamalı dilbilim yöntemlerinin, özellikle kural tabanlı

olanlarında, hesaplama karma� ıklı � ını arttırıcı tek etken de, sözlük

kullanımı de� ildir. Kural tabanlı sistemler, örne� in gövdeleme için

Türkçe gibi sondan ekli, eklemeli dillerde, sonlu durum makinelerini

esas alırlar ve hesaplama karma� ıklıkları, günümüz bilgisayar

teknolojisi ile do� rusal zamanda, çözümü bulunamaz bir hale gelebilir

(NP-Complete). Pratikte, durum bu kadar içinden çıkılmaz halde

de� ildir, ancak do� rusal olmaktan da çok uzaktır (Bölüm 5.3). Dolayısı

ile, bilgi geri-getirim sahasında kullanılacakları zaman, hesaplamalı

dilbilim yöntemleri oldu� u gibi alınmazlar, uygun � ekilde hesaplama

açısından hafifletilmi � uyarlamaları tercih edilir.

Hesaplamalı dilbilim sahasında, istatistik/olasılık esasına dayanan

yöntemlerde, hesaplama karma� ıklı � ı açısından kural tabanlı

e� leniklerinden pek farklı de� illerdir. Aslen, her iki gurubun da

hesaplama karma� ıklı � ının kökeninde olan � ey, dilin anlamsal

çözümlemesinin, günümüz bilgisayar teknolojisinin mümkün kıldı � ı

hesaplama yöntemlerinin bakı � açısından, çok hacimli, detaylı ve derin

bir mesele haline gelmesidir. � nsanlar, ana dillerini, kurallarına ve

yapılarına özel bir dikkat sarf etmeden kullanmaktadırlar, zaten di � er

halde, anlatılmak istenen duygu veya dü� ünceye odaklanmak zor bir

hale gelirdi. Bu ba� lamda belirtilmesi gereken di � er bir mesele de, dili

ileti � im için kullanmakla, onu nasıl kullandı � ımızı, tekrar edilebilir

� ekilde tarif etme (bilimsel) arasında, zorluk açısından büyük bir fark

oldu� u gerçe� idir. � statistik/olasılık esasında yöntemler de kendi içinde

kullandıkları dil modelleri açısından üçe ayrılabilir: n-gram dil modeli,

gizli Markov zinciri dil modeli ve en-yüksek düzensizlik (maximum


167

entropy) modeli. Bu dil modelleri ise, kelime esasında hesaplama

yapıyorlarsa, sözlük kullanırlar. Hesaplama birimi olarak, kelimenin

alternatifini, n-gramlar te� kil eder. Di � er modeller, n-gramları

hesaplama birimi olarak da kullanmaktadır; n-gramlar tek ba� larına

kullanıldıklarında, olasılık kuramı esas alınmaktadır. Aslen,

hesaplamalı dilbilim içinde çözümleme düzeyi olarak, biçimbirimsel

seviyenin (sözlük, söz-dizim, anlam, v.b.) üzerindeki düzeylerde,

yaygın � ekilde kullanılan model gizli Markov zinciri dil modelidir.

Biçimbirimsel seviyede de, kural tabanlı yöntemler a� ırlıklı olarak

kullanılmaktadır.

Tez kapsamı içersinde, hesaplamalı dilbilimde iki çözümleme

seviyesi için, bilgi geri-getirim sistemlerinde kullanılmak üzere

uyarlanmı � iki yöntem geli � tirilmi � tir: gövdeleme (biçimbirimsel

seviye) ve sözcük türü tespiti (sözlük seviyesi). Her iki yöntem de,

sözlük kullanmamaktadır, istatistik/olasılık esaslıdır ve hesaplama

birimi olarak kelime yerine n-gram kullanmaktadır. Dilbilim özelli � inin

çözümlenmesi için esas aldıkları fikirler açısından, yani gövdeleme ve

sözcük türü tespiti için, kelimeden gerekli enformasyonun elde edili � i açısından, yöntemler özgündür.

Özetle, bu bölümde tanıtılacak, tez kapsamında geli � tirilmi � dört

özgün yöntem bulunmaktadır. Yöntemler, tanıtım sırasıyla � öyledir:

Türkçe yazılı belgelerin tespiti; Türkçe metinlerin, cümle sonu

tespitleri, yani normalle� tirilmesi; Türkçe için istatistik/olasılık

esasında gövdeleme; Türkçe kelimelerin, istatistik/olasılık esasında

sözcük türü tespiti.


168

9.1. Türkçe Yazılı Belgeler in Tespiti

Genel anlamda, yazılı metinlerde dilin tespiti, � nternet üzerinde

arama motorlarının, kullanıcıların enformasyon ihtiyaçlarını kar � ılamak

için, dil tespitine gereksinim duyması ile giderek artan bir ihtiyaç

olmaktadır. Bu gereksinimin ötesinde, otomatik çeviri programları,

uygulama olarak kullanılmaya da ba� lamı � tır. Dolayısı ile, çok dilli

ortamlarda, yazılı metnin hangi dilde yazılmı � oldu� u giderek artan bir

ihtiyaç halini almaktadır (Lins and Gonçalves, 2004).

Web, Internet üzerinde en büyük yazılı belge kayna� ını olu� turan

servis olarak, çok dilli derlem kapsamında kar � ımıza çıkmaktadır. Web

servisi sa� layan sunucularda, dil olarak � ngilizce a� ırlıklı olmasına

ra� men, Babel13 tarafından, Web ortamındaki çok dillilik üzerine

yapılan ara� tırma, 1997 haziran’ ı itibari ile 14 farklı dile yayılmı � , 63,000 � ngilizce dı � ında, sunucu oldu� u tahmin edilmi � tir. Ayrıca,

Babel tarafından yapılan ara� tırmanın dı � ında kalmı � , Katalanca, Çince,

Macarca, � zlandaca ve Arapça dilinde sunucuların da sayısı artmaktadır

(Resnik, 1999). Çok dilli � in yanında, Web ortamı, dinamik içeri � e de

sahiptir. Bu özelli � i, kelime da� arcı � ı konusu ile, çok yakından

alakalıdır. Diekema ve arkada� ları, TREC-7 çalı � malarında, WordNet

1.5., kelime a� ına dayalı olan çalı � malarının ba� arımının, “Bosnia-

Bosnie” , gibi çok yüksek düzeyde konu ile alakalı kelimelerde olu� an

sözlüksel gediklerden, çok fazla yara aldı � ını belirtmi � lerdir (Voorhees

and Harman, 1998b). Yine TREC-7 çalı � malarında, çeviri esasına

dayalı çapraz-dil bilgi geri-getirimi üzerine ara� tırma yürüten Gey ve

arkada� ları, “acupuncture-Akupunktur” kelimesi ile örneklendirdikleri,

13 http://www.isoc.org


169

sözlüksel gedi � in, bireysel sorgular esasında, ba� arımı, duyarlılık

ölçüsünde 0,08 ile 0,83 arasında de� i � tirdi � ini belirtmi � lerdir!

Aslen, çok dilli belge uzayı olarak Web ortamında dil tespiti,

bahsedilen boyutları dı � ında, ayrıca yazılı metnin sayısal ortama alını � ı ba� lamında (elle yazılarak, fiziksel ortamlardan taranarak) ve dil

tespitinin kuramsal alt yapısı içinde karma� ıklık derecesi gibi

meseleleri de vardır. Kuramsal ba� lamda, hem karma� ıklık kuramı

(complexity theory) hem de özyineleme kuramı (recursion theory)

içerisinde, indirgeme temeline dayanan bir inceleme için, Jain ve

Sharma (1994) tarafından yapılan çalı � ma güzel bir örnektir. Yazılı

metnin, sayısal ortama alını � ı açısından, Web ortamında elle

yazılmanın dı � ında, ço� u belgenin özgün fiziksel ortamından (ka� ıt

v.b.) taranarak sayısal ortama alınması da söz konusudur. Bu yöntemle,

sayısal ortama alınan belgelerde, ek olarak yazılı karakterin tanınması

(character recognition) a� amasında meydana gelen, ek hatalarla da

u� ra� mak gerekmektedir (Sibun and Spitz, 1994). Sibun ve Spitz, resim

olarak taranan yazılı belgelerden, karakter ve kelimelerin, hesaplamalı

dilbilim için yeterli oldu� unu dü� ündükleri simgesel kar � ılıklara

atanması � eklinde bir yöntem önermi � lerdir.

9.1.1. Önceki Çalı � malar

Çok dilli belge uzayında, belgelerin hangi dillerde yazılmı �

oldu� unun tespitine yönelik yöntemler, a� ılıklı olarak istatistik/olasılık

kuramını esas alırlar. Olasılık esasındaki yöntemlerin, kural tabanlı en

iyi sistemle e� it veya ondan daha ba� arılı olaca� ı, Jain ve Sharma

(1993) tarafından do� rulandıktan sonra, tüm çalı � malar

istatistik/olasılık esasında do � al olarak yo � unla� mı � tır. Olasılık


170

esasında yöntemlere yönelimde, dilbilimsel yöntemlerin geli � tiri ldikleri

dile has kalmaları da önemli rol oynamaktadır.

Lins and Gonçalves (2004), Fransızca, � spanyolca, � ngilizce ve

Portekizce dillerinde yazılmı � , Web ortamındaki belgeleri birbirinden

ayırt etmeye çalı � mı � lardır. Yöntemlerinde, zarf, tanımlık (articles),

ba� laç, ünlem, sayı (kelime), edat ve özel isim sözcük türlerine giren

kelimeler üzerinden bir kurgu yapmı � lardır. Bu sözcük türlerindeki

kelimelerin, de� i � imlerinin ya olmadı � ını veya di � er sözcük türlerine

nazaran de� i � imlerinin ihmal edilebilir düzeylerde olmasında ötürü,

kapalı kelime da� arcı � ı ihtiyacını kar � ıladı � ını belirtmi � lerdir. Di � er

sözcük türlerine ait kelimelerin ayrıca, zaman ve depolama

karma� ıklı � ının yüksek oldu� unu, bunun sebebinin, dillerin kullanımı

ve geli � imi içerisinde söz konusu sözcük türlerine ait kelime

da� arcıklarının çok hızlı büyüdü� ünü, dolayısı ile de� erlendirmeden

çıkarttıklarını kaydetmi � lerdir. Kar � ıla� tırdıkları diller için,

kullandıkları her sözcük türüne ait kelimeleri, incelenen metnin

içerisinde arayarak, dili tespit etmeye çalı � mı � lardır. Çizelge 9.1.1.1.’de

ara� tırmanın sonucu, kullandıkları sözcük türlerinin, belirli dillerde

yazıldı � ı bilinen metinlerde, ortak olarak içerilmesi durumları � eklinde,

verilmi � tir. Önerilen yöntem ile, sonuç olarak Web için %80 do � ruluk,

düz metinler için %90 do� ruluk elde edildi � i belirti lmi � tir.

Tanıtaca� ımız ikinci yöntem, n-gram dil modelini esas almaktadır

(Suzuki et al, 2002). Yöntem, Web sayfalarının yazıldı � ı dil, yazı � ekli

(script) ve çözümleme � eması (encoding scheme) olmak üzere üç

özelli � ini belirlemek üzere tasarlanmı � tır. Yazar, � ngilizce’nin sayısal

dünyada standartla� mı � olması dolayısı ile, baskınlı � ından bahsetmekte

ve anadili veya yabancı dili olarak, 10 milyonun üzerinde ki � i tarafından konu� ulan 82 farklı dil oldu� undan bahsederek, bu dillerin


171

sayısal dünyada temsil edilmemesi ile ortaya çıkan, “sayısal

bölünmenin” (digital divide), olumsuz sonuçlarını ortaya da koymu� tur.

Çizelge 9.1.1.1: Fransızca, � spanyolca, � ngilizce ve Portekizce için yazılı metinden dil tespit sonuçları (Lins and Gonçalves, 2004).

# % # % # % # % # % # %Yok 1 0.11 0 0.00 0 0.00 1 0.18 3 1.89 2 1.92Bilinmiyor 61 6.64 31 4.78 12 1.93 27 4.73 141 88.68 85 81.73Portekizce 27 2.94 0 0.00 2 0.32 539 94.40 0 0.00 0 0.00�ngilizce 13 1.42 5 0.78 609 97.75 2 0.35 14 8.81 9 8.65�spanyolca 815 88.78 1 0.16 0 0.00 2 0.35 0 0.00 8 7.69

Fransızca 1 0.11 600 94.19 0 0.00 0 0.00 1 0.63 0 0.00

Almanca�talyanca

�spanyolca Fransızca

�ngilizce Portekizce

Suzuki ve arkada� ları (2002) tarafından geli � tirilen yöntem, di � er

n-gram dil modeli esasındaki yöntemlerden ayrılmaktadır. Yöntemde,

Web sayfasının de� erlendirmesi için hesaplama birimi olarak, bayt

(sekiz ikil) kullanılmakta, bilgisayar ortamında son yıllarda tüm yaygın

dilleri içine alan Unicode (UCS, ISO/IEC10646) standardı da

hesaplama içinde de� erlendirilmektedir. Dolayısı ile, karakter esaslı

olmayan Asya dilleri de, tespit edilmekte ve birbirlerinden

ayrılabilmektedir. Di � er yöntemlerde ise, karakter veya kelime esasında

çalı � ılmaktadır. Ancak, bu yöntemin taranmı � belgeler üzerinde, di � er

karakter esasındaki n-gram yöntemleriyle aynı akıbeti payla� tı � ı da

unutulmamalıdır. Yöntemde, özgün metne ait bayt akı � ı, 3 bayt

uzunlu� unda ve “shift-codon” (“codon” terimi genetik sahasından

gelmektedir ve DNA zincirini olu� turan genetik kodun temel birimidir)

olarak adlandırılan hesaplama birliklerine çevrilmektedir. Daha sonra,

yazılı metinlerin bayt akı � ı içinde, bu hesaplama birliklerinin, n-gram

olarak istatistikleri çıkartılarak, diller birbirinden ayırt edilmeye

çalı � ılmaktadır. Örne� in, 184 KB büyüklü� ünde, Almanca yazılı bir


172

metinden, çıkartılan farklı “shift codon” sayısı 10,422 olarak; 177 KB

büyüklü� ünde � ngilizce bir metinden çıkartılan farklı “ shift codon”

sayısının 8,897 oldu� u belirtilmi � tir (Bilgimiz dahilinde, Türkçe için

“shift codon” sayısının belirlendi � i bir çalı � ma yoktur). Çalı � mada,

� spanyolca, Portekizce, Almanca, Romanca ve � ngilizce için belirleme

yapılmı � , sadece Portekizce için az bir kayıp ya� andı � ı, di � er dillerin

tam do � rulukla tespit edildi � i belirtilmi � tir. Yöntemin aleyhte yönü

olarak, bir arama motoruna çevrim-içi olacak � ekilde yüklenememesi

gösterilmi � tir. Sebep olarak da, yöntem de kullanılan “shift codon”

sayısının çok büyük boyutlarda olması verilmi � tir.

Dil tespiti üzerine, n-gram dil modelini esas alan tanıtaca� ımız

çalı � ma, Cavnar ve Trenkle (1994) tarafından önerilen yöntemdir.

Yöntemde, n-gram dil modeli, yazılı dildeki harfleri hesaplama birimi

olarak kullanılmaktadır. Ancak, n-gram olarak çıkartılan harf birlikleri

kelime sınırları içerinde kalmakta, kelimeden kelimeye atlamamaktadır.

Dolayısı ile, bu yöntem için yazılı metnin önce simgele� tirilmesi, yani

normalle� tirilmesi yapılmaktadır. Daha sonra, bir alı � tırma derleminden

en yüksek gözlenme sıklı � ına sahip, n-gramlar belirlenmektedir.

De� erlendirme altındaki tüm diller için, aynı � ekilde n-gram

istatistikleri çıkartılmaktadır. Çalı � mada ele alınan altı dil için (Datca

(Hollanda’da konu� ulan Almanca’nın türevi bir dil), Fransızca,

Almanca, � talyanca, Lehçe/Polca , Portekizce ve � spanyolca), metin

büyüklü� ünün, 22KB ile 150KB arasında de� i � en büyüklerinde rapor

edilen sonuçlara göre, söz konusu dilleri tam do � rulukla ayırt

etmektedir. Metin büyüklü� ü açısından alt sınır olarak, � ngilizce ile

� spanyolca arasında yakalanmı � olan 4 Kbayt (yakla� ık 700 kelime)

verilmi � tir.


173

Olasılık/ � statistiksel yöntemlere son örne� imiz, gizli Markov

zincirleri dil modelini esas alan ve Dunning (1994) tarafından önerilen

yöntemdir. Yöntemde, yine harfler hesaplama birimi olarak alınmı � (n-

gram), ancak, kelimeler arası geçi � mümkün kılınmı � tır, daha do� rusu,

yazılı metinden, harf dı � ında tüm simgeler atılmı � ve metin uzun bir

harf dizisi haline getirilmi � tir. Dolayısı ile, kelime sınırları ortadan

kalkmı � tır. Olasılık/ � statistik modeli olarak birinci dereceden, gizli

Markov zinciri kullanılmı � tır. Çalı � manın sonucu olarak, 50KB

alı � tırma derlemi ile, 20 bayt uzunlu� undaki deneme metinlerde %92

do� rulu� a ula� ıldı � ı; deneme metni, 500 bayt oldu� unda %99

do� rulu� a ula� ıldı � ı; deneme metni, 500 bayt iken, alı � tırma derlemi,

5KB oldu� unda %97 do� rulu� a ula� ıldı � ı rapor edilmi � tir. � statistiksel

anlamlılık ba� lamında, deneme metni 100 bayt ve üzeri, alı � tırma

derlemi de 50KB ve üzerinde oldu� u durumlarda, do� rulu� un %99’dan

büyük olması ihtimali %90 olarak verilmi � tir.

Yazılı belgelerden, Türkçe’nin tespitine yönelik çalı � malara,

bilgimiz dahilinde verebilece� imiz tek çalı � ma Dalkılıç ve Dalkılıç

(2002) tarafında, yazılı Türkçe’nin n-gram istatistikleri ile ilgili

yaptıkları çalı � mada ortaya konan önerilerdir. Önerilerden ilki,

� ngilizce ve Türkçe ayrımı için, kelime uzunluklarının enformasyon

olarak kullanılabilece� idir. Bu önermenin temelinde, Türkçe ve

� ngilizce’de de� i � ik kelime uzunlukları için, metinlerde görülme sıklı � ı

oranlarının, yani kelime uzunlu� u da� ılımlarının farkıdır. � kinci öneri,

kelime sonundaki harfin sesli veya sessiz olu� una göre karar

verilebilece� idir: � ngilizce’de sadece kelimelerin %28’ i sesli harfle

biterken, Türkçe’de kelimelerin yakla� ık %50’si sesli ile bitmektedir.

Son öneri, Türkçe kelimelerin ba� langıcında ve biti � inde iki sessiz

harfin yan yana gelmedi � idir. � ngilizce’de ise, bu durum, 26 en çok

gözlenen desen içinde 6 desende gözlenmi � tir. Önerilerinde, örne� in


174

100 kelime içerisinde %5’ in üzerinde ba� langıcı veya biti � i iki sessiz

harf olan varsa, metnin yüksek olasılıkla � ngilizce olaca� ıdır.

Dalkılıç ve Dalkılıç tarafından yapılan çalı � mada yer alan

önermeler, mevcut kurgular içinde n-gram esasına dayanan

çalı � maların içeri � i i le örtü� mektedir. Zaten, özgün çalı � manın

hedefindeki konu da, Türkçe’nin n-gram istatistiklerini çıkarmaktır.

Ancak, mevcut yöntemlerle birlikte de� erlendirildi � inde, özellikle

Cavnar ve Trenkle (1994) tarafından yapılan çalı � mada kelime

sınırlarında kalınması durumu hakkında, Dunning (1994) tarafından

yapılan çalı � mada, ortaya konan ele� tirinin ne kadar haklı oldu� u

ortaya çıkmaktadır. Dunning, çalı � masında kelime sınırında

kalınmasının, çok ciddi enformasyon kaybı meydana getirmesi

ihtimalinden bahsetmektedir. Kelimelerin dizili � inin de, enformasyon

ta� ıyaca� ı konusuna de� inmektedir. Dalkılıç ve Dalkılıç’ ın ikinci

önerisine bakıldı � ında, yani Türkçe kelimelerin ilk ve son harfleri

arasındaki gözlenme sıklı � ı ile, dil ayrımı yapılabilece� i önerisine

bakılınca, kelimeden kelimeye geçi � in önemi daha da netle� mektedir.

Son öneride de, not edilmesi gereken bir nokta vardır. Türkçe’de en çok

gözlenen 26 sesli-sessiz harf desenleri içinde, kelime sonunda iki sessiz

bulunmayabilir, ancak, Türkçe’nin altı hecesinden biri olan, sessiz-

sesli-sessiz-sessiz deseni, öneriyi varlı � ı ile zayıflattı � ı da bir gerçektir.

Dolayısı ile, bu önerme uygulamada kullanılırken söz konusu durumun

göz önünde bulundurulması gerekir. Aslen, önermenin ilk kısmını

olu� turan, kelime ba� ında sessiz-sessiz deseni bulunmaması, bu tür bir

ihlali içermedi � inden, tek ba� ına kullanılmasının dü� ünülmesinde fayda

vardır: Tabii, ba� langıçta ve sonda gözlenmemenin, hangi oranda aynı

kelimelere denk geldi � i ile paralel büyüklükte güçlenerek. E� er,

ba� langıçta ve sonda gözlenmeme, tamamen farklı kelimelerde

meydana geliyorsa, her iki öneri de birlikte kullanılmalıdır.


175

9.1.2. Öner ilen Yöntem

Türkçe yazılı metinlerin, çok dilli bir belge uzayından

belirlenmesi amacıyla, bu tez ile önerilen Türkçe hecelemenin (Bölüm

2) ayrımda belirleyici olaca� ıdır. Önermenin biçimsel hali � öyledir:

Önerme 9.1.2.1: Çok dilli bir belge uzayında, içerdi � i kelimeleri belirli bir oranın üzerinde, Türkçe alfabe ile yazılmı � ve belirlenen kurallar çerçevesinde (sesbilim özellikleri de dahil) hecelenebilen metinler Türkçe’dir.

9.1.3. Deneysel Sonuçlar

Önermemizi, elimizde olan � ngilizce üç farklı derlem ve bir

Türkçe derlem üzerinden sınadık. Derlemler, özellikleri ile birlikte,

Çizelge 9.1.3.1.’de verilmi � tir.

Çizelge 9.1.3.1: Türkçe belgelerin tespitine ait deneysel sonuçlar.

Der lem Kelime Farklı Hece ~Hece OranTime 249,493 20,856 102,776 146,717 0.412Cranfield 249,824 8,189 94,322 155,502 0.378Medalars 155,411 12,609 61,450 93,961 0.395Türkçe 635,158 88,375 610,717 24,441 0.962

Çizelgede verilen sonuçlarda, “Oran” sütunu, toplan kelimelerden

hecelenebilenlerin sayısını oran olarak göstermektedir. “Kelime”

sütunundaki sıklık de� erleri sadece harf birlikleri içindir; rakamlar,

noktalama i � aretleri dahil de� ildir. “Farklı” sütununda ise, kelime

da� arcı � ının büyüklü� ü, yani farklı biçime sahip kelime, harf birli � i

sayısı verilmi � tir. “Hece” sütununda, hecelenebilmi � kelime sayısı,


176

“~Hece” sütununda da, hecelenemeyen kelime sayısı verilmi � tir. Görüldü� ü gibi, � ngilizce derlemlerin üçü de yakla� ık %40’ ın altında

bir heceleme oranına sahipken, Türkçe derlemdeki hecelenebilme oranı

%96’dır.

Uygulamada, örne� in bir metinde %70 hecelemenin üzerine

çıkılmı � sa, o metin Türkçe olarak kabul edilmektedir.

9.2. Türkçe Metinler in Normalle� tir ilmesi


Hesaplamalı dilbilim sahasında, genel anlamda metin

normalle� tirme, özelde cümle sonlarının tespiti, meselesi için

geli � tirilen çözümler, esas aldıkları yakla� ımlar açısından iki ba� lık

altında toplanabilir: kural tabanlı ve makine ö� renimi (machine

learning). Kural tabanlı bir cümle sonu tespit yordamının iki yapısal

unsuru bulunmaktadır. Birinci unsur, genellikle düzenli deyim dilbilgisi

(regular expression grammar) � eklinde kodlanan, elle olu� turulmu �

veya bir talim derleminden özümsenerek elde edilmi � kurallardır. � kinci

unsursa, tasarlanmı � yordamın ihtiyaçlarına göre � ekillendirilmi � , bir

listedir. Listede, kelimeler, kısaltmalar v.b. anlamsal birlikler ve bu

anlamsal birliklere ait yordamın ihtiyaç duydu� u özellikler kümesi

bulunur. Örne� in, Aberdeen ve arkada� ları (1995), Alembic çalı � ması

için altyapı hazırlarken, 100 düzenli deyim kuralından olu� mu� bir

yöntem kurgulamı � ve uygulamı � tır. Aslen, kural tabanlı sistemlerin iki

açmazı vardır. Birincisi, düzenli deyimler � eklinde en iyi kural

kümesini olu� turma i � i belirsizdir. Kuralları tanımlamak için bir

standart yoktur. � kincisi, yordamı için olu� turulan tasarımların, talim


177

için kullanılan derleme çok fazla ba� ımlı olması, dolayısı ile, di � er

derlemlere genellenememesi.

Cümle sonu tespiti için, makine ö� renimi esasında geli � tirilmi �

pek çok yöntem bulunmaktadır. Bu çalı � malara verilebilecek örnekler:

Reynar and Ratnaparki (1997) tarafından, en yüksek düzensizlik

yakla� ımı esasında geli � tirilmi � olan; Riley (1989) tarafından, karar

a� acı ile sınıflandırma esasında geli � tirilmi � olan; Palmer and Hearst

(1997) tarafında, yapay sinir a� ları esasında geli � tirilmi � olandır.

Ayrıca, iki yakla� ımında melezi olan, Mikheev (1997) tarafından

geli � tirilmi � olan yöntemin örnek verilebilece� i çalı � malarda vardır.

Mikheev çalı � masında, önce gizli Markov zinciri dil modelini esas alan

bir yordamla sözcük türlerini tespit etmi � . Sonrasında bu sözcük türü

enformasyonunu da kullanarak, en yüksek düzensizlik esasında cümle

sonu tespiti yapmı � tır.

Türkçe tarafında cümle sonu tespiti çalı � maları için verilebilecek

ilk örnek Tür (2000) tarafından, doktora çalı � masında geli � tirdi � i

yöntemdir. Yöntem için, %95,66 do� ruluk de� eri rapor edilmi � tir. Tür,

çalı � masında hesaplama birimi olarak kelimeleri esas alan bir gizli

Markov zinciri dil modeli kullanmı � tır. Ayrıca, kelimelere ait biçimsel

çözümlemeler, do � rusal interpolasyon ile modelin olasılık da� ılımına

katılmı � tır. Dolayısı ile, önerilen yöntem, bir sözlük kullanmaktadır ve

biçimbirimsel analiz yapılmamı � bir derlem için yöntem

kullanılamamaktadır. Kullanılan biçimbirimsel analiz yöntemi, Oflazer

(1993) tarafından geli � tirilmi � olandır.

Di � er çalı � malar, Oflazer ve arkada� ları (2003) tarafından

yapılmı � olan ve Ziegenhain ve arkada� ları (2003) tarafından Siemens

firması deste� inde yürütülmü� LC-STAR adlı bir ticari çalı � mada,


178

Türkçe için de kullanılan kural tabanlı yöntemdir (Bu projenin Türkçe

konusundaki çalı � maları, Kemal Oflazer tarafından yapılmı � tır.).


Türkçe cümle sonu tespiti için, bu tezde önerilen yöntem,

“Türkçe yazılı belgelerin tespiti” için önerilen yöntemdir, yani

hecelemedir. Kullanılan yordam için, yazılı metindeki birliklerin

tespitine, yani simgele� tirmeye ve birliklere ait bazı biçimsel özelliklere

(büyük/küçük harf, rakam, noktalama i � areti) ihtiyaç vardır.

Önerme 9.2.2.1: Türkçe yazılmı � metinde, “nokta”dan önce gelen harf birli � i heceleniyorsa, söz konusu “nokta”nın cümle sonu olması ihtimali, cümle sonu olmaması ihtimalinden yüksektir.

Önerme 9.2.2.1.’de verilen karar verme � ekli, yöntem içinde

belirli bir yordam, olu� turulmu� bir kurgu içinde belirsizli � in en yüksek

düzeyinde kullanılmaktadır. Dolayısı ile, önermemiz her “nokta”

gözlenen yerde kullanılarak cümle sonu tespitine gidilmemi � tir. Ayrıca

geli � tirilmi � olan bir cümle sonu tespit yordamı içinde, belirsizli � in

yüksek oldu� u bir durumu çözümleme a� amasında kullanılmı � tır. Söz

konusu cümle sonu tespit yordamını tanımlamak için bir simge sistemi

olu� turulmu� tur. Öncelikle bu simge sisteminin tanıtılmaya ihtiyacı

vardır. Sonrasında, yordam simge sistemi kullanılarak verilecektir.

Cümle sonu tespit için, tez kapsamımızda kullandı � ımız simge

sistemi Çizelge 9.2.2.1.’de liste halinde verilmi � tir.


179

Çizelge 9.2.2.1: Cümle sonu yordamını tanımlamada kullanılan simge sistemi.

Simge Anlamı

w Ba� langıcında küçük harf bulunan tüm harf birlikleri.

W Ba� langıcında büyük harf bulunan tüm harf birlikleri.

# Tüm rakam birlikleri. (Gerçek sayı, tam sayılar rakamla veya yazı ile, tarih, saat, telefon numaraları, v.b.)

T Kesme/Tırnak (‘ )

TT Çift tırmak (“ )

K Tire (-)

V Virgül (,)

( Parantez açma i � areti

) Parantez kapama i � areti

: � ki nokta üst üste

; Noktalı virgül

P Tüm noktalama i � aretleri ve di � er simgeler ( %, &, $, v.b.)

EOS Cümle sonu

~EOS Cümle sonu de� il

∞ Tanımlanabilecek tüm yazım birlikleri (w, W, #, T, TT, K, V, “ (“ , “)” , P)

Çizelge 9.2.2.1.’de verilen simge sistemi ile, cümle sonu tespit

yordamında kullandı � ımız hesaplama birimi, bir üçlü � eklinde

tanımlanabilmektedir. Yordamda kullanılan hesaplama birimi, “nokta”

ve etrafındaki iki birliktir. Örne� in, [w * W] � eklinde, noktadan önce

ba� langıcı küçük olan bir harf birli � i, noktayı (* i � aret nokta için

kullanılmakta) ve noktadan sonra ba� langıcında büyük harf olan bir

harf birli � i, üçlü olarak temsil edilmektedir. Cümle sonu tespit

yordamının karar verme a� amalarında, talim derleminde kar � ıla� ılan

her durum, bu biçimde üçlü � eklinde cümle sonu olma veya olmama

açısından de� erlendirilmektedir.

Cümle sonu tespiti için kullandı � ımız yordam, simge sistemi

üzerinden tanımlanan tüm durumlar için alınabilecek üç karardan


180

olu� maktadır, yani her durum için “ cümle sonu” , “cümle sonu de� il” ve

“belirsiz” � eklinde bir karar vermektedir:

• E� er üçlü ile temsil edilen durum listelenenlerden biriyse, “ nokta”yı, “ cümle sonu” olarak i � aretle: [w*W] , [w* #] , [w*P] , [W*#] , [W*TT] , [W* ( ] , [W* )] , [W* K] , [P*∞] .

• E� er üçlü ile temsil edilen durum listelenenlerden biriyse, “ nokta”yı, “cümle sonu de� i l” olarak i � aretle: [W*w] , [W*V] , [#* w] , [#*W] , [#*#]

• Di � er durumlarda “belirsiz” olarak i � aretle ve detaylı incelemeye al.

Yordam ile “belirsiz” olarak i � aretlenen durumlar çalı � mamızın

ve önermemizin hedefinde bulunmaktadır. Dolayısı ile, deneysel

çalı � ma ile önermemiz bu “belirsiz” durumlar için sınamayı

içermektedir.


Tanımlanan yordamın, karar verme a� amalarında kullanılan üçlü

birliklerin her durumu için Çizelge 9.2.3.1.’de özellikleri verilen

deneysel bir derlem kullanılmı � tır. Aslen, bu deneysel derlem BilTD

derleminde seçilmi � bir bölümdür ve cümle sonları kontrol edilmi � ve

bulunan hatalar elle düzeltilmi � tir.

Çizelge 9.2.3.1: Cümle sonu tespiti için kullanılan Türkçe derlemin belirli özellikleri.

Bir lik ~EOS EOS Toplam

168,375 674 12,026 12,700

Nokta sayısı


181

Deneysel derlemde, her nokta cümle sonu olup, olmaması

açısından belirlenmi � ve noktanın önündeki ve ardındaki birlikler

belirlenerek karar vermede kullanılacak her bir durum tespit edilmi � tir. Yapılan çalı � manın sonuçları Çizelge 9.2.3.2.’de tablo halinde

verilmi � tir. Çizelgeden [ P * ∞] üçlüsü çıkarılmı � tır. Bunun sebebi, bu

üçlü birli � i tüm durumlarının, yani gözlenen 495 durumun hepsinin

cümle sonu olmasıdır.

Deneysel derlemden çıkartılan durumları, belirsizli � i en yüksek

olandan dü� ü� e do� ru inceleyerek, cümle sonu tespiti yordamımızda,

“belirsiz” olarak i � aretlenecek üçlü birlikleri listelemi � olaca� ız.

Sonrasında, her belirsiz durumun çözümü verilerek yordamın

tanımlaması tamamlanacaktır.

Çizelge 9.2.3.2: Cümle sonu tespit yordamında kullanılan ve üçlü birlikle temsil edilen durumlar için Türkçe derlemden çıkartılan istatistikler.

Durum EOS ~EOS Durum EOS ~EOS Durum EOS ~EOS

[w * w] 8 10 [W * w] 0 10 [# * w] 0 267

[w * W] 9395 1 [W * W] 739 183 [# * W] 36 106

[w * #] 320 2 [W * #] 44 1 [# * #] 1 27

[w * T] 41 1 [W * T] 3 5 [# * T] 0 1

[w * TT] 601 0 [W * TT] 41 1 [# * TT] 0 16

[w * ( ] 57 0 [W * ( ] 9 0 [# * ( ] 0 1

[w * ) ] 19 0 [W * ) ] 3 0 [# * ) ] 1 3

[w * K] 174 0 [W * K ] 38 0 [# * K] 0 8

[ w * / ] 1 0 [W * V] 0 3 [# * V] 0 28

Toplam 10616 14 877 203 38 457

Deneysel derlemde kar � ıla� ılan durumların, cümle sonu olu�

açısından belirsizli � i en yüksek olandan, en dü� ük olana do� ru

sıralanmı � � eklideki � öyledir:


182

1. [w*w] : ba� langıcında küçük harf olan bir harf birli � i, nokta ve ba� langıcından yine küçük harf olan bir harf birli � i. Bu sınıftaki durumlar, gözlenme sıklı � ı açısından az olmasına ra� men, derlemimizde oransal olarak en büyük belirsizli � e sahip olandır. Bu durumun tamamını ~EOS, yani “cümle sonu de� i l” olarak i � aretlemek en uygun karar olacaktır. Çünkü, kar � ıla� ılmı � 10 EOS durumunun tamamı, :“ … yapıldı. c-) Ba� kanlıklar ….” biçiminde madde imleridir. Ayrıca, madde imi belirleme meselesi, rahatlıkla simgele� tirmeye dahil edilip halledilebilecek bir konudur. Dolayısı ile, bu belirsizlik cümle sonu tespit a� amasına da dahil olmayacaktır.

2. [W*W] : ba� langıcında büyük harf olan bir harf birli � i, nokta ve ba� langıcından yine büyük harf olan bir harf birli � i. Bu sınıftaki durumlar, gözlenme sıklı � ı açısında, belirsiz durumlar içerisinde en yüksek de� ere sahip olandır. Bu durum genellikle unvan (“Prof. Dr. Mustafa …” ) ve özel isim kısaltmaları (“ … küçük A. H. yalnız …” ) gibi yazım biçimleri içinde gözlenmektedir.

3. [#*W] : noktadan önce bir rakam birli � i, nokta ve sonrasında ba� langıcı büyük harf olan bir harf birli � i. Bu sınıftaki durumlar da, yüksek gözlenme sıklı � ına sahiptir, ancak ~EOS, yani cümle sonu olmama, EOS, yani cümle sonu olmasına göre daha baskındır. Cümle sonu olmadı � ı durumlar, genellikle “… 2. Tümen ...” gibi “ inci” anlamında, sıralama amacıyla kullanılmaktadır. Cümle sonu oldu� u durumlar da, “… ölenlerin sayısı en az 28. Fransa’da 10 …” örne� inde oldu� u gibi sayısal de� er belirtmektedir.

4. [#*P] : noktadan önce bir rakam birli � i, nokta ve sonrasında bir noktalama i � areti. Bu durumun baskın � ekli, “ … 2.’ lik için mücadele …” örne� inde oldu� u gibi, ~EOS, yani cümle sonu olmamadır. Ancak, “ … (…kitabı sf. 27.). …” örne� inde oldu� u gibi, EOS, yani cümle sonu olması da söz konusudur. Aslen, cümle sonu olu� durumu, toplam 50 durum içinde, 1 kere gözlenmektedir. Dolayısı ile, bu durumun tamamını, “cümle sonu de� i l” � eklinde kabul etmek, hesaplama açısında daha avantajlıdır. Derlem açısından, bu kararın toplamda ortaya çıkardı � ı hata, 1/12700 gibi çok küçük bir de� erdir.


183

5. [W * TT] and [w * TT] : noktandan önce ba� langıcı küçük harf veya büyük harf olan bir harf birli � i, nokta ve sonrasında çift tırnak. Bu duruma uygun örneklerin, derlemde baskın olan gözlem � ekil EOS, yani cümle sonu olmadır. Bilindi � i gibi, çift tırnak, genellikler yazıyı hazırlayan yazarın, ba� ka yazarlardan alıntıların ve konu� maların aktarılması için kullanılır. Ancak, günümüz yazım

� eklinde, özellikle gazete ve dergi haberlerinde, çift tırna� ın “… yerine “ Gelme” nin …” örne� indeki gibi, kesme i � aretini de kar � ılar halde kullanıldı � ı görülmektedir. Bu durum, ayrıca dikkat edilmesi gerek bir meseledir. Çünkü, kural de� il, istisnanın yaygınla� masıdır.

Derlemden tespit edilen ve yukarıda listelenen belirsiz durumlar,

toplam 310 belirsiz durumun, 303’ ünü kapsar.

Cümle sonu tespit yordamını ve önermemizi de� erlendirirken,

yordam tarafından “belirsiz” olarak i � aretlenmi � olan 310 durumu da,

EOS, yani cümle sonu olarak kabul edersek, yalın olarak ba� arım

%94,69 do� ruluk de� erine sahip olur. Bu de� er, yalın olarak yordam

kullanıldı � ında elde edilecek e� ik do� ruluk de� eridir. Amacımız,

heceleme esasına dayanan önermemizle, do� rulu� u ne kadar

arttırabilece� imizi tespit etmektir. Çözümlerimizle ula� tı � ımız en

yüksek ba� arım de� eri %96,24’dir.

[W * W] belirsizli � inin çözümü. E� er bu durum için gözlenen

739 örnek, e� ik de� erin kabullenmesindeki gibi EOS, yani cümle sonu

olarak kabul edilirse, geriye kalan 183 ~EOS gözlemi hata olacaktır.

Dolayısı ile, durumun kendi içinde %19,84 (183/922) de� erinde bir

hata, derlem genelinde de %1,44 (183/12700) de� erinde hata meydana

gelecektir. Yani, derlem genelinde, e� ik ba� arımın ötesini olu� turan

%5,31 de� erindeki hatanın, 1,44’ü sadece bu durumdan

kaynaklanmaktadır. Derlemde yapılan incelemede, gözlemlerin


184

genellikle, kısaltmalar v.b. örneklerden olu� tu� unu belirtmi � tik.

Heceleme esasındaki önermemiz ile bu durumda meydana getirdi � imiz

iyile� tirme, Çizelge 9.2.3.3.’de tablo biçiminde verilmi � tir. � lk

de� erlendirmede, heceleme ile bu durum için toplam hata oranı, kendi

içinde %6,8 de� erine inmi � tir (27+36/922), dolayısı ile özgün de� er

olan %19,84 de� erinden, yakla� ık %65 indirgemeye kar � ılık

gelmektedir. Söz konusu ba� arım artı � ı i le, derleme yansıyan hata

oranında, yani %1,44 de� erinde da, %0,5 bir indirgeme meydana

gelmektedir. Ayrıca, heceleme ile olu� mu� olan “ yanlı � alarm”

durumları detaylı olarak incelendi � inde, 27 yanlı � alarmdan, 18

tanesinin tek sesli harften olu� an heceler oldu� u tespit edilmi � tir. Ancak, Türkçe’de tek sesli harften olu� an kelime sadece, “ o” ve

nadiren “a” (ünlem edatı) kelimeleridir. Dolayısı ile, yanlı � alarmlardan

18 tanesi de kontrol altına alındı � ında, kendi içinde hata oranı %4,8

de� erine inmekte, derlem genelinde yaratılan toplam hata de� erinden,

yakla� ık %0,35 dü� ü� meydana gelmektedir. Özetle, heceleme

esasındaki önermemizle, toplam e� ik ba� arım de� eri, %94,69’den

%95,78’e çıkmaktadır (94,69 + 1,09).

Çizelge 9.2.3.3: Cümle sonu tespitinde, [W* W] durumu için, heceleme önermesi ile meydana gelen hata oranları.

Hece ~Hece Toplam

EOS 703 36 (hata) 739

~EOS 27 (yanlı � alarm) 156 183

[# * W] belirsizli � inin çözümü. E� er bu durum için gözlenen 36

örnek, e� ik de� erin kabullenmesindeki gibi EOS, yani cümle sonu

olarak kabul edilirse, geriye kalan 106 ~EOS gözlemi hata olacaktır.

Derleme yansıyan toplam 5,31 puanlık hatanın, 0,83 (106/12700) puanı

bu durumdan kaynaklanır. Dolayısı ilk yapılacak � ey, durumu ~EOS


185

olarak almaktır. Böylece, derleme yansıyan hata, puan olarak 0,28’e

inecektir. Genel ba� arım, %95,78’den, %96,06’ya çıkacaktır (0,83-

0,28). Bu 36 hatadan 5’ i, “… 3.’ lük Aydın, …” örne� indeki gibi, içinde

kesme ile ayrılmı � harf birli � i içerenlerdir. Kullandı � ımız

simgele� tirme yönteminde, “ 3.’ lük” gibi karma birlikler rakam birli � i

olarak belirlenmektedir. Cümle sonu tespitinde kullanılan yordam da,

noktayı aramaktadır. Nokta birinci birlik içinde kalmaktadır ancak, hem

bu durum hem de [#*T] durumu tetiklenmektedir. Bu hata,

simgele� tirme yordamının genele hitap etmesinden, cümle sonu tespiti

için uyarlanmamasından kaynaklanır. Sadece cümle sonu tespitinde

kullanılacak bir simgele� tirme tasarlanarak hata olu� madan da

önlenebilir. Ayrıca 5’ i de, “… suare 18:30. Harbiye …” örne� indeki

gibi, içinde iki nokta üst üste i � areti bulunduranlardır. Geriye kalan 26

hata ise, “… Zafer yılı : 1996. Fenerbahçe …” ve “… kazanan ilk üç

numara 7 4 6. …” gibi örnekleri olanlarla, “ Tel: 0312 555 55 55. …”

örne� indeki gibi telefon numarası içeren durumlardan meydana

gelmektedir. � lk 10 hata yaratan EOS, aslen içerdikleri enformasyon ile,

belirsizli � e yol açmadan EOS olarak belirlenebilir. Dolayısı ile,

toplamda geriye hata olan ve belirsiz olarak i � aretlenmi � 26 durum

kalır. Ancak, bu durumlarda detaylı incelendi � inde, 13 durumun

tamamında, sayı, numara, rakam, yıl, sene, tarih kelimelerinden biri

kullanılmı � tır . Dolayısı ile, geriye ~EOS olarak belirlenmi � 23, belirsiz

olan 13 durum kalır. Özetle, genel ba� arım %94,69’dan %96,24’e çıkar

(0,28 – 0,18).

9.3. Gövdeleme

Gövdeleme i � leminin tanımı � öyledir:


186

“ Aynı gövdeye sahip tüm kelimelerin, genel olarak, yapım ve çekim eklerinin atılması ile, ortak bir biçime getirilmesi için kullanılan bir yordamdır.”

(Lovins, 1968)

Bilgi geri-getirim sahasında ve hesaplamalı dilbilim sahasında �ngilizce a� ırlıklı olmak üzere, analitik diller için pek çok gövdeleme

yöntemi geli � tirilmi � tir. Analitik diller, biçimbirimsel üretkenlik

açısından, Türkçe gibi biti � ken dillere nazaran daha takip edilebilir

niteliktedir. Ek sistemleri, örne� in Türkçe’de oldu� u gibi, kelimelere

ait dilbilgisi özelliklerinin tamamını kar � ılamak üzere kullanılmaz.

Sadece belirli ve basit dilbilgisi özellikleri için kullanılır (bazı

kelimeler için ön-ek ile olumlu olumsuz hal üretme, kelimelerin ço� ul

hallerini yapma v.b.). Dolayısı ile, gövdeleme i � lemi, nispeten kolay bir

i � tir. Tüm gövdeleri tespit edebilmek için sadece 1200 biçimbirimsel

de� i � ikli � i üretebilen bir düzenli deyim sistemi kullanımı bile

yetebilmektedir (Porter, 1980).

Türkçe gibi biti � ken dillerde, kelime üretimi ve kelimelerin

dilbilgisi özellikleri ek sistemi kullanılarak sa� lanır. Türkçe’de yapım

ve çekim eklerinin kurallarına ba� lı kalarak kullanımı ile, üretilebilecek

anlamlı gövde sayısı, sadece tek bir kelime için dahi milyonun üzerinde

olabilmektedir (Hankamer, 1984). Dolayısı ile, hesaplamalı dilbilim

sahasında kullanılacak, Türkçe için bir gövdeleme yordamı, analitik

dillerde oldu� u kadar basit � ekilde kurgulanamaz. Ancak, bilgi geri-

getirim sahasında, gövdeleme yordamından beklenen, hesaplamalı

dilbilim sahasındaki ile bire bir örtü� mez.


187


Bilgi geri-getirim sahasında, � ngilizce gibi analitik diller ve

Fransızca, Almaca gibi orta-Avrupa dilleri için kullanılan gövdeleme

yöntemleri 4 ba� lık altında toplanabilir: tablodan arama (table lookup),

takibin de� i � imi (successor variety), n-gram ve ek-atma.

Tablodan bakma yöntemlerinde, adından da anla� ılaca� ı gibi,

kelimelerin yazım biçimleri ve yazım biçimlerine ait gövdeler bir tablo

halinde tutulur. Yazımda kar � ıla� ılan harf birli � i bu tabloda yazım

biçimleri içinden aranır, bulunursa, kar � ılık gelen gövde seçilir. Ancak,

pratikte ne analitik diller için, ne de biti � ken diller için böyle genel bir

tablo yoktur. Sadece, kısıtlı konu ba� lıkları için böyle bir tablo

olu� turulabilir. Ayrıca, depolama da mesele yaratan bir konudur.

Takibin de� i � imi yönteminde, kelime veya biçimbirim

sınırlarının tespiti için, sesbirimlerinin (Türkçe için harfler olmakta)

büyük derlemlerden elde edilen deneysel da� ılımlarından yararlanılır.

Belirli bir kelime için, takibin de� i � imi kelime ba� ından sonuna do� ru

uygulanır, yani Türkçe’de ba� tan sonu do � ru her seferinde bir harf

ilerlenir. Bir kelime için takibin de� i � iminin de� eri, hesaba daha fazla

harf katıldıkça, yani ba� tan sona ilerlendikçe azalır.

Bir n-gram esaslı gövdeleme yönteminde, sorgu ve belge

birlikleri arasındaki benzerlik ölçülür. Boyu m karakterden olu� an bir

birlikten, m-n+1 adet n-gram çıkar. Benzerli � i ölçülecek bir birlik çifti

için Dice katsayısı (Dice’s coefficient : Denklem 9.3.1.1.) hesaplanır ve

n-gramların kar � ılıklı de� erleri bir matris haline getirilir. Daha sonra,

her birlik çifti için olu� turulan matrisler kullanılarak, terimler tekil-ba�


188

kümeleme yöntemi kullanılarak öbekler haline getirilirler, dolayısı ile

her öbek bir gövde, yöntemde bir anlamda gövdeleme olur.

)/(2 BACS += (9.3.1.1)

Denklem 9.3.1.1.’de, C terimi, iki birlik tarafından ortak olarak

içerilen farklı n-gram sayısını temsil eder. A ve B terimleri de,

kar � ıla� tırılan iki birlikten her birinde içerilen farklı n-gram sayılarını

temsil eder.

Ek atma yöntemleri, yine adında da anla� ılaca� ı gibi, kelimelerin

yazıda geçen biçimlerinden, ön-eklerin ve son-eklerin atılması ile

kelime gövdesini olu� tururlar. Porter (1980) tarafından kural tabanlı

olarak geli � tirilen yordam, bu sınıftaki gövdeleme yöntemlerine güzel

bir örnektir.

Türkçe için geli � tirilmi � olan birkaç gövdeleme yöntemi

bulunmaktadır ve gövdeleme hem hesaplamalı dilbilim hem de bilgi

geri-getirim sahasında çalı � ılmı � bir konu olarak, kelime dilbilgisi

özelikleri içerisinde en çok incelenen konu olmu� tur. Bunun haklı

sebepleri vardır. Gövdeleme bilgi geri-getirim sahasında bir çok

çalı � ma ile geri-getirim ba� arımını tutarlı � ekilde arttırıcı bir unsur

olarak rapor edilmi � tir. Ayrıca, bilgisayar ortamında kelimelerin yazım

� ekillerinin do � rudan depolanması da, yer açısından oldukça maliyetli

bir durum meydana getirmektedir.

Türkçe için geli � tirilmi � olan ilk gövdeleme yöntemi, L-M

(Longest Match) veya en uzun e� le� me adıyla Kut ve arkada� ları

(1995) tarafından yapılan çalı � mada ortaya konmu� tur. Yöntemde,

kelime gövdelerinin ve olası biçimlerinin yer aldı � ı bir sözlük


189

bulunmaktadır. Belge ve sorgulardaki birlikler bu sözlükte yer alan

kelimelerle harf esasında ba� tan itibaren e� le� tirilmekte ve en uzun

e� le� menin yakalandı � ı kelime, birli � in gövdesi olarak alınmaktadır.

�kinci yöntem, Solak ve Can (1994) tarafından, gövdeleme

yapmanın, bilgi geri-getirimi üzerindeki ba� arım etkilerinin

ölçülmesine dair bir çalı � mada ortaya konandır. A-F adıyla anılan

yöntemde, güncel kullanımda olan Türkçe gövdelerin ve her gövde

için, gövde üretme yordamını destekleyen 64 özelli � in içerildi � i bir

sözlük kullanılmı � tır. Belge ve sorgudaki bir birlik için, her seferinde

ba� tan bir harf hesaba katılarak sa� a do� ru ilerlerken, sözlükten

e� le� tirme yapılmaktadır. E� er e� le� en bir kelime kökü bulunursa, olası

gövdeleri türetilmekte ve birlikle tam örtü� en bir türeyi � olması

halinde, söz konusu türetim, birlik için olası bir gövde olarak

belirlenmektedir. Bu yöntemle, bir birlik için olası birkaç gövde

belirlenebilmektedir. Çalı � mada, bir Türkçe birli � in, yani bir kelimenin

yazımdaki biçimi için ortalama 1,2 adet gövde oldu� u bildirilmi � tir (90.912 farklı birlik için, 111.092 gövde üretilmi � tir). Solak ve Can

tarafından geli � tiri len bu gövdeleme yöntemi, aslen Oflazer (1993)

tarafından geli � tirilmi � olan biçimbirimsel analiz yordamının, bilgi

geri-getirim sahasında kullanılabilecek bir uyarlamasıdır. Aynı kural

kümesi, iki-seviyeli dil modeli yerine, daha hızlı çalı � acak � ekilde

tasarlanmı � tır.

Türkçe için verece� imiz son yöntem, Sever ve Bitirim (2003),

tarafından geli � tirilmi � olan FindStem adlı gövdeleme yordamıdır. Bu

yöntem üç alt yordamdan meydana getirilmi � tir: Kökün bulunması,

biçimbirimsel analiz ve gövdenin belirlenmesi. Yordamlara destek

olarak, güncel Türkçe kelime kökleri, kelime köklerine ait

biçimbirimsel analizde kullanılacak özelikler, kelimenin olası sözcük


190

türleri ve kelime türetme için gerekli dizim kurallarının içerildi � i bir

sözlük de olu� turulmu � tur.

FindStem yönteminin, kökün bulunması alt yordamında,

incelenen birlik için olası tüm kelime kökleri tespit edilmektedir. Olası

kelime kökleri bulunurken, sözlükte kodlanmı � olan biçimbirimsel

özellikler de (son harf de� i � imi “ara-arıyor” ; sondaki sedasız sessizin

sedalıla� ması “kitap-kitabı” ; orta hece seslisinin dü� mesi “ o� ul-

o� lum” ) hesaba katılarak kökler belirlenmektedir. Biçimbirimsel analiz

alt yordamında, yapım ekleri ve çekim ekleri ayrı olarak ele alınmakta

ve incelenmektedir. Yapım ekleri kendi içinde, fiil kökünden türemi � isim gövdeleri ve isim kökünden türemi � isim gövdeleri ayrımı

gözetilerek atılmaktadır. Gövdenin tespiti alt yordamında, e� er önceki

iki alt yordam tarafından tespit edilebilmi � bir gövde veya kelime kökü

yoksa, bu a� amada birlik oldu� u gibi bırakılmakta ve bir kayıt

dosyasına konmaktadır. Çalı � mada bu kayıt dosyasına atılmı � olan

kelime daha sonra incelenip, sözlü� e eklendi � i belirtilmektedir. Kayıt

dosyasına atılan birliklerin ço� unlu� unun, yabancı kelimeler oldu� u ve

Türkçe’ye uyarlanarak alındı � ı belirtilmi � tir.

Sever ve Bitirim (2003), FindStem yöntemini hem L-M hem de

A-F yöntemi ile kar � ıla� tırmı � lardır. Yöntem, gövdeleme olarak da,

bilgi geri-getirim ba� arımına etki olarak iki yöntemden üstün sonuçlar

vermi � tir. Yazarların çalı � malarında belirttikleri husus, Türkçe gibi

biti � ken dillerde, biçimbirimsel analiz yapılmadan gövdeleme

yapmanın hatalara sebep oldu� udur. Örnek olarak “edebilecek”

birli � inin, olası kelime gövdelerinin “edebi” , “edep” ve “ede” � eklinde

oldu� u, biçimbirimsel analiz yapılmadan, en uzun e� le� me fikri

esasında gerçek gövdenin tespit edilemeyece� i belirtilmi � tir. Ayrıca,


191

sözlük kullanmanın da gereklil i � i, lehte fikirler sunularak üzerinde

durulmu� bir meseledir.


Bilgi geri-getirim için uyarlanacak her dilbilimsel yöntem için

olması gerekti � ini söyledi � imiz � artlar, yani sözlüksüz çalı � ma ve

hesaplama karma� ıklı � ının dü� ürülmesi, önerdi � imiz gövdeleme

yöntemi için de geçerlidir. Yöntem kurgusal olarak, istatistik/olasılık

esasına dayanmaktadır. Yöntemi vermeden önce, kullanılacak simge

sisteminin tanıtılmaya ihtiyacı vardır. Dolayısı ile, tanıtımımız simge

sistemi ile ba� lamaktadır.

9.3.2.1 Simge Sistemi

Belge veya sorgudaki, yazım biçimi olarak belirli bir birlik, yöntem anlatımı içinde, nn hhhs �21= � eklinde bir harf silsilesi olarak

temsil edilmektedir. Temsilde, her harfi belirten ih ( ni ,,2,1 �= )

simgesi, tanımlanmı � olan bir Türkçe alfabenin (A) elemanıdır ve n

indisi kelimenin harf olarak uzunlu� unun sayısal de� erine e� ittir. Yöntemde kullanılmak üzere tanımlanmı � Türkçe alfabe, geçerli

alfabenin 29 harfi ve ek olarak bir de “_” (alt tire, kelime sonunu

belirtmek için, yani bo � luk yerine kullanılmaktadır) simgesini

içermektedir:

{ }_'',,,,,,,,,,,,,,,,,,,,,,,,,,,,, zyvüut�srpöonmlkjiıh�

gfedçcbaA = (9.3.2.1.1)

Birlik temsili için kullandı � ımız, ns harf silsilesinin, herhangi bir

kısmi harf silsilesi de, ( nji ≤≤≤1 ), [ ] jiin hhhjis �1: += ,


192

[ ] jn hhhjs �21: = ve [ ] nin hhis �=: � ekilde üç biçimde temsil

edilebilmektedir. Bu kısmi harf silsileleri içerisinde, [ ] 11: +=+ iin hhiis

ile temsil edilen ve iki harften olu� an çift (2-gram) hesaplama birimi olarak kullanıldı � ından dolayı, ihh ),( 21 � eklinde özel bir biçimsel

temsile daha sahiptir ( ni ,...,2,1= ). Kullanılan indis, i,

Ahhhh ii ∈== +121 , olacak � ekilde, çifte ait ilk harfin gerçek silsile

içindeki sıra numarasıdır. ni = durumunda, çiftin son harfi için sıra

numarası, görüldü� ü gibi birli � in boyunu a� maktadır. Bu durumda, çift,

ilk harfi silsilenin son harfi ve ikinci harfi “ _” olarak alınıp,

ninh =)_'',( � eklinde meydana getirilmektedir.

Belirli bir harf çifti için, jhh ),( 21 ( max1 nj ≤≤ , maxn simgesi

Türkçe kelimelerin olası en uzun harf sayısıdır14.) bu çiftin verilen bir

birlik temsili içinde bulundu� unu, yani bu iki harfi aynı sıralama ile içerdi � ini belirtmek üzere, nj shh ∈),( 21 ifadesi kullanılacaktır. Bu

ifade, ihh ),( 21 çifti ile belirti len ve ns birlik temsilinde, i

pozisyonunda bulunan belirli bir çift için, ji hhhh ),(),( 2121 =

durumunu ancak i=j ise sa� lanacaktır. Yani, hem harfler e� le� ecek hem

de j indisi silsile içindeki yeri de belirtecek. Harfler silsile içinde e� le� iyor olsa bile, j indisi ile belirtilen yerde de� illerse, jhh ),( 21 çifti

ns birlik temsilinin elemanı olarak sayılmayacaktır ( nj shh ∉),( 21 ).

Son olarak, [ ]msg nm := ve [ ]:11 +=+ mse nm � eklinde iki temsil

daha tanımlayarak simge sistemimizi belirlemi � oluyoruz ( nm≤≤1 ).

Bu iki kısmi temsil ile, belirli bir birli � i, ardı � ık iki parçadan olu� an bir

harf silsileleri çifti � eklinde, yani ),( 1+= mmmn egs biçiminde de temsil

edebilmek için tanımlıyoruz.

14 Deneysel derlemimizde, rastlanan en uzun birlik 23 harften olu� maktadır.


193

9.3.2.2 Sıralı Çiftler ve Örneklem Kümesi

E� er L kümesini, max,...,2,1 ni = olacak � ekilde, Türkçe yazılı

birliklerde gözlemlenebilecek tüm olası ihh ),( 21 sıralı çiftlerinin

toplulu� u olarak tanımlarsak; L kümesi, ihh ),( 21 sıralı çiftleri için

örneklem kümesi olur ve Denklem 9.3.2.2.1.’de verildi � i � ekilde

biçimsel olarak temsil edilebilir.

{ } 1 , ),( max2121 ni�

hhhhL i ≤≤∧∈=

Ayrıca, LTEG kkk ⊂,, olacak � ekilde, kG , kE ve kT

kümelerini, ihh ),( 21 çiftleri için olay kümesi olarak kabul edersek

( max1 nk ≤≤ ).

{ } m1 ),( ),( max2121 nghhkihhG miik ≤≤∧∈∧==

{ }max2121 m1 ),( ),( nehhkihhE miik ≤≤∧∈∧==

��

� ��

≤≤++=∧=

=== +

max

12121

1

; ]1:1[ ]:[

;

),(

ni

mmehmmgh

mki

hhT mmik

kG olay kümesi, gövde içinde gözlenen çiftleri; kE olay kümesi,

ek silsilesi içerisinde gözlenen çiftleri; kT olay kümesi de, bir birlik

içerisinde, gövde ve ek birle� iminde yer alan çiftleri, yani birinci harfi

gövde kısmının sonunda kalan harfi, ikinci harfi de ek kısmının

ba� langıcında olan çiftleri içermektedir.

Tanımlanan, L örneklem kümesi ve kG , kE ve kT olay kümeleri

sayesinde, verilen bir nn hhhs 21= birlik temsilinde, ni ,...,2,1=


194

sırasındaki herhangi bir ihh ),( 21 çift için, gövdenin bir parçası olma

olasılı � ı, ek sisteminin bir parçası olma olasılı � ı ve gövde ile ek

sisteminin geçi � inde olma olasılı � ı hesaplanabilir.

[ ]( ) ( ) ( )iiiin hhGhhGiis ),(P ),(Pr1:Pr 21G21 =∈=∈+ (9.3.2.2.1)

[ ]( ) ( ) ( )iiiin hhEhhEiis ),(P),(Pr1:Pr 21E21 =∈=∈+ (9.3.2.2.2)

[ ]( ) ( ) ( )iiiin hhThhTiis ),(P),(Pr1:Pr 21T21 =∈=∈+ (9.3.2.2.3)

9.3.2.3 Talim Derleminden Olasılıkların Tespiti

Denklem 9.3.2.2.1, .2, ve 3.’de belirtilen olasılıkların deneysel

de� erlerinin bulunabilmesi için kullanılacak hesaplama yöntemleri,

sırasıyla, Denklem 9.3.2.3.1, .2, ve 3.’de verilmi � tir.

( ) /*),( ,,21 NwfhhP igigiG = (9.3.2.3.1)

( ) NwfhhP ieieiE /*),( ,,21 = (9.3.2.3.2)

( ) NwfhhP ititiT /*),( ,,21 = (9.3.2.3.3)

Hesaplama için verilen denklemlerde, igf , , ief , , ve itf ,

simgeleri sırasıyla, ihh ),( 21 çiftinin i sırasında, gövde içinde görülme

sıklı � ı, ek silsilesi içinde görülme sıklı � ı ve gövde-ek birle� iminde görülmesi sıklı � ıdır. igw , , iew , , and itw , simgeleri ise, i sırası için

igf , , ief , , ve itf , görülme sıklıklarına verilecek, 0 ile 1 arasında

a� ırlık de� erleridir. A � ırlık de� erleri, her ihh ),( 21 çifti için, toplamı 1

edecek � ekilde tespit edilmektedir.


195

9.3.2.4 Olasılık Esasında Gövdeleme Yordamı

Denklem 9.3.2.2.1, .2, ve 3. ile, verilen bir nn hhhs �21= birlik

temsili için olası kelime gövdeleri Önerme 9.3.2.3.1.’de verildi�i � ekli

ile tespit edilebilir.

Önerme 9.3.2.3.1: E�er, verilen bir nn hhhs �21= , birlik temsil i

için, nm≤≤1 sırasında, belirli bir 10 ≤≤ α sabiti için, ( ) ( )mGmE hhPhhP ),(),( 2121 > ve ( ) α≥−121 ),( mT hhP

� artı sa�lanıyorsa; aynı birli

�in ),( 1

1mm

mn egs −

− =

ardı � ık silsile çifti temsili içindeki, 1−mg kısmi harf

birli�i, nn hhhs �21= birli

�inin, seçilen α sabit

de�erindeki olası gövdesi olacaktır.

Önerme, 10 ≤≤ α parametresi ile ayarlanabilir, bir ba� ka

söyleyi � le uyum sa�layabilir (adaptive) bir gövdeleme yöntemi tarif

etmektedir. Örne�in, belirli bir bilgi geri-getirim sisteminin hedef aldı

�ı

belge uzayı için, en uygun 10 ≤≤ α parametre de�eri, ba� arımın en

yüksek oldu�u noktanın talimle elde edilmesi ile belirlenebilir. Ayrıca,

sorgu geri-beslemesinde kullanıcının alaka ile ilgili ba� arım geri-

bildirimlerine göre de�i � en bir parametre de

�eri saptamasına da

gidilebilir.


Gövdeleme için önerdi�imiz kurgunun deneysel sınamalarında,

talim ve test derlemleri için BilTD derleminden farklı iki parça

alınmı � tır. BilTD derleminden alınan talim ve test derlemlerinin


196

özellikleri, ve yöntemin genel ba� arımı Çizelge 9.3.3.1.’de tablo

halinde gösterilmektedir.

Çizelge 9.3.3.1: Gövdeleme yöntemi sınamalarında kullanılan Talim ve Test derlemi özellikleri.

Derlem Birlik Farklı Bir. Gövde Bilinmeyen Üretilen Çift Say. Ba� arım(%)

Talim 149,189 36,902 10,568 * * 5,648 *

Test 148,486 36,563 10,253 4,102 9828 * 95.8

Çizelgeden de görülebilece� i gibi, talim derleminin boyutu

149.189 harf birli � i, test derleminin boyutu da 148.486 harf birli � idir.

“Farklı Bir.” sütununda, farklı yazım biçimine sahip harf birli � i sayısı;

“Gövde” sütununda, derlem içinde gözlenen farklı yazım biçimlerine

sahip gövde sayıları; “Bilinmeyen” sütununda, test derleminde bulunan,

fakat talim derleminde olmayan farklı gövde sayısı; “Üretilen”

sütununda, test derleminin gövdelerinden, önerilen yöntem ile

üretilebilmi � lerin sayısı; “Çift Say.” sütununda, talim derlemindeki harf

birliklerinden elde edilen, farklı biçim ve de� i � ik sıralı, harf çiftleri

sayısı; “Ba� arım” sütununda da, önerilen yöntemin gövdeleri

üretebilme do � rulu� u, yani yordamın ba� arımı oransal olarak

verilmi � tir (%95,8).

Derlemlerde, BilTD derlemi biçimbirim ve söz-dizim analizine

sahip oldu� u için gövdeleri bellidir. Ancak, BilTD derlemi otomatik

olarak üretildi � i için, gövde ve eklerde görülen hatalar elle

düzeltilmi � tir. Test derlemindeki 36.563 birlik, 10.253 farklı gövdeden

türetilmi � tir. Dolayısı ile, gövdeleme ile bu derlem üzerinde

yakalanabilecek sıkı � tırma oranı %71’dir. Bunun anlamı, bir Türkçe,

bilgi geri-getirim sistemi için indeks terim listesinin %71 oranında

küçültülmesidir. Söz konusu sıkı � tırma oranı, gövdeleme ile test


197

derlemi için ula� ılabilecek üst sınır de� erdir. Önerilen yöntemle, 10.253

gövdeden, 9.828 tanesi do � ru � ekilde üretilebilmi � , 1.154 birlik için

üretilen gövdelerden hiçbiri gerçek gövde ile e� le� memi � tir, yani 425

gövde bulunamamı � tır. Dolayısı ile, önerilen yöntemin sıkı � tırma oranı

%69 de� erinde kalmı � tır ((9828+1154)/36563).

Önerilen yöntemde, uyum sabiti α , 0 ile 1 aralı � ında bir gerçek

sayıdır. Bir sıralı harf çiftinin, gövde ile ek geçi � inde olma olasılı � ı için

alt sınır de� er belirlemek için kullanılmaktadır. Dolayısı ile, geçi � olasılı � ının en yüksek de� erine e� itlenirse, tüm birlikler hiçbir

bölünmeye u� ramadan, bütün halde gövde olarak üretilirler. E� er, en

dü� ük geçi � olasılı � ının altında bir de� ere, örne� in sıfıra (0) e� itlenirse,

her birlik için, önermenin ilk � artının da sa� landı � ı olası tüm geçi � ler,

gövde olma için yeterli görülüp, en yüksek derecede bölümleme ile

üretim yapacaktır. Bu iki uç nokta arasında, yöntemin bir harf birli � i

için üretebilece� i olası tüm gövdeler, α sabitinin sıfıra e� itlendi � i

durumdaki üretimi ile kapsanmaktadır. Fakat, birlik ba� ına üretilen

ortalama gövde sayısının da en yüksek de� erine sahiptir. Sabit

büyüdükçe, ortalama dü� mekte, sabitin, geçi � olasılı � ının en yüksek

de� erine e� itlenmesi ile, ortalama üretilen gövde sayısı bire (1) e� it olmaktadır, yani birli � i aynen gövde olarak vermektedir.

Sınama için, α sabiti sıfıra e� itlenmi � ve yöntemin, test

derlemindeki birlikler için üretebilece� i tüm olası gövdeler

de� erlendirmeye alınmı � tır. Yöntem, test derleminde bulunan 36.563

harf birli � i için, 72.967 olası gövde üretmi � tir, yani her birlik için

ortalama 2 gövde üretilmi � tir. Türkçe için, ek terkip sabiti 2,86 (index

of synthesis) olarak verilmi � tir (Sever ve Bitirim, 2003). Ek terkibi, bir

dilde, kelimelere getirilen ortalama ek sayısıdır. Yöntemin bu de� erden

daha az sayıda olası gövde üretmesi de, kelimedeki eklerin yalın


198

� ekilde belirlenip gövdelere ayrılması � eklinde tanımlanabilecek

tamamen rastlantısal bir yöntem olmadı � ını, aksine önermenin ekle� me

da� ılımını temsil edebildi � ini göstermektedir. Bir ba� ka söyleyi � le,

önerilen istatistiksel kurgu ile, ekle� menin oldu� u noktalar da� ılım

olarak belirlenebilmektedir. Daha önceleri de, bu tip ekle� me

noktalarını tespite yönelik, olasılı � a dayalı yöntemler denenmi � tir, ancak pozisyon bilgisi bu yöntemlerde kullanılmamı � tır. Önceki

önermelerin ba� arısızlıklarının temelinde, pozisyon enformasyonunun

kullanılmamasının önemli bir etmen oldu� u dü� ünülmektedir.

Talim derleminden, toplam 5.648 farklı biçimde, de� i � ik sırada

harf çifti elde edilmi � tir. E� er bu harf çiftleri, yöntemin kelime

da� arcı � ı olarak kabul edilirse, kelime da� arcı � ı kapalıdır. Bu harf

çiftlerinden, 2.845 çift sadece gövdede, 1.048 çift sadece ekte ve 322

çift sadece gövde-ek geçi � inde gözlenmi � tir. Bu üç ayrık, harf

çiftlerinin toplamı 4.215’dir. Geriye kalan 1.433 ortak çiftin, 1.397

tanesi gövde ve ek kümesi ortaklı � ı içindedir. Yöntemin karar vermesi

gereken harf çifti, yani önerimin birinci � artının kullanıldı � ı harf çifti

sayısı da budur. Oran olarak, harf çiftlerinin yakla� ık %50’si gövdede,

%18’u ekte ve sadece %24’ü gövde ile ek ortaklı � ında gözlenmektedir.

Önerimin neden %95 düzeylerinde ba� arım sa� ladı � ının, cevabı da bu

oranlardan açıkça görülmektedir.

Test derlemindeki birlikler için, üretilen gövdenin do� ru kabul

edildi � i hal, üretilen herhangi bir gövde ile test derlemindeki birlik için

belirlenmi � olan gövdenin harf esasında tam olarak e� le� mesidir. Aslen,

birlikler için üretilmi � olası gövdeler, tamamen anlamsız kelimeler

de� ildir, ancak hataların yanında, örne� in “ seviyor” birli � i için üretilen

“sev-iyor” ve “ sevi-yor” gövdelerinde oldu� u gibi, “ -i-yor” ek

terkibinin iki parçasının da belirlenmesinden kaynaklanmaktadır. � � te


199

α sabiti en uygun de� er için, talim edilmesi gereklili � inin altında yatan

sebep budur. Hatalarsa, genellikle yabancı kelimeler, kısaltmalar v.b.

durumlardan kaynaklanmaktadır. Bu hataların büyük kısmı, pekala

simgele� tirme a� amasında tespit edilebilir niteliktedir. Mesela,

simgele� tirme a� amasında, gövdeleme i � lemine tabi tutulması gereken

kelimeler veya gövdeleme i � leminden muaf tutulması gereken

kelimeler önceden belirlenerek, gövdeleme esnasında bu hataların

olu� turulması önlenebilir.

Önerilen yöntemle, örnek 3 birlik için üretilmi � gövdeler Çizelge

9.3.3.2.’de gösterilmi � tir. Sever ve Bitirim (2003) tarafından, Türkçe

gövdeleme yordamları arasında kar � ıla� tırmaların yapıldı � ı çalı � mada

örnek olarak kullanılan “edebilecek” ve “göz...” birlikleri i le, “ abartılı”

birli � i incelenmi � tir.


200

Çizelge 9.3.3.2: Önerilen gövdeleme yöntemi ile üretilmi � gövdelere örnekler.

h1 h2 i gm em PG(.) PE(.) PT(.) Gövde1 a b 1 a bartılı 0.002776 0.000000 0.000000

2 b a 2 ab artılı 0.000466 0.000000 0.000000

3 a r 3 aba rtılı 0.002364 0.000706 0.000003

4 r t 4 abar tılı 0.000175 0.000002 0.000025

5 t ı 5 abart ılı 0.000123 0.000255 0.001478 abar

6 ı l 6 abartı lı 0.000004 0.002519 0.000103 abart

7 l ı 7 abartıl ı 0.000088 0.002748 0.000016 abartı

8 ı _ 8 abartılı 0.000000 0.009593 0.000289 abartıl

9 e d 1 e debilecek 0.008549 0.000000 0.000000

10 d e 2 ed ebilecek 0.000457 0.000000 0.002373

11 e b 3 ede bilecek 0.000022 0.000186 0.000000 ed

12 b i 4 edeb ilecek 0.000998 0.000685 0.000021

13 i l 5 edebi lecek 0.000994 0.000644 0.001985

14 l e 6 edebil ecek 0.001457 0.016941 0.000006 edebi

15 e c 7 edebile cek 0.000002 0.001278 0.000001 edebil

16 c e 8 edebilec ek 0.000036 0.001523 0.000000 edebile

17 e k 9 edebilece k 0.000002 0.002951 0.000000

18 k _ 10 edebilecek 0.000000 0.004037 0.000240

19 g ö 1 g özetmeden 0.017605 0.000000 0.000000

20 ö z 2 gö zetmeden 0.007050 0.000000 0.000000

21 z e 3 göz etmeden 0.005962 0.000000 0.000228

22 e t 4 göze tmeden 0.010047 0.000000 0.000163

23 t m 5 gözet meden 0.000296 0.000174 0.000416

24 m e 6 gözetm eden 0.000602 0.005776 0.000029 gözet

25 e d 7 gözetme den 0.000007 0.000198 0.001506 gözetm

26 d e 8 gözetmed en 0.000037 0.006912 0.000000 gözetme

27 e n 9 gözetmede n 0.000034 0.003872 0.000007

28 n _ 10 gözetmeden 0.000000 0.021110 0.000283 gözetmede

Çizelgede, “h1” ve “h2” sütunlarında verilmi � harflerin, birlik

içinde “ i” sırasındaki sıralı çift için, “PE(.)” olasılı � ı, yani ek içinde

olma olasılı � ı, “PG(.)” olasılı � ından, yani gövde içinde olma

olasılı � ından büyük olup da, varsa bir önceki çift için “PT(.)” olasılı � ı,

yani bir gövde-ek geçi � inde bulunma olasılı � ı sıfırdan büyük olanlar


201

renkli dolgu ile belirlenmi � tir. Bir ba� ka söyleyi � le, önermeyi sa� layan

sıralı çiftler i � aretlenmi � tir.

Verilen ilk örnek, “abartılı” birli � idir. Bu birlik içinde, “ab-

isim” , “ abar-fiil” , “abartı-isim” ve “abartılı-isim(sıfat)” gövdeleri

vardır. Sıfat olarak kullanılan “abartılı” isim gövdesi, “abartı” isim

gövdesinden, “ -lı” isimden isim yapma eki ile türetilmi � tir. “ abartı”

ismi, “ abar” fiilinden “ -tı” fiilden isim yapma eki ile türetilmi � tir. “abar” fiil i, “ ab” isminden anlamca çok farklılık gösterdi � i için, “ -ar”

isimden fiil yapma eki ile mi türetilmi � tir bilemiyoruz. Fakat analizi

sadece biçimbirimsel olarak yaptı � ımız, anlamı ise, i � e katmadı � ımızı

dü� ünürsek, “abar” fiili, “ab” isminden “ -ar” isimden fiil yapma eki ile

türetilmi � tir diyebiliriz. Aslen bu gövde türetimleri arasında, “aba-

isim” , “abart-fiil” ve “abartıl-fiil” gövdeleri de vardır. “aba” isim

gövdesi, “ -a” isimden isim yapma eki ile “ab” isim kökünden türetilmi �

olabilece� i söylenebilir. Fakat, “ab” , yani “su” anlamını kar � ılayan bir

isim kökünden, “aba” , yani “abla, anne” veya “ yünden, dövülerek

yapılan kalın ve kaba kuma� ” anlamını kar � ılayan bir gövde türetilmi �

olabilir mi, sorusunun cevabını vermek bu tez kapsamını oldukça a� ar.

Devam edersek, “abart” fii l gövdesi, “abar” fii l gövdesinden, “ -t”

fii lden ettirgen fiil yapma eki ile türetilmi � , bir gövde olarak kabul

edilebilir. Aynı � ekilde, “abartıl” edilgen fiil gövdesinin, yine “abar”

fii l gövdesinden, “ -l” fiilden ettirgen fiil yapma eki ile türetildi � i

dü� ünülebilir. Çünkü, “ -ı” harfi, Türkçe’de kayna� tırma harfi olarak da

kullanılır. Bu kadar zengin ba� ka örneklerin sayısı nedir, � u an için bir

bilgimiz yok, ancak tek bir birlik içinde, kök olan “ab” kelimesinden

di � er gövdelerin biçimbirimsel türetili � leri incelendi � inde, rahatlıkla

görülmektedir ki, söz konusu gövdelerden hangisinin yazımda

kullanılan anlamı verdi � inin tespiti, öyle kolayca halledilebilecek bir

mesele de� ildir. Bu noktada, Sever ve Bitirim (2003) tarafından yapılan


202

“biçimbirimsel analiz olmaksızın, bir birli � e ait olası gövdenin ne

oldu� unu belirlemek mümkün de� ildir” hükmüne katılıyoruz. Burada

kastedilen biçimbirimsel analizin, anlamların da hesaba katıldı � ı bir

analiz olması gerekti � ini vurgulamak da istiyoruz. Ayrıca, “a” harfinin

ünlem edatı olması sebebi ile, bir kelime kökü oldu� u da dü� ünülünce,

8 harflik tek bir birlikten, toplam 8 gövde türetebilece� i gibi bir

gerçekle de kar � ı kar � ıya kalıyoruz.

Önerdi � imiz yöntemle, “abartılı” birli � i için Çizelge 9.3.3.2.’de

“Gövde” sütununda yer alan, üretilmi � üç seçenek gösterilmi � tir: “abar” , “abart” , “abartı” ve “abartıl” . Çizelgede gösterilemeyen, ancak

her birlik için önermenin do � ru oldu� u, son sıralı çiftler için de, birli � in

kendisi, gövde olarak üretilmektedir. Dolayısı ile, “abartılı” gövdesi de

üretilenler arasındadır. Ayrıca, önerme hiçbir sıralı ikili için geçerli

olamamı � sa, birli � in yine kendisi, gövde olarak üretilmektedir.

Yukarıda, “abartılı” birli � i için verilen dilbilimsel çözümlemenin

ı � ı � ında, be� seçenekten, yani “abar” , “abart” , “abartı” , “ abartıl” ve

“abartılı” seçeneklerinden hangisinin gerçek gövde olarak alınması

gerekti � i belirsizdir. Çünkü, hepsi anlamca aynı olan ve “abar” fiil

kökünden türetilmi � isim ve fiil gövdeleridir. “abar” fiil kökünü almak

ta yanlı � de� ildir, “ abartılı” isim (sıfat) gövdesini almak da; hatta

aradaki türetimlerden birini de gövde olarak almak, aslen hata de� ildir.

Çizelgede verilen ikinci örnek çözümleme, “edebilecek”

birli � idir. Bu birlik için önerilen yöntemle, her � ey dahil, dört olası

gövde üretilmi � tir: “ ed” (yani “et-fiil” ), “edebi” , “edebil” ve “edebile” .

Çizelgeden takip edilebilece� i gibi, “ et” fiil kökünden itibaren, birli � e

eklenen harflerin ekte bulunma olasılıkları “PE(.)” çok yüksek

seyretmi � tir, aynı zamanda gövdede bulunma olasılı � ı da “edebil” fi il

gövdesinden itibaren çok küçük de� erlerde kalmı � tır. Sever ve Bitirim


203

(2003) tarafından verilen “edebilecek” birli � i, aslen bir birle� ik fiildir.

“et-” fii li ile “ bil-” fiilinin birle� mesinden meydana gelmi � tir. Ba� ka

fii llerle, birle� ik fiil yapabilen, “ bil-” fiilinin i � levi, birle� ti � i fiile

iktidar anlamı katmaktır. “ bil-” fii linin önüne gelen fiil, genellikle isim-

fii l (gerund) halindedir: yap-a bil, ed-e bil, gel-e bil gibi. Birle� ik

fii llerde, yardımcı fiil olarak kullanılan fiil, asıl anlamının dı � ında

kullanılır. O yüzden, bu birlikte sanki, “ -ebil, -abil” gibi bir ek varmı � hissi do � abilir. Fakat, Türkçe’de “ -ebil” , “ -abil” diye bir ek yoktur (Bu

tür detaylara girmemek için olsa gerek, Kemal Oflazer15, tüm yardımcı

fii l olarak kullanılan fiilleri “ bil” , “ ver” , “gel” , “gör” , “dur” , kal” , “ yaz”

ve “koy” , Türkçe’de yapım eki olarak tanımlamı � tır.). Dolayısı ile, bu

birli � in gövdesi, esas fiil olarak “et” fiili, birle� ik fiil olarak “edebil”

fii lidir. “ede” isim-fiil’ dir, geçici bir yapıdadır, “et-“ fiilinin “ -a, -e”

çekim eki ile yapılan isim-fiil halidir, yani çekim ekiyle olu� turulan bir

kipidir. � sim-fiiller aslen, bir hareket hali kar � ılarlar, daha do� rusu bir

hareketin, ne � eklinde yapıldı � ını ifade ederler. Bu açıdan, zarf olarak

da kullanım alanında görülebilirler. “edebil-” birle� ik fiili, en son

olarak da “ -acak, -ecek” fiil çekim eki alarak, sıfat-fii l (participle)

haline gelmektedir. Sıfat-fiiller aslında nesneleri, isimleri ile de� il de,

hareketleri ile kar � ılamak için kullanılırlar. Vasıflandırma ile nesneleri

kar � ıladıklarından dolayı, sıfat olarak kullanılmaya yatkındırlar: “yap-

acak” ki � i, “ dü� -ecek” adam örneklerinde oldu� u gibi. Ek aslen, fiil

çekim ekidir, ancak, isim-fiilde oldu� una benzer bir � ekilde, çekim

ekli � inden çok, geçici olarak nesneleri hareketleri ile kar � ıladıklarından

dolayı, isim gövdesi gibi yorumlanabilir, ancak tabii, fii lin yine çekim

eki ile meydana getirilen bir kipidir. Bu yüzden, iki çekim ekinin de,

yapım ekli � ine çok yakın bir i � lev gördü� ü söylenebilir, ancak bu

durum çekim eki oldukları gerçe� ini de� i � tirmez. “edep” ve “edebi”

15 Kemal Oflazer, Elvan Göçmen ve Cem Boz � ahin tarafından yazılan “An Outline of Turkish Morphology” kitap bölümünde, fiil çekimleri kısmında.


204

isim gövdelerine gelince, zaten yukarıdaki verdi � imiz açıklamadan da

anla� ılaca� ı gibi, “ edebilecek” birli � i ile hiçbir anlamsal alakaları

yoktur. � kisi de, müstakil anlamlar ta� ırlar. Özetle, “ edebilecek”

birli � ine bir gövde seçilmesi gerekiyorsa, tek bir seçenek vardır, o da

“edebil” birle� ik fii lidir. “ et-” fiil ini gövde olarak seçmek, birli � in

bütün halinde kar � ıladı � ı iktidar anlamını yok edece� i için, anlamsal

açıdan yanlı � tır. Bu tür birle� ik fii llerin, gövdeleri aslen biçimbirimsel

analiz olmadan tespit edilemez. Ancak, Oflazer (1993) tarafından

geli � tirilmi � , Türkçe’nin yegane biçimbirim analiz yordamına da, bu

yardımcı fii lleri yapım eki olarak belirledi � i ve daha birkaç mesele

sebebiyle, bir çekince koymak istiyoruz. Örne� in, “edebilecek” birli � i

için, biçimbirimsel analizler � unlardır:

et+Verb+Pos DB+Verb+Able DB+Adj+FutPart+Pnon (Çöz.1)

et+Verb+Pos DB+Verb+Able+Fut+A3sg (Çöz.2)

Analizlerde, “ ^DB” bir yapım eki kullanıldı � ını belirtir. Örne� in,

1. çözümlemede, ilk önce “et-” kelimesinin fiil (Verb) kökü ve olumlu

(Pos) oldu� u vardır. Ardından “ -ebil” yapım eki geldi � i (^DB), yapım

eki ile “ et” fiilinin, tekrar fiil (Verb) oldu� u ve birle� tirme kipinde16

bulundu� u (Able17) belirtilmi � tir. En son “ -ecek” yapım eki alarak sıfat

oldu� u (Adj) ve istisna-i sıfat çekim eki aldı � ı (FutPart), bu çekim

ekinin de eylemin öznesi ile uyum göstermek için iyelik eki aldı � ı,

ancak bu birli � in iyeliksiz oldu� u (Pnon) kodlanmı � tır. Neden istisna-i

sıfat eki deniyor, alıntı yaparak veriyoruz:

16 OSTAD kullanım kılavuzunda verildi � i � ekli budur. � ngilizcesi “compounding-modality” olarak belirtilmi � tir. 17 OSTAD kullanım kılavuzundaki açıklamasında, “yapabilir” olarak tanımlanmı � tır.


205

“ Sıfatların Çekim Ekleri: Sözlüksel veya türetilmi � sıfatlar çekim eki almazlar.� stisnalar vardır: +Adj+PastPart ve +Adj+FutPar eylemin öznesi ile uyumu göstermek için iyelik uyum eki (+Pxxx) alırlar. Sıfatlara yapılan di � er tüm bükümler ada dönü� türme (type-raising) içerir ve tüm bükümler bo� biçimbirim türetmesinden sonra ad üzerinde gösterilir.”

OSTAD derleminin kullanım kılavuzunda, “FutPart” gelecek

zaman ortacı (sıfat-fiil) olarak tanımlanmı � tır. � kinci çözümleme ise,

“et” kelimesinin yine fiil ve olumlu oldu� unu, “ -ebil” yapım eki ile

tekrar fiil ve birle� tirme kipinde oldu� unu, gelecek zamanın üçüncü

tekil � ahıs (A3sg) çekiminde (-ecek) bulundu� unu kodlanmı � tır. � lk

verilen, “ ... konuyu izleyenleri tatmin edebilecek bir rapor de� il, ...”

gibi bir tümcedeki birlik için çözümleme, ikinci ise “ ...ne demek

istedi � ini ifade edebilecek ...” gibi bir tümcedeki birlik için

çözümlemedir.

Bu çözümlemelerden de, gövdenin elde edilebilece� i açıkça

görülmektedir. Ancak, “ birle� tirme kipi (Able) ile kodlanan yapım eki

de dahil, ba� tan itibaren tüm harf silsilesi gövde sayılabilir” gibi bir

kural konularak gövde, yani “edebil” çıkarılabilir. Aslında, analizin

kodlamasında, birle� tirme kipi denmez de, birle� ik fiil denerek “bil”

fii linin yardımcı fiil oldu� u enformasyonu da yoluna koyulabilir, yani

“ -ebil” diye bir ek olmadı � ı (Able), onun bir yardımcı fiil oldu� u da

belirli hale getirilebilir. Hatta, “FutPart” ile verilen “ -ecek” ekinin,

aslen bir yapım eki olmadı � ı, fiil in i � letme eki, yani çekim eki oldu� u,

yalnızca bu ekle yapılan vasıf kipinin, nesneleri hareketleri ile

kar � ıladı � ı için, sıfat biçiminde kullanılabildi � i, dolayısı ile bir nevi

isim oldu� u enformasyonu da, tekrar kodlanarak kazanılabilir. Öyleyse

çekince nerededir? Çekincemiz noktamız � udur: Türkçe biçimbirim

analizi yaptı � ı iddia edilen bir yordamda, bir Türkçe gövdeleme

kurgusu için gerekli olan, Türkçe’nin kendine has basit kurallarını


206

belirleyebilmek için, bu denli tadilata gidilmesi gereklili � idir.

Türkçe’nin neden, Türkçe’de olmayan kurallar ve bakı � açısından

çözümlenmeye çalı � ıldı � ı da, çekincemiz için bir ba� ka sebeptir. Belki

de, “edebilecek” birli � inin, Türkçe’nin gerektirdi � i çözüm olan birle� ik

fiilin vasıf kipi olarak basit bir belirlenme yapmak yerine, önce bir tane

fii lden fiil yapma eki üretilmesi (-ebil), sonra fiillerin i � letme ekininin

(-ecek) yapım eki olarak kabul edilmesi ile do� rudan fiilden sıfat

yapılması ve Türkçe’nin do � ası içerisinde çok derin ayrıntıya

inilmedi � i takdirde, hiçbir istisna yokken, istisna-i durum yaratılması,

Türkçe’de bu yordamla hesaplamalı dilbilim çalı � an ki � iler tarafından,

uygulamada veya kuramsal esasta haklı sebeplere dayalı olarak, daha

i � levsel bulunuyor olabilir. Ancak, bilgimiz dahilinde böyle bir

açıklamaya rastlamadı � ımız için, bu noktayı da yeri gelmi � ken

belirtmek istedik.

Açıklayaca� ımız, üçüncü ve son örnek de, “ gözetmeden”

birli � idir. Önerilen yöntemimiz, “gözet” , “ gözetm” , “ gözetme” ,

“gözetmede” ve “gözetmeden” olmak üzere 5 farklı gövde türetmi � tir. Birlik içinde, “ göz” isim kökü, “ -e” isimden fiil yapma eki ile, “ göze”

fii l gövdesine, bu fiil gövdesi de “ -t” fiilden fiil yapma eki ile tekrar

“gözet” fiil gövdesine çevrilmi � tir. “ -me” eki hem fiilden isim yapma

eki olarak, hem de fiillerin olumsuz hallerini olu� turmak için fiil çekim

eki � eklinde kullanılabilir. Ancak, “ -den” eki sadece isim i � letme eki,

yani hal eki olarak vardır. Dolayısı ile, “gözet” fiil gövdesi, “ -me”

fii lden isim yapma eki ile, “gözetme” isim gövdesine çevrilmekte, en

son olarak da, “ -den” i � letme eki alarak, ismin uzakla� ma hali

(ablative) bildiren � ekline yani “ gözetmeden” biçimine girmi � tir. Dolayısı ile, birli � in gövdesi “gözetme” kelimesidir. “gözetmede”

biçiminin gövde olarak üretilmesinin sebebi, “ -de” � eklinde bir isimden

fii l yapma eki olmasıdır. “ gözetmeden” biçiminin gövde olarak


207

üretilmesinin sebebi ise, “ -n” � eklinde fiilden fii l yapma eki olmasıdır.

Ancak, bu iki biçime yordam tarafından ba� lanan olasılıklar açısından,

gövdede yer alma için hep 0.0001’den küçük ve çekim eki olma için de

hep 0.001’den büyük oldu� u, altı çizilmesi gereken bir durumdur.

Yordam ile sıralı çiftlere ba� lanan olasılıklar incelendi � inde

görüldü� ü gibi, aslında önerilen gövdeleme kurgusu, düzenlenebilecek

birkaç kurgudan sadece birisidir. Ancak yeterli olan hedef ba� arılmı � , yani yapılan çalı � ma ile, istatistik/olasılık esasında, önerilen veya daha

ba� ka bir kurgu ile biçimbirimsel analiz veya kelime da� arcı � ı

olmaksızın da, Türkçe’de gövdeleme yapılabilece� i gösterilmi � tir.

9.4. Sözcük Türü Tespiti

Sözcük türü tespit i � i, kelimelerin söz-dizim içerisinde, hangi

dilbilgisi i � levde kullanıldı � ının belirlenmesidir. Dilbilimsel olarak,

kelimelerin söz-dizim içerisinde di � er kelimelerle olan ili � kileri, aynı

zamanda kelimelerin sınıflandırmasını meydana getirir. Türkçe’de

kelimeler: : isim (noun), özel isim (proper noun), fiil (verb), sıfat

(adjective), zarf/belirteç (adverb), zamir/adıl (pronoun), ba� laç/rabıt

(conjunction), soru (Question) ve edat/ilgeç (preposition) temel sözcük

türlerinde sınıflandırılır. Ayrıca, rakam, kısaltma (abbreviations) ve

noktalama i � aretleri (punctuations) olarak adlandırılan ve yazımda

kullanılan simgeler veya simge birlikleri de mevcuttur. Bu simge veya

simge birlikleri de (noktalama i � aretleri hariç), yazımda kullanılırken,

söz-dizim içindeki söz konusu temel sözcük türlerinden birine girerler,

daha do� rusu temel i � levselliklerden birisini yerine getirirler. E� er, özel

isimler, isim türünde de� erlendirilirse, Türkçe’de 8 temel sözcük türü


208

vardır. Temel sözcük türleri, ayrıca kendi içlerinde i � levsel veya

anlamsal farklılıklara dayalı olarak alt guruplara da ayrılır.


Hesaplamalı dilbilim sahasında, bir cümle içinde, bir kelimenin,

daha do� rusu bir birli � in dilbilgisi i � levinin ne oldu� unun tespitine

yönelik bir çok çalı � ma vardır. Sahanın iki öncü çalı � ması, Klein ve

Simpson (1963) tarafından yapılanla, Garside ve arkada� ları (1987a;

1987b) tarafından yapılandır. Bu çalı � malar, kuramsal açıdan sahayı da

ikiye ayırmı � tır: kural tabanlı ve istatistiksel. Klein ve Simpson

tarafından kural tabanlı bir sistem geli � tirilmi � tir. Sistemde, elle

olu� turulmu� çok büyük bir kural tabanı ile, istisnaları halletmek için

küçük bir sözlükten olu� maktadır. Aynı esasta, Greene and Rubin

(1971), TAGGIT adlı sistemi geli � tirmi � lerdir. TAGGIT, daha sonra �ngilizce için bilinen ilk derlem olan, Brown derleminin ön sözcük türü

tespiti için kullanılmı � tır. TAGGIT, öncelikle verilen kelime için

atanabilecek sözcük türlerini belirlemektedir, daha sonra, kelimenin bir

öncesinde ve sonrasındaki kelimelerin biçimbirimsel analizleri

üzerinden hiçbir belirsizlik ile kar � ıla� mıyorsa, uygun sözcük türünü

atamaktadır. Daha sonra, bu sistemin yaptı � ı atamalar elle kontrol

edilip, düzeltilmektedir. Kural tabanlı sistemlere, Brill (1995a; 1995b)

tarafından geli � tirilen sözcük türü tespit yordamları da güzel

örneklerdir.

�statistik esasına dayanan ilk çalı � ma, Stolz ve arkada� ları (1965)

tarafından geli � tirilendir. Bu sistem önce bilinen birliklere sözcük

türlerini bir sözlük yardımıyla atamaktadır, daha sonra bilinmeyen

birliklerin sözcük türlerini, sözcük türü akı � ı temelinde � artlı olasılıkları


209

kullanarak belirlemektedir. � statistik esasına dayanan çalı � maların

ço� unlu� u, gizli Markov zinciri dil modeline dayanır. Markov zinciri

dil modeline dayanan ilk çalı � ma, Lancaster üniversitesinde Garside ve

Leech (1987b) tarafından yürütülen, LOB (Lancaster-Oslo-Bergen)

derleminin sözcük türü tespit u� ra� ıdır. Ancak, Markov modelinin, hem

kelimeler hem de sözcük türü geçi � olasılıklarının kullanımı � eklinde

temel kullanım biçimi, Church (1988) ve DeRose (1988) tarafından

yapılan çalı � malarda ortaya çıkmı � tır. Bu çalı � malar aslında, Chomsky

(1957) tarafından, istatistiksel yordamlarla dilbilimsel özelliklerin

belirlenmesi u� ra� ının uygunsuzlu� u konusunda, yapılan ele� tirilerin

ardından, istatisti � in hesaplamalı dilbilim sahasında tekrar diril i � ini

sa� lamı � lardır. Fakat, Markov dil modelini esas alan çalı � malar çok

önceden ba� lamı � durumdaydı: Baker (1975), Jelenik (1985),

Derouault, and Merialdo (1986). Gizli Markov dil modeli esasında,

Mercer (1993) tarafından yapılan çalı � ma, yordamın en uygun ve en

verimli � ekilde çalı � tırılması için hesaplama açısından ele alındı � ı güzel

bir çalı � madır.

Sözcük türü tespit yöntemleri artık çok yaygındır ve � ngilizce

dı � ındaki diller için de geli � tirilmi � tir: Baskça (Aduriz, 1995), Çekçe

(Haji � ve Hladká, 1998), Hollandaca, � talyanca, Yunanca (Dermatas

and Kokkinakis, 1995), Fransızca (Chanod and Tapanainen, 1995),

Almanca (Feldweg, 1995), � branice (Levinger et al, 1995), Bulgarca

(Megyesi, 1999), Slovence (Cussens et al, 1999), � spanyolca (Sánchez

León and Nieto Serrano, 1995), and � sveççe (Brants and Samuelsson,

1995). Ek olarak, belirti lmesi gereken di � er çalı � maların içinde, Brant

(2000) tarafından tasarlanan TNT sisteminin sözcük türü tespit

yordamında kullanılan olasılık yumu � atma yöntemi açısından; Peskin

ve Savova (2004) tarafından tasarlanan gizli Markov zinciri dil modeli

esasındaki kurguda kullanılan hafıza de� i � keni ve sözlük açısından;


210

Schmid (1994) tarafından geli � tirilen sistem, yapay sinir a� larının

kullanılması açısından; Kupiec (1992) tarafından tasarlanan sistem,

gizli Markov zinciri dil modeli esasındaki sözcük türü tespiti u� ra� ında

tutarlılık meselesi açısından; Ratnaparki (1996) tarafından yapılan

çalı � ma en yüksek düzensizlik (maximum entropy) esasında sözcük

türü tespit kurgusu açısından; Tautonava ve Manning (2000) tarafından

yapılan çalı � ma da, en yüksek düzensizlik esasında kurgulanacak

sözcük türü tespit yordamlarında hangi özelliklerin hesaba katılması

gerekti � i açısından incelemeye de� erdir. Ayrıca, 7 farklı dil için

geli � tirilmi � sözcük türü tespit yöntemlerinin, Dermatas and

Kokkinakis (1995) tarafından yapılmı � detaylı kar � ıla� tırmaları da,

kayda de� er bir çalı � madır.

Türkçe için sözcük türü tespitinde, kural tabanı esasında yapılmı �

çalı � malara örnekler, Oflazer ve Kuruöz (1994) tarafından yapılan bir

çalı � mayla, Oflazer ve Tür (1996;1997) tarafından yürütülen iki

çalı � madır. � statistik sahasında, bilgimiz dahilinde bir çalı � ma vardır:

Hakkani-Tür ve arkada� ları (2002).


Kural tabanlı olsun, istatistiksel esasta olsun, sözcük türü tespiti

ba� arımları, yakla� ık olarak %90-%96 bandında seyretmektedir.

Yaygın � ekilde, tatminkar olarak kabul gören ba� arım de� eri %95’ tir

denebilir. Sözcük türü tespitinin, ba� arımın yanında, ciddi iki zorlu� u

daha vardır: sözlük ve hesaplama karma� ıklı � ı. Sözlük meselesi, daha

önce de bahsedildi � i gibi, aslen kelime da� arcı � ının kapalı oldu� u

kabullenmesinden do � maktadır. Ayrıca, biçimbirimsel üretkenli � i

zengin diller için, örne� in Türkçe için, kelimelerin yazımda


211

kullanımları sırasında çok de� i � ik biçimlere sahip olması, ek yük

getirmektedir (Bu durum, kelime da� arcı � ının hızlı � ekilde hacim

kazanmasına sebep oldu� u için, depolamaya ve arama karma� ıklı � ına

ek yük getirir).

Hesaplama karma� ıklı � ı, kelime da� arcı � ının hacminden

etkilenmektedir, ancak asıl kaynak kullanılan gizli Markov zinciri dil

modelidir. Sözcük türü tespitinde kullanılan en yaygın gizli Markov

zinciri dil modeli, 1.dereceden, geçmi � e bir adım cinsidir, dolayısı ile

e� er Viterbi yöntemi ile çözümlenirse, O(L* |Q|3) zaman karma� ıklı � ına

sahiptir (L: cümle uzunlu� u, Q: farklı sözcük türü sayısıdır).

Önerdi � imiz yöntem de gizli Markov zinciri dil modelini esas

almaktadır. Ancak, kullanılan sözlü� ün kapalı olu � u garanti altındadır.

Gizli Markov zinciri dil modeli, önerimizin kuramsal alt yapısını

olu� turdu� u için öncelikle onu tanıtmak gerekmektedir.

9.4.2.1 Gizli Markov Zinciri

Markov zinciri için kullanılan gizli sıfatı, onun istatistik içindeki

genel kullanımı olan görünür18 halinden ayırt etmek içindir. Bir silsile

sürecinin (stochastic process), görünür Markov zinciri kurgusunda,

durum uzayı (state space) ve çıktı uzayı (output space) görünürdür. Bir

ba� ka söyleyi � le, silsile halindeki çıktı uzayı elemanlarının, silsile

içindeki belirli dizili � ine kar � ılık gelen durumlar birebir � ekilde

e� le� mi � tir. Gizli Markov zincirinde, silsile halindeki çıktı uzayı

elemanları yine görünürdür, durum uzayı elemanları da belirlidir; ancak

çıktı uzayındaki elemanların silsile içindeki belirli olan dizili � lerine 18 Görünür Markov zinciri, ayrıca vanilla (vanilya) olarak da anlılır.


212

kar � ılık gelen durumların hangisi birebir e� tir, belli de� ildir. Zaten,

gizli Markov zinciri kurgusu ile amaçlanan, hangi durumun

e� le� tiri lece� inin belirlenmesidir. Sözcük türü tespit meselesi üzerinden

örneklersek, çıktı uzayını kelimeler, durum uzayını sözcük türleri

olu� turur. Silsile sürecine cümle kar � ılık gelir. Yani, kelimelerin cümle

içindeki dizili � leri ile bir kelime silsilesi olu� ur. Görünür halde iken,

cümle içindeki yerinde bir kelimenin hangi dilbilgisi i � levinde

oldu� unun belirli oldu� u durum kastedilir. Gizli halde iken, elimizde

bir cümle vardır, sözcük türleri de bellidir; ancak cümle içindeki hangi

kelimenin, hangi dilbilgisi i � levinde oldu� u, yani sözcük türü

belirsizdir. Aslen, kelimelerin sözcük türleri i � aretli olan bir talim

derleminde e� itilen Markov dil modeli, görünür olurken; sözcük türleri

tespit edilmeye çalı � ılan kelimelerle olu� turulmu� test derlemine

uygulandı � ı zaman, aynı Markov dil modeli, gizli olur.

Bir silsile süreci, tX olasılık de� i � kenlerinin bir toplulu� undan

meydana gelir. Alt indis, t ise uygun bir indeks kümesinden sıralı

� ekilde de� erler olan bir parametredir. Genel olarak, indeks kümesinin

elemanları, zamanın ayrık birimlerini kar � ılar ve indeks kümesi { },...2,1,0=T , sayma sayıları toplulu� undan meydana gelir. � ndeks

kümesi, gerçek sayıların toplulu� undan da meydana gelebilir. Sayma

sayılarının, indeks kümesi oldu� u silsile sürecine, ayrık silsile süreci

(discrete time stochastic process); gerçek sayıların indeks kümesi

oldu� u silsile sürecine, sürekli silsile süreci (continuous time

stochastic process) denir.

Bir Markov süreci veya zinciri, yani { }tX , bazı özelliklere sahip

bir silsile sürecidir. Bir silsile sürecinin, Markov süreci olmasını

sa� layan bu özellikler, iki tanedir: kısıtlı ufuk (limited horizon) ve

zaman içinde de� i � meme (time invariance).


213

Kısıtlı ufuk özelli � i, de� eri verilen bir mX olasılık de� i � keni

varken, ms > � artını sa� layan bir sX olasılık de� i � keninin

de� erlerinin, mk < � artı altındaki hiçbir kX olasılık de� i � keninin

de� erinden etkilenmemesidir. Biçimsel olarak, Denklem 9.4.2.1.1.’de

gösterildi � i � ekilde ifade edilir.

( ) ( )111100 PrPr −−−− ====== nnnnnn lXkXlXlXkX � (9.4.2.1.1)

Denklem 9.4.2.1.1.’de, olasılık de� i � kenlerine atanan 10,, −nllk �

de� erleri, olasılık de� i � kenlerinin örneklem kümesinin elemanlarıdır ve

Markov süreci içinde her bir de� er, durum olarak adlandırılır. Dolayısı

ile, bu olasılık de� i � kenlerinin alabilece� i olası tüm de� erlerinin

toplulu� u olan örneklem kümesi, Markov süreci içinde, durum uzayı

olarak anılır. Ayrıca, kısıtlı ufuk özelli � i, bir Markov zinciri

isimlendirilirken, derece terimi ile kar � ılanır. Örne� in, denklemde

verilen � ekilde, kısıtlı ufuk özelli � ine sahip bir Markov zincirine, 1. dereceden Markov zinciri denir ve nX olasılık de� i � keninin, sadece

kendisinden bir önceki, yani 1−nX olasılık de� i � keninin de� erinden

etkilendi � i, daha önceki olasılık de� i � kenlerinin de� erlerinden

etkilenmedi � i, bu � ekilde belirli hale getirilir.

Zaman içinde de� i � meme özelli � i ise, kısıtlı ufuk özelli � inin

zamana ba� lı olmadan, zamanın herhangi bir de� eri için geçerli

oldu� unu belirtmek için kullanılır. Bir ba� ka söyleyi � le, kısıtlı ufuk

özelli � inin, zaman indisi, n’nin, indeks kümesindeki her hangi bir

elemana e� itken de geçerli oldu� unu belirtir.

( ) ( )00111 PrPr lXkXlXkX nnn ===== −− (9.4.2.1.2)


214

Bir Markov sürecinde, 1−nX olasılık de� i � keninin de� eri, mesela

i iken, nX olasılık de� i � keninin de� erinin, örne� in j olması olasılı � ına,

bir-adım geçi � olasılı� ı (one-step transition probability) ismi verilir ve nn

jiP ,1,

− simgesi ile temsil edilir ve )Pr( 1,1

, iXjXP nnnn

ji === −− ifadesi

ile hesaplanır. Simgesel gösterimde, geçi � olasılı � ının durumlara ba� ımlılı � ı dı � ında zamana ba� ımlılı � ı da betimlenmi � tir ( nn ,1− ).

E� er, zaman içinde de� i � meme özelli � i sa� lanıyorsa, geçi � olasılıkları,

dura� an geçi � olasılıkları (stationary transition probabilities) biçiminde

adlandırılır. Dolayısı ile, )Pr( 1,,1

, iXjXPP nnjinn

ji ==== −− olur.

Bir Markov sürecinde, nX olasılık de� i � keninin de� erinin,

örne� in j olması, e� er 2−nX olasılık de� i � keninin de� erine, mesela i

olsun, ba� lı ise, bu Markov sürecinin derecesi19, 2 olur. E � er durum

uzayının eleman sayısının, s > 0 � artını sa� layan bir sabit ile temsil

edildi � i kabul edilirse, biçimsel olarak Denklem 9.4.2.1.3.’de verildi � i

� ekilde ifade edilir.

( ) ( )( ) � ⋅=� ====

======−

=

−

=−−−

−−−−

−

1

0,,

1

0122

221100

2,Pr

PrPr

s

ikiil

s

innnn

nnnnnn

PPiXlXkX

lXkXlXlXkX

n

� (9.4.2.1.3)

Herhangi bir Markov sürecinin, n=0 zamanında, 0X olasılık

de� i � keninin, durum uzayından herhangi bir de� ere, mesela i olsun, e� it olması olasılı � ına, yani )( 0 iXPi ==π , süreci olu� turan X olasılık

de� i � kenlerinin ba� langıç olasılı� ı (initial probabilities) adı verilir. Bir

19 Yeri gelmi � ken bir yanlı � kullanımında altını çizmek gerekir. Sıfır (0) derece Markov süreci, bazen 1-gram kar � ılı� ı olarak dü� ünülmektedir, ancak bir silsile süreci, kısıtlı ufuk özelli � i ta� ımıyorsa, Markov süreci olarak adlandırılmaz. Dolayısı ile, kavramsal açıdan, sıfır derece Markov zinciri tanımsız bir niteleme ve yanlı � bir adlandırma olmaktadır.


215

ba� ka söyleyi � le, Markov sürecinin ilk ba� ında, sürecin herhangi bir

durumdan ba� laması ihtimalidir.

Bir silsile sürecinde, bir sn durumunun herhangi bir n zamanında,

kendisinden önceki, sn-1 ve sn-2 durumlarına ba� ımlı olsun:

( )1122 ,Pr −−−− === nnnnnn sXsXsX (9.4.2.1.4)

Denklem 9.4.2.1.4.’de verilen ifade, bir Markov zincirine

çevrilebilir. Söz konusu çevrim, 1. dereceden bir Markov sürecinde,

1−nX olasılık de� i � keninin de� eri, (sn-1, sn-2) sıralı çifti olarak alınarak

halledilir. Aslen bu durum, 1. dereceden bir Markov sürecinde, durum uzayında geçmi � e do� ru bir adımın daha, nX olasılık de� i � keninin

de� erinde etki etti � i anlamına gelir, daha do� rusu durum uzayında

geçmi � in tanımlanması söz konusudur. Dolayısı ile, söz konusu

Markov süreci, 1. dereceden, geçmi � e bir adım Markov süreci � eklinde

adlandırılır.

9.4.2.2 Sözcük Türü Tespitinin Markov Süreci Olarak Tanımı

Verilmi � olan n tane kelimenin belirli bir silsilesi, nww ,,1 � için,

hangi dilbilgisi i � levini kar � ıladıkları, yani sözcük türlerinin, ntt ,,1 �

ne oldu� unun tespiti meselesi, Denklem 9.4.2.2.1.’de verildi � i biçimde,

bir olasılık modeli ile tanımlanabilir.

( )nntt wwttPn �� 111

argmax (9.4.2.2.1)

Denklemdeki olasılık modeli, verilen bir nww ,,1 � kelime dizisi

için, kar � ılık gelebilecek tüm, ntt ,,1 � sözcük türü dizilimleri içinden,


216

olasılı � ı en yüksek olan sözcük türü dizisinin seçilmesi anlamına

gelmektedir. Bu ifade de, Bayes olasılık dönü� türümü uygulanırsa,

Denklem 9.4.2.2.2.’deki hale gelir.

( ) ( )( )n

nnntt

wwP

ttPttwwPn �

��

1

1111

argmax⋅

(9.4.2.2.2)

Denklem 9.4.2.2.2.’de verilen ifade de, olasılı � ın en yüksek de� eri aranırken, ntt ,,1 � sözcük türü dizisini esas aldı � ı ve tüm

sözcük dizisi ihtimalleri için verilen kelime silsilesi de� i � medi � i için, ( )nwwP �1 olasılı � ı sabittir. Dolayısı ile, ( )nwwP �1 olasılı � ı

hesaplamalardan çıkartılarak, sözcük türü tespit meselesinin olasılık

modeli, Denklem 9.4.2.2.3.’de verilen sade � ekli ile ifade edilebilir.

( ) ( )nnntt

ttPttwwPn

�� 111

1

argmax ⋅ (9.4.2.2.3)

Sözcük türü tespiti meselesinin, Markov süreci biçimine

getirilmesi için, zaman içinde de� i � meme kabul edilip, yani dizide iki

farklı yerde olan, aynı kelimenin olası sözcük türlerinden birini alması

olasılı � ının e� it oldu� u kabul edilip, kısıtlı ufuk özelli � inin

uygulanması gerekir. Sözcük türü tespitinin 1. dereceden Markov

süreci olarak ifadesi Denklem 9.4.2.2.4.’de verilmi � tir.

( ) ( )∏ ⋅=

−n

iiiii

ttttPtwP

n 11

1

argmax� (9.4.2.2.3)

Aynı � ekilde, sözcük türü tespit meselesi için, 1. dereceden,

geçmi � e bir adım Markov süreci modeli de, Denklem 9.4.2.2.4.’de

verildi � i ifade edilecektir.


217

( ) ( )∏ ⋅=

−−n

iiiiii

tttttPtwP

n 112,argmax

1 �

(9.4.2.2.4)

Markov süreci denklemlerinde verilen � artlı olasılıkların tahminleri, bir talim derlemi üzerinden elde edilecek ),,( 12 iii tttf −− ,

),( 12 −− ii ttf , )( itf ve ),( ii wtf gözlenme sıklıkları ile hesaplanır.

( ))(

),(

i

iiii

tf

wtftwP =

∧

(9.4.2.2.5)

( )),(

),,(,

12

1212

−−

−−−−

∧=

ii

iiiiii

ttf

tttftttP (9.4.2.2.6)

Sözcük türü tespitinin, Markov süreci olarak tanımlanması ile, en

uygun sözcük türü dizisinin bulunması meselesi bir dinamik

programlama meselesi haline getirilmi � olur. Bu tür dinamik

programlama meseleleri için, hesaplama karma� ıklı � ı en dü� ük yordam

da, Viterbi (1967) tarafından geli � tiri lmi � olan ve kendi adıyla

anılandır.

Sözcük türlerinin, Markov süreci modeli esasında tespitinde, iki

sorunun çözümlenmesi gerekmektedir. Bu sorunlar, talim derleminde

görülmemi � , kelime-sözcük türü çiftleri ve sözcük dizilimleri için, bir

olasılık atanması zorunlulu� udur. Denklem 9.4.2.2.3.’de verilen 1.

dereceden Markov süreci ifadesinde de görüldü� ü gibi, silsilede her

hangi kelime-sözcük türü çiftinin ( 0)( =∧

ii twP ) veya sözcük türü

dizisinin ( 0)( 1 =−∧

ii ttP ) sıfır olasılı � a sahip olması durumundan, o

kelime-sözcük türü çiftini veya sözcük türü dizini içine alan dizilim

ihtimallerinin, toplam olasılı � ı, di � er olasılıkların ne oldu� unun bir


218

önemi olmaksızın sıfır olmaktadır ( 0)()( 1 =⋅ −∧∧

iiii ttPtwP ).

Hesaplamalı dilbilimde, kapalı kelime da� arcı � ı kabullenmesi yapan

tüm dil modelleri için söz konusu çıkmaz geçerlidir.

Bu tür sıfır olasılıkların önlenmesi için, talim derleminde

gözlenmemi � olanlar için, sıfır yerine, yine sıfıra yakın ancak sıfırdan

büyük bir de� er atanarak, dizilim ihtimalinin toplam olasılı � ının sıfır

olmasının önüne geçilir. Olasılık yumu � atma yöntemi olarak

adlandırılan yordamlar, söz konusu amaç için kullanılırlar. Olasılık

yumu� atma için geli � tirilmi � pek çok yöntem mevcuttur: Lidstone

(1920), Good (1923), Jelenik ve Mercer (1980), Katz (1987), Witten

and Bell (1991), Ney ve arkada� ları (1994), Kneser ve Ney (1995).

Harvard üniversitesinde, Chen ve Goodman (1998) tarafından, bahsi

geçen tüm olasılık yumu� atma yöntemleri, çok çe� itli içeriklerde ve

de� i � ik büyüklüklerde derlemler üzerinde de� erlendirilip, derin

incelemeler yapılmı � ve teknik rapor halinde sunulmu� tur. Raporun

sonucunda, Kneser and Ney (1995) olasılık yumu� atma yönteminin,

di � er yöntemlerden her zaman anlamlı düzeyde ba� arılı oldu� u

belirtilmi � tir. Dolayısı ile, Kneser ve Ney yöntemi, kısaca KN olarak

adlandıraca� ımız olasılık yumu� atma yöntemi, bu tezde de,

kullanılacak yöntem olarak seçilmi � tir.

9.4.2.3 Önerilen Yöntemin Kurgusu

Önerilen yöntem, aslen genel Markov sürecinin, çıktı uzayının

tanımında, daha do� rusu kelime silsilesinin tanımında yapılan basit bir

de� i � ikliktir. Genel kurgu içerisinde, Markov sürecinin hesaplama

birimi kelimelerdir. Biz, kelimeler yerine, kelimelerin sonlarından

alınacak belirli sayıda harften olu� an hesaplama birimi ile de,


219

Türkçe’de sözcük türü tespit meselesinin halledilebilece� ini iddia

ediyoruz. Sözcük türlerinin, yani kelimelerin cümle içindeki di � er

kelime veya kelimelerle olan ili � kilerinin, Türkçe yazımda kelimelerin

sonlarına çekim ekleri getirilerek kar � ılanması, önermemize do� rudan

dayanak te� kil etmektedir. Önce genel kurgu, yani kelimenin

hesaplama birimi olarak kullanılması tanıtılacak, ardından önerimiz,

sadece farkı ile ortaya konarak tanımlanacaktır.

Genel Markov zinciri kurgusunu vermek için örnek bir cümle

kullanaca� ız: “ � � ten döner dönmez evimizin yakınında bulunan derin

gölde yüzerek gev � emek en büyük zevkimdir.” . Bu örnek cümlenin, her

kelimesinin alabilece� i olası sözcük türleri, Çizelge 9.4.2.3.1.’de tablo

halinde verilmi � tir.

Çizelge 9.4.2.3.1: Örnek cümlenin, her kelimesinin olası sözcük türleri.

Kelime Sözcük Türü Kelime Sözcük Türüi � ten � sim ( � ) gölde � , Zarf (Zr)döner � , Fiil (F), Sıfat (S) yüzerek Zrdönmez F, S gev � emek Fevimizin � en � , Zryakınında S büyük Sbulunan S zevkimdir Fderin � , S, F

Örnek cümlenin ba� tan 6 kelimesi için olası sözcük türleri ve

kelime silsilesine kar � ılık gelebilecek sözcük türü dizileri, � ekil

9.4.2.3.1.’de çizge olarak betimlenmi � tir.


220

i � ten döner dönmez derin gölde yüzerek ...

� �

FS F S

�

FS

�Zr

Olası Diziler = 1x3x2x3x2x1 = 36

� �F

� �Zr ...

F

S

S F

S

(a)

(b)

Zr

Zr

�ekil 9.4.2.3.1: Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve kar � ılık

gelebilecek sözcük dizisi ihtimalleri (b).

Cümle, Markov süreci kurgusuna alındı � ı zaman, kelimeler çıktı

uzayını, sözcük türleri durum uzayını olu� turmaktadır. Markov süreci

kurgusu içindeyken, olası sözcük türü dizileri, kelimelerin olabilece� i

sözcük türlerinin seçilmesi � eklinde bir daraltma söz konusu de� ildir.

Bir ba� ka söyleyi � le, durum uzayında tanımlı olan tüm sözcük türleri,

çıktı uzayındaki her kelimeye atanması ihtimali vardır. Türkçe için

dü� ünecek olursak, toplam 8 temel sözcük türü mevcuttur. Dolayısı ile,

örnek cümledeki 6 kelime için, olası sözcük türü dizilerinin toplam

sayısı, 6x8, yani 48 adet olacaktır. Söz konusu 48 sözcük türü dizisi

ihtimalinden en yüksek olasılı � a sahip olan, verilmi � cümle için

atanacaktır. Markov süreci kurgusu içinde, yöntemin tüm unsurlarının

çizge olarak betimlenmi � hali, � ekil 9.4.2.3.2.’de verilmi � tir.


221

<bos> i � ten döner dönmez evimizin

...

zevkimdir <eos>

b

~bs1

s2

sm

...s1

s2

sm

...

s1

s2

sm

...

s1

s2

sm

...

s1

s2

sm

...

...

...

...

a11

a2nann+1

a2n+1

a1n+1

k1 k2 k3 k4 kn

0 1 2 3 4 n n+1

Zaman Ekseni

e1 e2 e3 e4 en

A

A

Kel

ime

Sils

ilesi

(Çık

tı U

zayı

)

bij(kn)

2π

1π

nπ

kn+1

en+1

A

A

Söz

cük

Tür

leri

(Dur

um U

zayı

)

A

ASözcük Türü

Dizisi

�ekil 9.4.2.3.2: Örnek cümlenin Markov süreci altında, sözcük türü tespit kurgusu.

�ekilde çizge olarak betimlenen Markov zinciri kurgusunda,

cümledeki kelimelerle (kn), yani çıktı uzayı elemanları ile, sözcük

türleri (sm), yani durum uzayı elemanları arasında ili � kiyi kuran, bi j(kn)

olasılıkları; sürecin, belirli bir i. sözcük türünden ba� lama ihtimali, yani sürecin si durumundan ba� laması ihtimali ( iπ ); sözcük türlerinin

birinden di � erine geçi � olasılıkları (ai j) tanımlanmı � tır. Ayrıca, cümleye kar � ılık gelebilecek belirli bir sözcük türü dizisi de, nee ,,1 � olasılık

de� i � kenleri silsilesi olarak temsil edilmi � tir. Bu dizideki de� i � kenin, e

olarak adlandırılmasının sebebi, Markov sürecinin her kelimeye etiket

yapı � tıran bir i � lem olarak dü� ünülebilmesindendir ( � ngilizce’sinde de

Tag, yani etiket kelimesi aynen kullanılıyor). Etiketlerin üzerlerinde de,

kelime için kar � ılık gelen sözcük türü yazılı diye dü� ünülebilir. Dolayısı ile, her etiketin üzerine, durum uzayını olu� turan mss ,,1 �

sözcük türlerinden birisi yazılabilir. Mesele, hangi etiketin üzerinde


222

hangi sözcük türünün yazılaca� ını bulmaktır. Özetle, kurgu açısından

simge sisteminde yaptı � ımız de� i � iklikler � unlardır: kelime dizisindeki

kelimeler, özgün kurguda w (word) ile gösterilirken, de� i � iklikle k

(kelime) olarak; etiketler özgün kurguda t (tag) ile gösterilirken,

de� i � iklikle e olarak temsil edilmektedir. Dolayısı ile, sözcük türü tespit

meselesinin, olasılık kurgusu, Denklem 9.4.2.3.1.’de verildi � i � ekilde

ifade edilmektedir.

( )nnee kkeePn �� 111

argmax (9.4.2.3.1)

Kurguda verilen olasılıklar, Markov süreci için tanımladı � ımız

olasılıklara kar � ılık gelmektedir. Çizgede betimlenen olasılıklardan, ai j

olasılıkları )|Pr( 1, iXjXP nnji === − dura� an geçi � olasılıklarına,

yani sözcük türü tespit meselesinin Markov kurgusunda )|()|( 11 −− = iiii eePttP � artlı olasılı � ına; bi j(kn) olasılıkları,

),|( 1 iii ttwP − � artlı olasılı � ına veya yeni simgeleri ile, ),|( 1 iii eekP −

� artlı olasılı � ına e� ittir. Kurgu içinde, cümlenin ba� ına <bos> ve

sonuna <eos> simgeleri konmu� tur. Bu simgeler, n=1 oldu� u yerde, yani sürecin ba� langıcında, ba� langıç olasılıklarının, )Pr( 0 iXi ==π ,

� artlı olasılıklar, )|Pr( 0 ><== bosiXiπ olarak ele alınmasını

sa� lamak amacıyla konmaktadır. Ayrıca, yumu � atma yöntemlerinde

olasılık da� ılımlarının, bire toplanabilmesi için de gereklidir. Sondaki

<eos> simgesi de, sözcük türünün cümle sonunda olma olasılı � ının � artlı olasılık � eklinde, yani )|Pr( neeos >< olasılıkları biçiminde

hesaplamada ele alınabilmesi için konmu� tur. Böylece, Markov

kurgusundaki, tüm olasılıklar � artlı olasılık � eklinde ifade

edilebilmekte, hesaplamalar tek bir düzen üzerinden yapılabilmektedir.

Yukarıda Markov süreci esasında sözcük türü tespiti için genel

kurgu tanımlanmı � tır. Sözcük türü tespiti için, yine Markov süreci


223

esasında bu tezde önerdi � imiz yöntem ise, Önerme 9.4.2.3.1.’de

biçimsel olarak tasvir edilmi � tir.

Önerme 9.4.2.3.1: Türkçe sözcük türü tespiti için, genel Markov sürecini esas alan kurguda, hesaplama birimi olarak kelime kullanımı yerine, kelimelerin sonlarından belirli uzunlukta harf birlikleri alarak da sözcük türü tespiti yapılabilir.

Önermemizin, Markov süreci kurgusunun unsurlarını ne � ekilde

yeniden tanımladı � ı, � ekil 9.4.2.3.3.’de çizge olarak betimlenmi � tir. � ekilde, genel kurgunun korundu� u görülmektedir. Tek fark, çıktı

uzayının kelimeler yerine, kelimelerin sonundan belirli sayıda harf ile

olu� turulan birliklerin kullanılmasıdır. Geri kalan kurgu unsurları aynen

korunmu� tur. Kelime sonundan, l kadar birlik alınmaktadır, örnek

çizgede l=2 olan durum gösterilmi � tir. Dolayısı ile, kn olasılık

de� i � kenleri, knl � eklinde yeni bir indisle bu durumu kar � ılamaktadır.


224

...b

~bs1

s2

sm

...s1

s2

sm

...

s1

s2

sm

...

s1

s2

sm

...

s1

s2

sm

...

...

...

...

a11

a2nann+1

a2n+1

a1n+1

0 1 2 3 4 n n+1

Zaman Ekseni

e1 e2 e3 e4 en

A

A

Kel

ime

Sils

ilesi

(Çık

tı U

zayı

)

bij(kn)

2π

1π

nπ

A

A

Söz

cük

Tür

leri

(Dur

um U

zayı

)

A

ASözcük Türü

Dizisi

i � ten döner evimizin ...

<bos> en er in <eos>...

�1k �

2k �3k �4k �nk �1nk +

dönmez

ez

zevkimdir

ir

�ekil 9.4.2.3.3: Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda,

önerilen kelime sonundan belirli sayıda harf birli � inin hesaplama birim olarak kullanılması.


Türkçe için yapılmı � çalı � malar içinde, bilgimiz dahilinde

ba� arımı %93,95 ile en yüksek de� er sahip olan, Hakkani-Tür ve

arkada� ları (2002) tarafından istatistiksel yöntemler esas alınarak

yapılandır. Kullandıkları yöntemin hesaplama birimleri kelimelerdir.

Ayrıca, kelimeler önce Oflazer (1993) tarafından geli � tirilen,

biçimbirimsel analiz yordamı ile i � lenmi � tir. Hakkani-Tür,

çalı � masında, biçimbirimsel analiz i � aretlemelerine dayanan bir kurgu

ortaya koymu� tur. Dolayısı ile, biçimbirimsel analiz olmadan yöntem

kullanılamamaktadır. Önerdi � imiz yöntemde, böyle bir � art yoktur.

Hesaplama birimimiz kelime sonlarından alınan belirli sayıda harf

birlikleridir ve kelime üzerinde ba� ka bir ön i � leme gereksinim yoktur.


225

Önerilen yöntemle ula� ılmı � en yüksek ba� arım, kelime sonundan

alınan 4 harf ile olu� turulan birlikte gözlenmi � olan, %85,9’dur. Genel

kabul gören ba� arım düzeyinden dü� üktür (%90-96 bandı). Ancak, bu

düzeyde bir ba� arım da, Türkçe’de kapalı kelime da� arcı � ına dayalı,

biçimbirimsel analiz gerektirmeyen bir sözcük türü tespit yordamının

yapılabilece� ini deneysel olarak ispatlamaya yeterlidir.

Önerilen yöntem, 30 de� i � ik talim derlemi boyutu ve kelime

sonundan alınan 7 farklı uzunlukta harf birli � i için sınanmı � tır. Kullanılan talim derlemi boyutları, cümle birim olarak kabul edilerek

ölçeklendirilmi � tir. Kullanılan talim derlemi, BilTD derlemidir ve

boyutları, 250, 500, 750, 1.000, 1.250, 1.500, 1.750, 2.000, 2.500,

3.000, 3.500, 4.000, 4.500, 5.000, 7.500, 10.000, 12.500, 15.000,

17.500, 20.000, 22.500, 25.000, 27.500, 30.000, 32.500, 35.000,

37.500, 40.000, 42.500 ve 45.000’dir. Sondan alınan harf birli � i

boyutları, 1, 2, 3, 4, 5, 6 ve 7’dir. Markov süreci olarak, hem 1. derece,

hem de 1. derece geçmi � e bir adım kullanılmı � tır. Ba� arımlar, do� ru

bilinen sözcük türünün, tüm kelime sayısına bölünmesi ile elde

edilmi � tir.

Sınamaların, 1. derece Markov süreci kurgusu ve KN olasılık

yumu� atma yöntemi ile yapılanlarından alınmı � olan sonuçlar, � ekil

9.4.3.1.’de çizge olarak verilmi � tir. � ekilden de görüldü� ü gibi, talim

derleminin tüm de� erleri için, en yüksek ba� arım de� erleri %60-%70

bandı arasında kalmasıdır.


226

0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

250

1000

1750

3000

4500

1000

0

1750

0

2500

0

3250

0

4000

0

Talim Derlemi Boyutu (Cümle Sayısı)

Ba

� arım

Ora

nı

L1

L2

L3

L4

L5

L6

L7

�ekil 9.4.3.1: Sözcük türü tespit, sınama sonuçları. 1. dereceden Markov süreci

kurgusu altında, tüm talim derlemi boyutları sondan alınan harf birliklerinin tüm uzunlukları için.

Sınamanın, 1. dereceden Markov süreci kurgusu içerisinde

yapılan halinde, dikkat çekici olan durum, sondan alınan tek harf

birli � inin, tüm talim boyutu de� erlerinde istisnasız %60-%70 ba� arım

bandında kalmasıdır. Harf birli � i için sondan alınan, harf birli � i sayısı

arttıkça, ba� langıç ba� arımı dü� mekte, yani harf sayısı artarken, talim

derlem boyutunun iki uç noktasına denk gelen en dü� ük ile en yüksek

ba� arım de� eri arasındaki makas açılmaktadır.

Sınamanın, 1. derece, geçmi � e bir adım Markov süreci kurgusu

içinde alınan sonuçlar � ekil 9.4.3.2.’de verilmi � tir.


227

0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

250

1000

1750

3000

4500

1000

0

1750

0

2500

0

3250

0

4000

0

Talim Derlemi Boyutu (Cümle Sayısı)

Ba

� arım

Ora

nla

rı

L1

L2

L3

L4

L5

L6

L7

�ekil 9.4.3.2: Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi � e bir adım

Markov süreci kurgusu altında, tüm talim derlemi boyutları ve sondan alınan harf birliklerinin tüm uzunlukları için.

Sınamanın, � ekil 9.4.3.2.’de gösterilen sonuçlarında, en yüksek

ba� arımlar, %80-%90 bandında kalmaktadır. Bir harften olu� an birlik,

yine %60-%70 bandında seyretmi � tir. Geçmi � e bir adım ile sa� lanan

ba� lam derinli � inin, tek harften olu� an birli � e etkisi olmamı � tır. Fakat,

ba� lamın derinle� mesi, harf uzunlu� unun 2, 3, 4 ve 5 oldu� u birlikler

üzerindeki etkisi lehtedir. Özellikle 3 ve 4 harften olu� an birlikler,

10.000 kelimelik talim derlemi boyutundan itibaren, hep %80

ba� arımın üzerinde kalmı � tır. Zaten, 4 harften olu� an birlik, 30.000

cümlelik talim düzeyinde ve sonrasında %85 ba� arımının hep üzerinde

kalmı � ve son olarak 45.000 cümlelik talim derlemi boyutunda, %85,92

ba� arım ile, sınamanın en yüksek de� erini olu� turmu� tur. Sondan 5 harf

alınarak olu� turulan birlik için, 42.500 cümlelik talim düzeyinde, %85

ba� arım yakalanmı � tır.


228

Markov zinciri dil modelinin, 1. derecesi için yapılan sınamada

harf sayısı bire e� it birlik için her talim derlemi boyutunda tutarlı sonuç

alınmasının sebebi, deneysel olasılık da� ılımına, yani derlemimiz için

tek harf uzunlu� undaki birli � in gerçek olasılı � ına küçük talim

boyutlarından itibaren ula� ılmasıdır. � ki ve üzeri harf sayısı için

deneysel olasılı � a yakınsamanın, talim derleminde daha büyük

boyutlarda gerçekle� mesi ise istatistiksel açıdan beklenen bir sonuçtur.

Çünkü, harf sayısı arttıkça, olasılı � ı belirlenecek farklı durum sayısı

artmaktadır, yani durum ba� ına dü� en gözlem sayısı dü� mektedir. Bu

durum aynı zamanda gözlenmemi � durumlar için devreye giren

yumu� atma yöntemine daha çok ba� vurulması anlamına gelmektedir.

Eldeki verilerin ı � ı � ında, bir harf uzunlu� unun en yüksek ba� arımda

olması durumuna sebep olarak, yumu � atma yöntemini, elimizdeki

derlemi, uyguladı � ımız yöntemi veya belirleyicili � in genel ba� arımda

olumsuz yönde etki etti � ini önerebiliriz. Ancak, ba� lamın bir kelime

daha arttırılması ile, yani 1. derecede bir adım geçmi � e yönelinmesi ile,

durumun de� i � mesi, yani en yüksek ba� arımın dört harf uzunlu� undaki

birli � e ait olması ve ba� arımda genel anlamda geli � me kaydedilmesi,

sorgulanması gereken ilk konu olarak yumu � atma yöntemini ortaya

çıkartır. Fakat, yumu� atma yöntemleri bu tezin kapsamına

girmemektedir.


229

10. GENEL � STAT � ST � KLER

Tez kapsamındaki çalı � malarda üç Türkçe, üç de � ngilizce derlem

olmak üzere toplam altı derlem kullanılmı � tır. Bu derlemlerin genel

özellikleri ve istatistikleri di � er çalı � malara temel te� kil edece� inden

dolayı toplu halde bu bölümde ele alınacaktır. Türkçe için kısa adları

BilTD, OSTAD ve ODTÜ olan üç derlem vardır. BilTD ve OSTAD

elimizdeki dilbilimsel özellikleri i � aretlenmi � derlemlerdir. ODTÜ

derlemi dilbilimsel özellik i � aretlemesi olmayan ancak boyut olarak en

büyük derlemimizdir. Sadece derlem içindeki belgeler birbirinden

ayrı � tırılmı � ve her belgenin genel yapısal özellikleri i � aretlenmi � tir. � � aretlenen yapısal özellikler çok detaylıdır: belgenin türü (makale,

roman, haber v.s.), ba� lı � ı, yazarı, yayın evi, basım tarihi, kelime sayısı

v.s. gibi belgenin genel özellikleri ve paragraf sınırları, atıflar gibi yazı

içindeki i � aretlemeler yapılmı � tır. BilTD ise ODTÜ derlemi kadar

yapısal özellik i � aretlemesine sahip de� ildir. Ancak, BilTD derleminde

her kelimenin biçimbirimsel analizi de yapılmı � tır. Ayrıca, belge

sınırları, ba� lık ve cümle sınırları da i � aretlenmi � tir. OSTAD aslen

ODTÜ derleminden seçilen bazı belgeler ve bu belgelerin içerisinden

seçilen bazı paragraflardan olu� turulmu� tur. OSTAD derleminde de,

BilTD derleminde oldu� u gibi her kelimenin biçimbirimsel analizi

yapılmı � tır. Ayrıca, kelime gurupları belirlenmi � , her kelime veya

kelime gurubunun sözdizimsel cümle analizi yapılmı � tır, yani cümle

unsurları (fii l, fail, nesne v.b.) i � aretlenmi � tir. Aslen, OSTAD ile BilTD

arasındaki tek fark sadece dilbilimsel çözümleme esasında de� ildir.

OSTAD elle i � aretlenmi � tir. Oysa BilTD, otomatik i � aretleme ile

olu� turulmu� tur. Dolayısı ile, OSTAD, dilbilimsel özelliklerin

belirlenmesinde olu� abilecek yorum farkı dı � ında hatasızdır! Fakat

BilTD, her i � aretli özelli � i için belli bir miktar hata payı ta� ımaktadır.


230

Bu üç derlemin özet istatistikleri, toplu halde Çizelge 10.1.’de tablo � eklinde verilmi � tir.

Çizelge 10.1. BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri. “* ” karakteri olan hücreler derlemlerin söz konusu özelli � inin belli olmadı � ını gösterir.

Derlem Har f Rak+Nok Toplam Kelime Gövde Belge Parag CümleOSTAD 51,209 13,700 64,909 17,487 5,201 33 2,457 7,262

BilTD 587,277 124,836 712,113 94,230 20,268 2,383 * 48,070

ODTÜ 1,924,653 431,351 2,356,004 200,048 * 978 58,356 *

Toplam 2,563,139 569,887 3,133,026 311,765 25,469 3,394 60,813 55,332

Bir le� ik 2,511,930 * * 234,843 21,095 * * *

Bir lik Sayısı

Çizelgede, “Birlik Sayısı” ba� lı � ı altında üç sütün bulunmaktadır

(Birlik terimini, derlem içindeki yazıda geçen herhangi bir gurup simge

toplulu� u için kullanıyoruz, yani kelimeler, rakamlar, noktalama

i � aretleri v.s.). “Harf” sütunu bu birliklerden yalnızca alfabe

karakterleri ile olu� turulmu� olanları, “Rak+Nok” sütunu ise

birliklerden, rakamla olu� turulmu� olanları ve noktalama i � aretlerini,

“Toplam” sütunu ise, yalın olarak bu birlik sayılarının toplamını

göstermektedir. “Kelime” sütununda, her derlemde bulunan farklı birlik

sayısı (sadece harf birlikleri için) ve “Gövde” sütununda da,

derlemlerdeki farklı gövde sayıları verilmi � tir. Bu sütunlarda verilen

de� erler aslen derlemlerin kelime zenginli � ini, yani kelime da� arcı� ını

göstermektedir. BGG sistemlerinde bu sayılar, özellikle kelime sayısı

önemlidir. Türkçe için gövdeleme i � leminin depolama açısından

önemini de, kelime ve gövde esasındaki boyut farkı ortaya

koymaktadır. Aynı � ekilde, “Belge” , “Paragraf” ve “Cümle”

sütunlarında derlemlerin söz konusu özelli � e kar � ılık gelen de� erleri

vardır. Çizelgede, “Toplam” satırının altında verilen bir de “Birle� ik”

ba� lıklı satır bulunmaktadır. Bu satırdaki de� erler, üç derlem belirli


231

özellikleri göz önüne alınarak harmanlanınca, yani birle� tirilince elde

edilen yeni derlemin, yani birle� ik derlemin (BirTD) özelliklerini

vermektedir. Örne� in, sadece kelime sayıları üzerinden yapılacak

çalı � malar için BilTD ve ODTÜ harlamanı olu� turulmu� tur. OSTAD,

ODTÜ derleminin zaten bir parçası oldu� undan, bu harmanda tabii ki

yer almayacaktır. Dolayısı ile, birle� ik derlemin harf birli � i sayısı,

BilTD ve ODTÜ toplamına, yani 2.511.930’a e� it olmaktadır. Bu

birle� ik derlemin, kelime da� arcı � ı boyutu ise, 234.843’ tür. Fakat,

gövde esasında bir çalı � ma için, ODTÜ derlemi harmana

katılamayacaktır, dolayısı ile birle� ik derlem bu kez BilTD ve OSTAD

derlemlerinden olu� acak, birlik sayısı 638.486, gövde olarak kelime

da� arcı � ı 21.095 olacaktır. Bu harmanlama, incelemenin özelliklerine

uyan derlemlerle, tez içerisinde hep benzer � ekilde yapılmaktadır.

Genel istatistiklerin yanında, derlemlerin olu� turuldu� u belge

türleri de önemli bir konudur. Genel kabullenme, belgelerin içeri � ine

ba� lı olarak ta� ıdıkları enformasyon de� erlerinin de, de� i � ti � i

yönündedir. Örne� in makale, gazete yazıları gibi belgeler gerçek ki � i, kavram ve olaylarla ilgili oldukları için ta� ıdıkları enformasyon

açısından roman, deneme gibi hayali ki � i ve olayları içeren belgelerden

daha farklı � ekilde ele alınırlar. Dilbilim çalı � malarının kullanılı �

amaçlarına uygun � ekilde belge türü üzerinden derlemler olu� turulması

gereklili � i de vardır.

Elimizdeki derlemler, belge türleri açısından zengindir. ODTÜ

derlemi hemen her tür belgeyi belirli oranlarda içermektedir. ODTÜ

derleminde bulunan belge türleri � ekil 10.1.’de verilmi � tir. OSTAD

derlemi, ODTÜ derleminden bazı belgelerin belirli paragrafları alınarak

olu� turulmu� tur. BilTD ise, sadece gazete yazılarından olu� mu� tur.

Yani tek bir belge türüne sahiptir.


232

Ara � tırma5%

Kö � e Yazısı8%

Di � er3%

Roman13%

Gezi Yazısı2%

Deneme7%

Öykü11%

Makale8%

Söyle � i1%

Haber42%

�ekil 10.1: ODTÜ derlemindeki belge türleri

OSTAD derleminde de, ODTÜ derlemindeki belge türü çe� itli li � i

korunmu� tur. � ekil 10.2.’de de, OSTAD için belge türleri ve oransal

da� ılımları gösterilmi � tir.

Öykü24%

Gezi Yazısı3%

Deneme12%

Makale9%

Haber28%

Ara � tırma6%

Roman18%

�ekil 10.2: OSTAD derlemindeki belge türleri


233

10.1. Tanımlayıcı � statistikler

BilTD, ODTÜ ve OSTAD derlemlerinin ihtiva etti � i birlik,

kelime ve gövde sayılarının toplam (birle� ik de� il yalın toplamlar)

üzerinden, göreceli oranları � ekil 10.1.1.’de bindirilmi � sütunlar

çizgesi olarak verilmi � tir.

GÖVDEKELIMEBIRLIK_H

100

90

80

70

60

50

40

30

20

10

0

DERLEM

ODTÜ

BilTD

OSTAD

6475 80

30

2320

6

�ekil 10.1.1: BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik (harf), kelime

ve gövde sayılarının toplam üzerinden göreceli oranları. Sütunlardaki bölümler derlemleri, rakamlar toplam üzerinden oranları (%) temsil etmektedir. Gövde sütunu ODTÜ derlemini içermez.

� ekilde, ODTÜ derleminin biçimbirim analizi olmadı � ı için

gövde sayısı da yoktur (en sa� daki sütun). Gövde sütunu, yalnızca

BilTD ve OSTAD derlemlerini, sadece iki derlemin toplamı üzerinden

oransal olarak vermektedir. Burada kayda de� er özellik, derlemlerin

yazım � ekli olarak kelime zenginliklerini ortaya çıkaran, “ kelime”

sütununda görülmektedir. Derlemler, toplam birlik sayıları ile orantılı

olarak kelime zenginli � ine katkıda bulunmamaktadır. BilTD yalın


234

boyut oranından (%23), daha fazla bir oranda (%30) katkıda

bulunurken, ODTÜ derlemi yalın boyut oranından (%75), daha dü� ük

bir oranda (%64) katkı sa� lamaktadır. Ancak bu oranlar, bir çıkarım

yapabilmek için henüz güvenilir de� ildir, sadece fikir vericidir. Çünkü

OSTAD derlemi, bildi � imiz gibi ODTÜ derleminin bir parçasıdır. Aynı

durumun birle� ik derlem, yani BirTD derlemi üzerinden incelenmesi

güvenilir sonuçları verecektir. BirTD derlemi üzerinden, kelime ve

gövde için tanımlayıcı istatistikler, sırasıyla Çizelge 10.1.2 ve � ekil

10.1.3.’de verilmi � tir. BirTD derlemi olu� turulurken, BilTD, ODTÜ ve

OSTAD derlemlerinden hangisinin, kelimelerin kayna� ı oldu� unun da

kodlaması söz konusu olmu� tur, bu amaçla basit bir kodlama, Denklem

10.1.1’de verildi � i � ekilde kullanılmı � tır.

)*100()*10( OSTADODTUBilTDDerlem ++= (10.1.1)

Denklemde verilen kodlamada, e� er kelime bir derlemde varsa,

denklemde BilTD, ODTÜ ve OSTAD yerine bir, e� er yoksa sıfır

konarak, BirTD içindeki her kelimeye kaynak derlemi de� erlerinden 1,

10, 100; 11, 110, 101 ve 111 birisi atanmı � tır. Anla� ılaca� ı gibi,

de� erlerden ilk üçü sadece bir tek derlemde gözüken kelimeleri,

di � erleri ise derlemlerin olası tüm kesi � im kümeleri içinde gözüken

kelimeleri belirler. Örne� in bir kelimede atanmı � derlem de� eri 111 ise,

bu kelime her üç derlemde de, e� er 100 ise sadece OSTAD derleminde

var demektir. Bu sayede hem bireysel, hem de kesi � im içindeki

kelimeler rahatlıkla belirlenebilmektedir. BirTD derlemini olu� turan

kelimelerin, kaynak derlemleri açısından sayısal de� erler, Çizelge

10.1.1.’de tablo halinde verilmi � tir.


235

Çizelge 10.1.1: BirTD için kelimelerin geldikleri derlemler üzerinden istatistikleri. “Derlem” sütunundaki de� erler, Denklem 10.1.1’den elde edilmi � tir.

DERLEM Frekans (%) Yı � ın (%)1 34,795 14.82 14.8210 134,639 57.33 72.1511 47,931 20.41 92.56110 5,974 2.54 95.10111 11,504 4.90 100.00

Toplam 234,843 100

Çizelgede, kelimelere atanan iki derlem kodlama de� eri

görüldü� ü gibi yoktur. Bunlar 100 ve 101’dir. ODTÜ derlemi, OSTAD

derlemini tamamen kapsadı � ı için, olmayan bu iki derlem kodu � unlardır: “100”, yani sadece OSTAD’da olup, BilTD ve ODTÜ’de

olmayan; “101” , yani BilTD ve OSTAD’da olup, ODTÜ’de olmayan.

Tabii ki bu iki durum imkansızdır. O yüzden frekansları, yani gözlenme

sıklıkları sıfırdır ve de� erlendirme dı � ı kalmı � lardır.

DERLEM

11111011101

Ora

n (%

)

70

60

50

40

30

20

10

0 5

20

57

15

�ekil 10.1.2: Birle� ik derleminin (BirTD), kelime esasında kelime da� arcı� ını

olu� turan kaynak derlemler ve oransal katkıları.


236

Birle� ik derlemin kelime da� arcı � ına, en büyük katkı, beklendi � i

gibi ve bir önceki de� erlendirmenin aksine, tek ba� ına yakla� ık %57 ile

ODTÜ derleminden (10) olmu� tur. Yalnız ba� ına BilTD derlemi (1)

yakla� ık %15 katkıda bulunmu� tur. � ki derlemin ortak katkısı (11) ise

yakla� ık %20 civarıdır. OSTAD ile ODTÜ’de olup BilTD derleminde

olmayan kelimeler (110) yakla� ık %3’dür, aslen bu sayı ODTÜ

derleminin yalnız katkısı ile birlikte de� erlendirilmelidir (%60).

Üçünün kesi � im kümesinde (111) ise toplam kelime sayısının yakla� ık

%5’ bulunmaktadır. Bu oran da aslen, yalnızca BilTD ile ODTÜ

ortaklı � ıdır (11) ve toplama eklenebilir (%25). OSTAD katkısı ODTÜ

içine dahil edilmi � � ekilde özetleyecek olursak, BilTD tek ba� ına

kelime da� arcı � ına %15, ODTÜ tek ba� ına %60 ve birlikte %25

katkıda bulunmu� lardır.

Kelimeler açısından elimizdeki üç derlemin durumu budur, bir de

aynı derlemleri gövdeler esasında incelemekte fayda vardır. Ancak, bu

noktada elimizdeki en büyük derlem olan ODTÜ, biçimbirimsel analizi

olmadı � ı için, onun çok küçük bir parçası olan OSTAD ile yetinmek

zorundayız. Bu kez birle� ik derleminin, sadece BilTD ve OSTAD

derlemlerinden olu� tu� u durumu göz önüne alınarak Denklem

10.1.1.’de verilen kodlamada ufak bir de� i � iklik yapılmı � , denklemden

100 katsayısı çıkartılıp, ODTÜ yerine OSTAD alınarak yeni birle� ik

derlem için gereken kodlama elde edilmi � tir (Derlem = BilTD + (10 *

OSTAD)). Böylece birle� ik derlemin her kelimesi için, üç de� er

üretilmektedir: 1 (BilTD), 10 (OSTAD) ve 11 (hem BilTD hem

OSTAD). Çizelge 10.1.2.’de gövdelerle ilgili istatistikler verilmi � tir. �ekil 10.1.3.’de de, çizelgede verilen istatistiklerin çizgesel olarak

gösterimi yapılmı � tır.


237

Çizelge 10.1.2: Gövde esasında BirTD derlemi için tanımlayıcı istatistikler.

DERLEM Frekans (%) Yı � ın (%)1 15,894 75.34 75.3410 827 3.92 79.2711 4,374 20.73 100.00

Total 21,095 100

Çizelgeden de anla� ılaca� ı gibi, oranlar nispetinde, gövdeler de

kelimelerden, kelime da� arcı � ına yaptıkları katkı açısından bir farklılık

göstermemektedir.

DERLEM

11101

Ora

n(%

)

80

60

40

20

0

21

4

75

�ekil 10.1.3: BilTD ve OSTAD derlemlerinin, gövdeler esasındaki kelime

da� arcı� ına yaptıkları katkılar.

BGG sahasındaki yöntemlerin kullandıkları kelime da� arcı � ının

boyutları, sistemlerin depolama ve verimlilik meseleleri açısından

önemlidir. Kelime da� arcı � ı ile BGG sistemleri arasındaki ili � ki,

belgelerin indeks terimler ile temsil edilmesi, indeks terimlerin de

belgeler içinde geçen birliklerden olu� turulması sebebine dayanır.


238

Dolayısı ile, kelime da� arcı � ının, kolay yönetilebilir boyutların üzerine

çıkması, sistemlerin çok büyük belge sayıları ile u� ra� mak zorunda

oldukları göz önünde tutulunca, kabul edilemez bir durum olmaktadır.

E� er dilbilimsel özellikler ile geri-getirim, bu tezde oldu� u gibi

öncelikli bir konu ise, hesaplamalı dilbilim içinde kelime da� arcı � ı,

yani bir sözlük kullanan mevcut yöntemlerin hemen hiç birinin

do� rusal hesaplama karma� ıklı � ına sahip olmaması da göz önünde

bulundurulması gereken bir ba� ka boyuttur: BGG sistemlerinde

dilbilimsel yöntemlerin kullanımı ile bir geli � me kaydedilmi � olsa dahi,

yöntemlerin kullanılabilirli � i açısından hesaplama karma� ıklı � ı, mesele

olmaya devam edecektir (en azından � u anki teknoloj i için). Hesaplama

karma� ıklı � ının önemli etmenlerinden biri, yöntemde kullanılan kelime

da� arcı � ı boyutudur. Aslen, dilbilim çevrelerinde kelime da� arcı � ı

boyutu açısından yaygın olan görü� , da� arcı � ın boyutlarının, derlem

boyutu sonsuza giderken belirli bir sabit de� ere ula� aca� ı, yani genel

anlamda kapalı bir kelime da� arcı � ı oldu� udur. Bu kabullenme

do� ruysa, kelime da� arcı � ının boyutu hesaplama karma� ıklı � ı

açısından sabit olacak, dolayısı ile sadece depolama ile alakalı bir

meseleye dönü� ecektir. Ancak, yaptı � ımız çalı � malar, Türkçe için

kapalı kelime da� arcı � ı kabullenmesi yapılamayaca� ını

göstermektedir20. Türkçe kelime da� arcı � ının derlem büyüklü� ü ile ne

tür bir ili � ki sergiledi � i, tüm bu meselelere ı � ık tutaca� ı için

tanımlanması gereken bir konudur ve ilerleyen kısımlarda detaylı

olarak incelenmektedir.

20 Aynı bulgular � ngilizce için de deneysel olarak gösterilmi � tir (Mandelbrot, 1961; Kornai, 2002).


239

10.2. Türkçe için Zipf Güç Kanunlar ı � ncelemesi

Türkçe için, Zipf güç kanunları ne kadar uyumludur, parametreler

için de� erler nelerdir gibi soruların cevaplarını bu bölümde verece� iz.

Bu amaçla, önce Zipf birinci kanunu (Bölüm 7.2.1), elimizdeki BilTD,

ODTÜ ve OSTAD derlemlerinin her birine, daha sonra da birle� ik

derleme uygulayaca� ız. Böylece de� i � imleri ve derlemler arası

farklılı � ı da gözlemleyebilece� iz. Ancak, öncelikle yapaca� ımız

incelemeye benzer ara� tırmaların alt yapısını olu � turmak için, birkaç

genel istatistiksel konuyu tanıtmamız gerekmektedir.

10.2.1. � statistiksel � ncelemeler için Alt Yapı

�statistiksel de� erlendirmelerin temelinde, belirli bir kitlenin

(population) özellikleri ile ilgili, nicel veya nitel tanımlamaları

çıkarmak veya belirli bir kitle özelli � inin bilinmeyen de� erlerini tahmin

etmek vardır. E� er bir “ tahmin” yapmak söz konusu ise, kitlenin

tahmin edilmek istenen özelli � i ilgili kuramsal bir model, yapılacak

tahminlerin hesaplamaları için gereklidir. �statistik ile kitle özelli � i

tahminlerinde kullanılan modeller matematikseldir. Böyle bir

matematiksel model üzerinden, kitlenin belirli bir özelli � in tahmini

de� erini hesaplamak için gerekli olan veridir. Veri ise, kitleden belirli

ilkelere ba� lı kalınarak seçilen ve boyut olarak kitleden çok daha küçük

olan bir ö � eler toplulu� u üzerinden elde edilmektedir. � � te, bu kitleden

boyut olarak küçük olan, kitlenin bilinmeyen özelli � inin de� er tahmini

için hesaplamalarda kullanılan, alt kitle gurubuna örneklem (sample)

denir. �statistiksel incelemeler için verilen bu öykü, tüm do � al olaylar

için genel geçerdir. De� i � ik kitle özellikleri ve � artlar için sadece

matematiksel model ve örneklem seçimi için esas alınacak ilkeler


240

de� i � iklik gösterirler. E� er örnek olarak yazılı bir dil için kurgulama

yapacak olursak, kitlemiz aslen yazılmı � olan ve yazılabilecek tüm

metinlerdir! Örneklem ise, daha önce yazılmı � metinlerden

olu� turaca� ımız bir derlem olacaktır. Aynı � ekilde, bir ba� ka bakı � açısından, söz gelimi, kitlemiz önceden yazılmı � belgelerden olu� an tek

bir derlem de olabilir, mesela ODTÜ derlemi kitlemiz olabilir. Bu kez

örneklem, ODTÜ derlemindeki belgelerin belirli bir kısmı ile

olu� turulacak alt guruplar olacaktır. Özetle kitle, tahmin edilmek

istenen özelli � in ne oldu� una göre, örneklem ise kitlenin ne oldu� una

göre de� i � im gösterir. Demek ki, BilTD, ODTÜ veya OSTAD tahmin

edece� imiz özelli � in tanımına göre kitle veya örneklem olarak

alınabilir.

Olasılı � a dayalı iddiaların deneysel temelinde, frekans

oranlarının sabitle� mesi kanunu vardır. Bu ilke, örne� in herhangi bir kelimenin (w), örneklem içindeki göreceli frekansının nwFf nn /)(= ,

örneklem büyüklü� ü (n) sonsuz giderken, )(wf gibi sabit bir göreceli

frekansa e� it olaca� ını söylemektedir. Bu sabit göreceli frekansa gerçek

olasılık adı da verilmektedir. Bir ba� ka söyleyi � le, örneklem büyüklü� ü

yeterince büyütülünce örneklem içindeki göreceli frekanslar, yani olasılıklar, 1)(0 ≤≤ wf gibi sabit de� erlere yakınsarlar, bu sabit

de� erler de tabii onların kitle içindeki gerçek olasılıklarıdır. Bu ilkenin

geçerlili � i için, geçerli olması gereken en kritik kabullenme, kitle

özelli � inin alabilece� i olası tüm de� erlerin önceden belirli veya

hesaplanabilir oldu� udur (gerçek sayılar söz konusu ise ∞≤≤ x0 gibi

bir aralıkta oldu� u veya bir zar atıldı � ında gelebilecek sayıların 1 ile 6

arasında olabilece� inin bilinmesi gibi.). Yani, tahmin edilecek özelli � in

alabilece� i de� erlerin, sayılabilir ve sınırlı bir kümeden veya sayılabilir

ve sınırsız bir kümeden gelmesi gerekir, sayılamaz ve sınırsız

kümelerle çalı � ıldı � ında durum tamamen de� i � mektedir: deneysel bir


241

olasılıktan, yani yakınsanacak bir sabit gerçek olasılıktan bahsetmek

mümkün de� ildir. � � te bu kabullenme, hesaplamalı dil bilimde deneysel

yöntemler kullanılacaksa, neden kapalı kelime da� arcı � ına gereksinim

duyuldu� unun sebebini de açıklamaktadır. Demek ki, boyutu devamlı

büyüyen bir derlem, örneklem olarak alındı � ında, kelimelerin gözlenme

sıklıkları, yani frekansları veya göreceli frekansları açısından � öyle bir

iddianın geçerlil i � ini deneysel sonuçların anlamlılı � ı açısından

sorgulamak gerekir: E� er kelime da� arcı � ı kapalı de� ilse, toplam

olasılıktan (yani bir), örneklem büyüklü� ü arttıkça her kelime ba� ına

dü� en payın hiçbir zaman sıfır olmayacak � ekilde giderek dü� mesi

gerekir. Dolayısı ile, hiçbir kelimenin olasılı � ının sabitlenmemesi,

derlem büyüklü� ü arttıkça de� i � mesi gerekir.

Deneysel hesaplamalı dilbilim çalı � malarında, örneklem

büyüklü� ü arttıkça kelime frekansları büyük de� erlere çıktı � ı için,

aslında yalın � ekilde frekanslara bakarak bir sabite yakla� ıp

yakla� madıkları, gözlemlenerek anla� ılamaz. Zipf ilkelerinde verilen

ifadelerin, log-log ölçe� inde incelenmesi de bu görselli � in

gereklili � indendir. Ço� u nicel dilbilimsel uygulamada, üstel olarak

artan boyutlarda derlemler kullanılır ve Zipf ifadesine yakın ili � kiler

genellikle 104-105 aralı � ındaki bir büyüklükte yakalanır. Çünkü, küçük

derlem boyutlarında kelime da� arcı � ının büyüme hızı oldukça

yüksektir. Dolayısı ile, Zipf kanunlarında verilen ifadelerdeki, kapalı

kelime da� arcı � ı kabullenmesine yakınsama ancak büyük derlemlerde

söz konusudur.

Zipf güç kanunları ile ilgili istatistiksel çalı � mamızda, o anki

inceleme esaslarına uyması ko � ulu ile, mevcut tüm derlemlerden

yararlanılacaktır: BilTD, ODTÜ, OSTAD ve birle� ik derlem BirTD. Bu

bölümde, derlemler üzerinden sınayaca� ımız iddialar, Zipf birinci


242

kanunu ve birinci kanun için Mandelbrot ifadesi olacaktır (Bölüm

7.2.1). Mandelbrot ifadesindeki W parametresi için en az 3, uygun olan

derlem boyutlarında da 4 veya 5 sabit de� er üzerinden sınama

yapaca� ız: 10, 100 ve 1000; 10,000 veya 100,0000. Mandelbrot özgün

çalı � masında � ngilizce için, W=100 de� erinde ifadenin en uygun halini

elde etti � ini belirmi � tir. Biz de, Türkçe için W parametresinin en uygun

de� erini tahmin edece� iz. Kelimeler esasında yapılacak bu çalı � ma,

aynı zamanda gövdeler için de yapılacaktır. Ancak, tezin hedefinin,

BGG sistem ba� arımlarının dilbilimsel özellikler kullanılarak

arttırılması oldu� u dü� ünüldü� ünde, tüm durumların detaylı

açıklamalarını vermek tez kapsamımızı oldukça a� acaktır. O yüzden

sadece BilTD derlemi için detaylı inceleme yaparak, de� erlendirme için

önemli noktaları belirttikten sonra, geri kalan derlemler için sadece

parametre de� erleri ve sıra dı � ı veya önemli buldu� umuz detayları

belirtmekle yetinece� iz.

10.2.2. BilTD Der leminin Zipf Bir inci Kanun � ncelemesi

BilTD derlemi biçimbirimsel dilbilim analizinden geçirildi � i için,

hem kelime hem de gövde esasında Zipf ve Mandelbrot ifadelerinin

sınamaları yapılmı � tır.

10.2.2.1 Kelime esasında inceleme

Zipf birinci kanun ve Mandelbrot ifadesinin, BilTD derlemi için

uyum de� erleri Çizelge 10.2.2.1.1.’de tablo halinde verilmi � tir.


243

Çizelge 10.2.2.1.1: BilTD derlemi için, kelime esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.

Model Rsq N F Sigf b0 b1Zipf 0.995 94,228 1.900E+07 0.000 5.3089 -1.0933W=10 0.996 94,228 2.400E+07 0.000 5.3332 -1.0986W=100 0.998 94,228 5.700E+07 0.000 5.4499 -1.1235W=1,000 0.995 94,228 1.800E+07 0.000 6.0148 -1.2417W=10,000 0.949 94,228 1.749E+06 0.000 8.8358 -1.8094

Çizelgede BilTD derlemi için Zipf ve Mandelbrot ifadelerinin

tüm uyum de� erlendirmeleri topluca verilmi � tir. Bundan sonraki tüm

derlemlerde de yine topluca, aynı biçimde verilecektir. Dolayısı ile, bu

çizelgede açıklananlar aksi belirtilmedikçe di � er derlem çizelgeleri için

de geçerlidir. “Model” sütununda, uyum için sınanan ifadenin kısa adı

verilmi � tir: Zipf, Zipf birinci kanunu; W=10, Mandelbrot ifadesinde W

parametresi de� erinin 10 oldu� u durum; aynı � ekilde W=100, 1,000 ve

10,000 satırları da Mandelbrot ifadesi içindir. “Rsq” (R2) sütunu

uyumun belirleyicilik katsayısıdır (coefficient of determination). Aslen

bu de� er do� rusal regrasyon (linear regression) yöntemindeki çoklu

korelasyon katsayısının ( 11 ≤≤− R ), yani tahmin edilen de� erler ile

gerçek de� erler arasındaki kar � ılıklı do � rusal ili � kiyi temsil eden

de� erin (correlation) karesidir. De� er ne kadar büyükse, do� rusal ili � ki

o kadar güçlüdür. R2 de� erinin bir olması veri içindeki tüm de� i � imin

belirlendi � ini, yani model ile tam temsil edildi � ini; sıfır olması modelin

de� i � imi açıklayamadı � ını gösterir. “N” sütununda uyum için

de� erlendirmeye alınan kelime sayısı, daha do � rusu kelime da� arcı � ı

boyutu verilmi � tir (e� er gövde esasında de� erlendirme yapılıyorsa,

gövde sayısı olacaktır). “F” sütununda, do� rusal regrasyona ait

ANOVA21 tablosunun, F istatistik de� erleri listelenmi � tir. Verilen 21 ANOVA, � ngilizce’si Analysis Of Variance (varyans analizi) olan yöntemin kısa adıdır.


244

do� rusal il i � kiye dayalı, model uyum de� erlerinin, istatistiksel açıdan

anlamlı olması için, F istatistik de� erinin belli bir anlam düzeyi için,

örne� in α=0.001 de� eri için, kritik bir e� ik de� erden büyük olması

gerekir. Zaten “Sigf” sütunundaki de� er hangi anlam düzeyinde verilen

F istatistik de� erinin, söz konusu e� ik de� erden büyük oldu� unu

göstermektedir. Tabloda görüldü� ü gibi, tüm “Sigf” de� erleri noktadan

sonra üç basamak hassasiyetinde sıfırdır, yani verilen F de� erlerinin

hepsi α=0.001 anlam düzeyinin e� ik de� erinden büyüktür. Dolayısı ile

istatistiksel olarak anlamlıdır. Çizelgede, son iki sütun olan, “b0” ve “b1” ise, xbby ⋅+= 10 � eklinde bir do � rusal ili � ki modelinin kar � ılık

gelen de� erlerinin listesidir. Bu do � rusal modelde, “ b0” y-eksenindeki

kaydırma miktarı (HN), “b1” ise do� runun e� imidir (BN). Tabloda, R2

de� eri kalın biçimde yazılı olan satırdaki, daha do� rusu en büyük R2

de� erine sahip satırdaki sabitler, incelenen derleme en uygun olan

modeli ve parametre de� erlerini gösterir. BilTD derleminin kelimeleri

için, W=100 parametre de� eri olan Mandelbrot ifadesi, en uygun

modeldir.

Görsel kar � ıla� tırma açısından, � ekil 10.2.2.1.1.’de Zipf ifadesi

için, � ekil 10.2.2.1.2.’de de Mandelbrot ifadesinin W=100 parametre

de� eri için, modellerin tahmin etti � i ve BilTD derleminde gözlenen

de� erlere ait yayılım çizgeleri (scatter plot) verilmi � tir. Mandelbrot, �ngilizce için, W parametresinin de� erini 100 ve “b0” parametresinin

de� erini 1.15 olarak vermi � tir. BilTD derlemi, bu açıdan �ngilizce ile

paralellik göstermi � tir.


245

�ekil 10.2.2.1.1: BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu. Kelime

frekanslarının logaritmaları (log_f) y-ekseni, frekanslara ait sıra numaralarının logaritmaları (log_r) x-eksenidir. Düz çizgi, Zipf ifadesi ile tahmin edilen de� erlerdir.

�ekilde, Zipf ifadesinin, Mandelbrot’un belirtti � i gibi, BilTD

derlemindeki kelime frekansları ile sıra numaraları arasındaki i li � kiyi

özellikle küçük sıra numaraları için (çizgenin sol üst kö � esi) pek iyi

� ekilde temsil edemedi � i rahatlıkla görülebilmektedir. Küçük sıra

numaraları derlemde en sık gözlenen kelimelerdir ve Zipf ifadesi bu

kelimelerin frekanslarının çok üzerinde tahminler yapmı � tır.


246

�ekil 10.2.2.1.2: BilTD derleminin, kelimeler esasında Mandelbrot ifadesinin W=100

parametre de� eri için uyumu.

Modeller üzerinde yapılan hesapların da gösterdi � i gibi, � ekilde

verilen Mandelbrot ifadesi, Zipf ifadesinden çok daha iyi tahmin

de� erleri üretmi � tir.

Her iki � ekilde de, derlemdeki kelime frekanslarının (y-ekseni)

orta noktasından, a� a� ı ve yukarı ilerledikçe, sıra numaraları arasında

atlamalar olmaktadır. Atlamanın büyüklü� ü, nokta üzerine yatay bir

çizgi ile betimlenmi � tir. Çizgi ne kadar geni � se, sıra numaraları

arasındaki atlama o kadar büyüktür. Sıra numarasındaki atlamanın

sebebi, derlemde aynı frekansa sahip olan kelimelere ortak bir sıra

numarası atanmasındandır. Bu ortak sıra numarası, e� itli � in ba� ladı � ı

noktadan, bitti � i noktaya kadar olan gerçek sıra numaralarının


247

ortalamasıdır. Örne� in 2, 3, 3, 4 de� erlerinin sıra numaraları: 1, 2.5, 2.5

ve 4 olacaktır. Elbette, aynı de� erlere sıra numarası vermenin tek yolu

bu de� ildir ve herhangi birisi buradaki gibi incelemeler için

kullanılabilir. Ancak, alınan sonuçlar aynı, sonuçları yorumlama � ekli

farklı olacaktır. Teknik sebeplerden bu � ekilde bir sıralama, bizim için

en uygun olandır.

10.2.2.2 Gövde esasında inceleme

BilTD derlemini olu� turan gövdeler için, Zipf ve Mandelbrot

ifadelerinin do � rusal ili � ki uyum sınamasının sonuçları, Çizelge

10.2.2.2.1.’de tablo halinde verilmi � tir.

Çizelge 10.2.2.2.1: BilTD derlemi için, gövde esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.


Çizelgedeki de� erlerden de rahatlıkla görülebildi � i gibi, BilTD

derleminin, kelime ve gövde esasında uyum parametreleri açısından

belirgin bir fark vardır. Bu farkın iki anlamı vardır. E � er kelime

da� arcı � ı kapalı ise, gövde esasında kelime da� arcı � ı boyutu, kelime

esasında kelime da� arcı � ı boyutundan hem daha küçük olacak, hem de

daha küçük derlem büyüklüklerinde gerçek olasılıklara ula� acaktır,

yani gövdelerin kelime da� arcı � ı gerçek boyutlarına daha hızlı

yakınsayacaktır. Fakat, e� er kelime da� arcı � ı açıksa, gövdelerle


248

kelimeler arasında derlem büyüklü� ü sonsuza giderken bir fark

kalmayacaktır, yani ikisi de durmadan artarak büyüyecektir.

BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi �ekil 10.2.2.2.1.’de ve Mandelbrot ifadesi i le, W=1000 parametre

de� eri için uyum çizgesi de �ekil 10.2.2.2.2.’de verilmi � tir.

�ekil 10.2.2.2.1: BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi.

�ekilde görüldü� ü gibi, gövdeler için Zipf ifadesi, BilTD

derlemindeki gövdelerin de� i � imini temsil etmekten oldukça uzaktır.

Özellik, ifade ile tahmin edilen frekans de� erleri, yüksek frekanslı

gövdeler için gerçekle� en de� erlerin çok üzerinde kalmı � tır.


249

�ekil 10.2.2.2.2: BilTD derleminin, gövde esasında, Mandelbrot ifadesi ile W=1000

parametre de� er için uyumu çizgesi.

Mandelbrot ifadesi, yazarın özgün çalı � masında da belirtti � i gibi,

derlemlerdeki gözlenme sıklı � ı ile sıra numarası arasındaki il i � kileri

Zipf ifadesinden her zaman daha iyi temsil etmekte, ek parametreleri ile

uyumu kolayla� tırmaktadır.

10.2.3. ODTÜ Derleminin Zipf Bir inci Kanun � ncelemesi

ODTÜ derlemi, daha önce de belirtildi � i gibi biçimbirimsel

analize sahip olmadı � ı için, Zipf ve Mandelbrot ifadelerinin do � rusal

ili � ki uyumu için sadece, kelime esasında sınanabilmi � tir. Sınama

sonuçları Çizelge 10.2.3.1.’de tablo halinde verilmi � tir.


250

Çizelge 10.2.3.1: ODTÜ derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.

Model Rsq N F Sigf b0 b1Zipf 0.996 200,048 5.000E+07 0.000 5.9173 -1.1429W=10 0.997 200,048 5.900E+07 0.000 5.9324 -1.1459W=100 0.998 200,048 1.100E+08 0.000 6.0078 -1.1610W=1,000 0.998 200,048 8.000E+07 0.000 6.3846 -1.2353W=10,000 0.968 200,048 6.041E+06 0.000 8.1909 -1.5814W=100,000 0.881 200,048 1.487E+06 0.000 19.3420 -3.5950

ODTÜ derleminin boyutları, Mandelbrot ifadesi için W=105

seviyesindeki sınamanın da yapılabilmesine izin vermi � tir. ODTÜ

derlemi, kelime esasında BilTD derlemi ile benzer � ekilde, en yüksek

seviyedeki do� rusal ili � kiyi Mandelbrot W=100 parametre de� eri için

vermi � tir. � ekil 10.2.3.1’de Zipf ifadesi ile uyum çizge olarak da

verilmi � tir.

�ekil 10.2.3.1: ODTÜ derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.


251

10.2.4. OSTAD Der leminin Zipf Bir inci Kanun � ncelemesi

OSTAD derlemi, ODTÜ derleminden alındı � ı için, tabii olarak

geni � letildi � inde, ODTÜ derlemindeki özelliklere sahip olacaktır.

Mevcut hali ile, birinci güç ilkesine uyumu ve özellikleri hakkında fikir

edinmek için yine de sınanmı � tır.


Çizelge 10.2.4.1.1’de OSTAD derleminin kelime esasında sınama

sonuçları tablo halinde verilmi � tir.

Çizelge 10.2.4.1.1: OSTAD derleminin, kelime esasında Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.

Model Rsq N F Sigf b0 b1Zipf 0.999 17,476 2.700E+07 0.000 3.1364 -0.7664W=10 0.998 17,476 1.100E+07 0.000 3.1828 -0.7781W=100 0.989 17,476 1.579E+06 0.000 3.3917 -0.8300W=1,000 0.944 17,476 2.969E+05 0.000 4.4435 -1.0819

OSTAD derleminde en dikkat çeken özellik, Zipf ifadesinin en

yüksek uyumu göstermesidir. OSTAD derleminin boyut olarak, 104 ile

105 arasında kalması, söz konusu aralıkla ilgili istatistiksel alt yapı

anlatımında verilen tespiti de do� rular niteliktedir: “Ço� u nicel

dilbilimsel uygulamada, üstel olarak artan boyutlarda derlemler

kullanılır ve Zipf ifadesine yakın ili � kiler genellikle 104-105

aralı � ındaki bir büyüklükte yakalanır.” . � ekil 10.2.4.1.1.’de verilen

Zipf ifadesi ile uyum çizgesi, böyle bir dü� ünceyi destekler niteliktedir.


252

�ekil 10.2.4.1.1: OSTAD derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.


Çizelge 10.2.4.2.1.’de, OSTAD derleminin gövde esasında

sınama sonuçları vardır. � ekil 10.2.4.2.1’de Zipf ifadesi ile tahmin

edilen de� erlerle uyumun, � ekil 10.2.4.2.2’de de, Mandelbrot

ifadesinin, W=100 parametre de� eri için tahmin edilen de� erlerle

uyumun yayılım çizgesi verilmi � tir.

Çizelge 10.2.4.2.1: OSTAD derleminin, gövde esasında Zipf ve Mandelbrot ifadesi ile, do� rusal ili � ki uyum sınamaları.

Model Rsq N F Sigf b0 b1Zipf 0.969 5,199 1.631E+05 0.000 4.4432 -1.1998W=10 0.979 5,199 2.462E+05 0.000 4.6184 -1.2509W=100 0.992 5,199 6.865E+05 0.000 5.3456 -1.4564W=1,000 0.973 5,199 1.860E+05 0.000 9.1818 -2.4714


253

�ekil 10.2.4.2.1: OSTAD derlemin, gövde esasında, Zipf ifadesi ile uyum çizgesi.

�ekil 10.2.4.2.2: OSTAD derleminin, gövdeler esasında, Mandelbrot (W=100) ifadesi

ile uyum çizgesi.


254

OSTAD derleminin, gövde açısından yapılan sınamasının en

dikkat çekici noktası, büyük derleminin, yani ODTÜ derleminin

kelimeler esasındaki karakteristiklerine yakınsıyor olmasıdır.

10.2.5. Bir le� ik Der lemler in Zipf bir inci kanun incelemesi

Bu bölümde, BilTD, ODTÜ ve OSTAD derlemlerinin

harmanlanması ile olu� turulan birle� ik derlem, BirTD, Zipf birinci

kanunu ile uyum açısından incelenmi � tir. Önceki incelemelerde,

derlemlerin bireysel uyum özellikleri elde edildi � i için, bu inceleme ile,

kanunun uyumunda, büyüyen bir derlem açısından ne tür de� i � imler

oldu� u da gözlenebilecektir. Kelime esasında yapılan incelemede

kullanılan birle� ik derlem, BilTD ile ODTÜ harmanıdır. Gövde

esasında, birle� ik derlem BilTD ve OSTAD harmanı ile elde edilmi � tir. Dolayısı ile, BirTD derleminin ba� lama göre içeri � i de� i � mektedir,

yani kelime esasında incelemede BilTD ve ODTÜ harmanı; gövde

esasında incelemede BilTD ve OSTAD harmanıdır.


Çizelge 10.2.5.1.1: BirTD derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.

Model Rsq N F Sigf b0 b1Zipf 0.995 234,843 4.700E+07 0.000 6.2635 -1.1915W=10 0.996 234,843 5.300E+07 0.000 6.2777 -1.1944W=100 0.997 234,843 8.700E+07 0.000 6.3493 -1.2085W=1,000 0.998 234,843 1.400E+08 0.000 6.7091 -1.2786W=10,000 0.975 234,843 9.117E+06 0.000 8.4196 -1.6030W=100,000 0.892 234,843 1.943E+06 0.000 18.6018 -3.4286


255

BilTD boyut olarak, ODTÜ derleminin dörtte biri olmasına

ra� men, birle� ik derlemde etkisi büyük olmu� tur. BilTD ve ODTÜ ayrı

olarak, Mandelbrot ifadesinin W=100 parametre de� eri i le temsil

edilirken; birle� ik olarak, uyumu W=1000 parametre de� erine

sıçratmı � lardır. Bu sonuç, derlem boyutunun artması açısından

de� erlendirildi � inde, kelime zenginli � inde bir artı � ı i � aret etmektedir.

Kelime zenginli � indeki artı � demek, kelime da� arcı � ının boyutunda

artı � demektir.


Çizelge 10.2.5.2.1: BirTD derleminin, gövde esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.


Birle� ik derlemin, gövde esasında uyumu da, bu kez kelimeler ile

paralellik göstermi � tir. Derlem boyutunun artması, gövde esasında da

kelime zenginli � ini aynı � ekilde arttırmı � tır. Oysa, bireysel

incelemelerde, gövdeler zenginlik açısından kelimelerden daha dü� ük

de� erlere sahip olmaktaydı. E � imin 1 ve altındaki de� erleri kapalı

kelime da� arcı � ına; birden büyük e� im de, açık kelime da� arcı � ına

delildir. Bu noktadan hareketle, e� er, e� imin sayısal de� eri, iki derlem

arasında, kelime da� arcı � ı boyutunun artı � hızlarını kar � ıla� tırmak, yani

hangisinin daha zengin kelime da� arcı � ına sahip oldu� unu ölçmek için

nicel bir ölçüt olarak kabul edilirse, gövde esasında e� im (-2.2515),


256

kelime esasındaki e� imden (-1.2786) büyük oldu� u için: “ gövde

esasındaki kelime da� arcı � ı, kelime esasındaki kelime da� arcı � ından,

boyut açısından geni � lemeye daha meyillidir.” de denebilir.

10.3. � ngilizce için Zipf Bir inci Kanun � ncelemesi

Türkçe için yaptı � ımız incelemeleri, iddiaların asıl kayna� ı olan �ngilizce için bir birle� ik derlemde de yaparak, Zipf birinci güç kanunu

tartı � mamızı bitiyoruz. Kullanaca� ımız birle� ik derlem, üç çok yaygın

ve serbest eri � imli �ngilizce derlemin harmanıdır: Time, Cranfield ve

Medlars. Time derlemi adında anla� ılaca� ı gibi, Time gazetesinin

makalelerinden; Cranfield derlemi, aerodinamik sahasındaki ara� tırma

makalelerinden olu� mu� tur. Medlars derlemi ise, SMART BGG

sisteminin demirba� derlemidir. Bu üç derlemin ve harmanı olan

birle� ik derlemin genel özellikleri Çizelge 10.2.6.1.’de verilmi � tir. �ngilizce için tanımlayıcı genel istatistikler, Türkçe ile kar � ıla� tırılınca

bir nokta gerçekten dikkat çekicidir: Türkçe ile �ngilizce kelime

da� arcıklarının büyüklü� ü açısından, ancak Türkçe derlemler

gövdelenirse, e� it � artlara gelinmektedir. �ngilizce birle� ik derlemin

birlik sayısı 654,728 ve kelime sayısı 32,301’dir. Türkçe birle� ik

derlemin birlik sayısı 638,486 (BilTD ve OSTAD birlik sayıları

toplamı), kelime sayısı 94,230’dur ve gövde sayısı 21,905’dir.

Çizelge 10.2.6.1: Time, Cranfield, Medlars ve birle� ik derlemlerinin genel özellikleri.

Der lem Bir lik Kelime BelgeTime 249,567 20,856 425

Cranfield 258,509 8,189 1,400

Medalars 161,605 12,609 1,034

Toplam 669,681 41,654 2,859

Bir le� ik 654,728 32,301 *


257

�ngilizce birle� ik derlem için, Zipf ve Mandelbrot ifadeleri ile

uyum sınamaları, Çizelge 10.2.6.1.’de tablo halinde verilmi � tir.

Çizelge 10.2.6.1: � ngilizce birle� ik derlemin, Zipf ve Mandelbrot ifadeleri ile, kelime asasında uyum sınaması.


Aldı � ımız sonuçlar, Kornai (2002) tarafından yapılan çalı � mada

da belirtildi � i gibi, �ngilizce’nin aslen yaygın olarak kabul edildi � i

� ekilde kapalı bir kelime da� arcı � ına sahip olmadı � ı, aksine derlem

büyüklü� ü sonsuza giderken kelime da� arcı � ı boyutunun da, sonsuza

gitti � i ve açık oldu� u iddiası ile paraleldir (bütün e� imler birden

büyük). �ngilizce birle� ik derlem için, Zipf ve Mandelbrot ifadeleri ile

tahmin edilen de� erlerle, gerçekle� en de� erlerin yayılım çizgesi,

sırasıyla, � ekil 10.2.6.1 ve � ekil 10.2.6.2.’de verilmi � tir.


258

�ekil 10.2.6.1: � ngilizce birle� ik derlemin, kelime esasında Zipf ifadesi ile uyum

çizgesi.

�ekil 10.2.6.2: : � ngilizce birle� ik derlemin, kelime esasında Mandelbrot (W=100)

ifadesi ile uyum çizgesi.


259

�ngilizce derlem için yapılan incelemenin sonuçları, Mandelbrot

tarafından yapılan özgün çalı � mada da belirtilen de� erlerle de

uyumludur (W=100 için en iyi uyum). Ancak, Mandelbrot, e� imi 1.15

olarak vermi � tir. Elimizdeki derlemden elde etti � imiz sonuç 1.43’ dür.

Bu de� er verilenden oldukça büyüktür. Fakat Kornai (2003), buldukları

sonuçlarla, bu � ekilde benzer farklılıklar oldu� unu bildirmi � tir. Bu

farklılı � ın çe� itli sebepleri olabilir. Örne� in, elimizdeki ODTÜ

derleminin kelime esasındaki sonuçları, Mandelbrot’un sonuçları ile

çok daha uyumludur. ODTÜ derlemi belge türleri açısından zengin ve

boyut olarak oldukça büyüktür. Birle� ik �ngilizce derlemimiz için, bu

iki özellikten de bahsetmek mümkün de� ildir. Ancak, �ngilizce

derlemle yaptı � ımız çalı � madan çıkardı � ımız bir sonuç daha vardır. �ngilizce derlem, Türkçe’de gövdelerle benzer karakterler

sergilemektedir. Yani, e� er kapalı kelime da� arcı � ı varsa, daha hızlı

gerçek boyutlarına yakınsamaktadır. Kanımızca bu sonuçlar, geneli �ngilizce üzerinden geli � tirilmi � BGG yöntemlerinin, Türkçe’de neden

gövdelerle çalı � ıldı � ında, kelimelerle çalı � ıldı � ından daha iyi sonuçlar

alındı � ının da bir izahı olmaktadır. Kelime da� arcı � ının açık veya

kapalı olmasından ba� ımsız olacak � ekilde, Türkçe için gövdelerle

çalı � manın daima kelimelerle çalı � maktan daha iyi sonuçlar verece� i

ortadadır. Bu durum tabii ki, Türkçe için, Türkçe’nin özelliklerine has

yöntemler geli � tirilmeden, sadece �ngilizce üzerinde yapılan

çalı � maların, do � rudan kullanımı için geçerlidir. Di � er hallerde, bu

� ekilde bir iddiamız yoktur.


260

10.4. Türkçe için Kelime Da� arcı � ı (KD) � ncelemesi

10.4.1. Kelime Da� arcı � ı Boyutlar ı– Zipf Bir inci Kanun

Derlem boyutu ile kelime da� arcı � ının boyutu arasındaki ili � kiyi

Kornai (2002), Denklem 10.3.1.1.’de oldu� u � ekilde üstel bir il i � ki olarak vermi � tir. Denklemde, 10 ≤≤ ρ parametresi, derlem boyutu ile

kelime da� arcı � ı boyutu arasındaki üstel ili � kinin katsayısıdır. Bu katsayı � ngilizce için, deneysel olarak Kornai tarafından 75.0≈ρ

olarak saptanmı � tır. Katsayının hesaplanması için Denklem 10.3.1.2.’de

verilen ifadedeki, B parametresi, Zipf birinci kanun ifadesindeki

e� imdir (B). Denklem 10.3.1.1. ve 10.3.1.2.’de verilen ili � kiler gere� i,

e� er, kelime da� arcı � ının boyutu ile derlem boyutu (N) arasında bulunan üstel il i � ki katsayısı 10 >⇔> Bρ olursa, derlem boyutu

sonsuza giderken, kelime da� arcı � ı boyutu da sonsuza gidecektir ∞→

∞→)(lim NV

N.

ρNNV ≥)( (10.3.1.1)

B

1=ρ

(10.3.1.2)

Özetle, Denklem 10.3.1.1.de verilen ili � kinin anlamı � udur: Zipf

ifadesinin uyum e� imi birden büyük olmak � artı ile, e� er bir dil için

kelime da� arcı � ı ile örneklem boyutu arasında, söz konusu ili � ki varsa,

o dil için “kapalı kelime da� arcı � ı vardır.” denemez. Yaptı � ımız

deneysel çalı � mada, yani Türkçe’nin Zipf ifadesi ile uyum

sınamalarında, elde edilen e� imlerin birden büyük olması (B > 1),

Türkçe için kapalı kelime da� arcı � ı hipotezinin reddedilmesine delil

olmaktadır.


261

Kelime esasında, Türkçe birle� ik derlem için Çizelge 10.3.1.1.’de

ve � ngilizce birle� ik derlem için Çizelge 10.3.1.2.’de, Zipf kanunları

çerçevesinde incelenmi � tüm modeller üzerinden Denklem 10.3.1.1.

kullanılarak hesaplanmı � kelime da� arcı � ı boyut katsayıları

listelenmi � tir. Çizelge 10.3.1.3.’de de, gövde esasında kelime da� arcı � ı

boyut katsayıları verilmi � tir.

Çizelge 10.3.1.1: Türkçe birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı� ı büyüme katsayıları.

Model Rsq b0 b1 (-1)/b1Zipf 0.995 6.2635 -1.1915 0.8393W=10 0.996 6.2777 -1.1944 0.8372W=100 0.997 6.3493 -1.2085 0.8275W=1,000 0.998 6.7091 -1.2786 0.7821W=10,000 0.975 8.4196 -1.6030 0.6238W=100,000 0.892 18.6018 -3.4286 0.2917

Çizelge 10.3.1.2: � ngilizce birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı� ı büyüme katsayıları.

Model Rsq b0 b1 (-1)/b1Zipf 0.985 5.9951 -1.3499 0.7408W=10 0.988 6.0577 -1.3648 0.7327W=100 0.994 6.3413 -1.4316 0.6985W=1,000 0.992 7.6853 -1.7388 0.5751W=10,000 0.935 15.1910 -3.3507 0.2984


262

Çizelge 10.3.1.3: Türkçe birle� ik derlemin gövde esasında incelenen her modeli için, kelime da� arcı� ı büyüme katsayıları.

Model Rsq b0 b1 (-1)/b1Zipf 0.974 6.8964 -1.6127 0.6201W=10 0.980 7.0017 -1.6390 0.6101W=100 0.992 7.4554 -1.7505 0.5713W=1,000 0.995 9.5706 -2.2515 0.4441W=10,000 0.934 22.1407 -5.0134 0.1995

Çizelgelerde hesaplanmı � olan katsayıların, her derlem türü için

kuramsal olarak, o derlem için seçilecek olanı, söz konusu Zipf veya

Mandelbrot ifadelerinin en uygun oldu� u haldeki de� ere denk gelendir.

Türkçe için genel bir katsayı vermeden önce, her üç derlem için

hesaplanmı � tüm katsayılar için kar � ılık gelen derlem boyutları

üzerinden, kelime da� arcı � ı tahminlerini ve gerçek de� erlerini

kar � ıla� tırmalı olarak incelemekte fayda vardır. Çizelge 10.3.1.4.,

11.3.1.5. ve 11.3.1.6.’da söz konusu tahmin edilen ve gerçek de� erler

liste halinde verilmi � tir.

Çizelge 10.3.1.4: Kelime esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı� ı boyut (KDB) tahminleri. “1M” ve “10M” derlemleri, Hakkani-Tür (2002) çalı � masında verilen bir ve on milyonluk derlemlerin kelime da� arcı� ı sayılarıdır. Son sütundaki “µ” de� erleri ise Mandelbrot W=100 ve 1000 katsayılarının ortalaması üzerinden tahminleri göstermektedir.

Adı Boyut KDB 10 100 1000 10000 µOSTAD 51,209 17,487 8,963 8,767 7,886 4,822 867 6,166BilTD 587,277 94,230 69,449 67,594 59,369 32,497 3,970 43,924ODTÜ 1,924,653 200,048 188,070 182,606 158,535 82,229 8,325 114,176BirTD 2,511,930 234,843 235,173 228,216 197,618 101,270 9,829 141,467

1M 1,000,000 106,547 108,560 105,546 92,222 49,276 5,533 67,41110M 10,000,000 417,775 749,804 725,576 619,876 298,358 23,271 430,052

Der lem (Kelime) MandelbrotZipf

Tahmin edilen Kelime da� arcı � ı boyutu


263

Çizelge 10.3.1.5: Kelime esasında � ngilizce birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı� ı boyut tahminleri.

Adı Boyut KDB 10 100 1000 10000Time 249,567 20,856 9,959 9,007 5,889 1,270 41

Cranfield 258,509 8,189 10,222 9,242 6,036 1,296 41Medalrs 161,605 12,609 7,218 6,551 4,347 990 36BirTD 654,728 32,301 20,348 18,259 11,551 2,212 54

Der lem (Gövde) ZipfMandelbrot

Tahmin edilen Kelime da� arcı � ı boyutu

Çizelge 10.3.1.6: Gövde esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı� ı boyut tahminleri.

Adı Boyut KDB 10 100 1000 10000OSTAD 51,209 5,201 832 747 490 123 9BilTD 587,277 20,268 3,777 3,309 1,975 365 14ODTÜ 1,924,653 * 7,885 6,827 3,891 618 18BirTD 638,486 21,095 3,978 3,482 2,071 379 14

Der lem (Gövde) Zipf

Tahmin edilen Kelime da� arcı � ı boyutuMandelbrot

Katsayılar üzerinden � ngilizce için kelime ve Türkçe için gövde

esasında yapılan kelime da� arcı � ı boyutu (KDB) tahminleri, görüldü� ü

gibi gerçek de� erlere yakın de� ildir. Ancak, de� erler halen, Denklem

10.3.1.1. ile önerilen üstel artı � iddiasının, aksi delilleri de de� ildir.

Fakat, bu derlemler için, ancak zayıf alt sınırlar olarak kullanılabilecek

özelliktedirler.

Çizelge 10.3.1.4.’de, kelime esasındaki Türkçe birle� ik derlem

için, özellikle Zipf ve Mandelbrot (W=10) ifadeleri için hesaplanan

tahminler, derlem boyutu 106 seviyesinin çevresi sınır olacak � ekilde

çok yakın tahminlerdir. Fakat 107 seviyesi için Hakkani-Tür (2002)


264

tarafından bildirilen gerçek kelime da� arcı � ı boyutlarından çok

yukarıda kalmaktadırlar.

Mandelbrot ifadesinin W=1000 parametre de� eri, yani Türkçe

birle� ik derlem için ey uygun model, çizelgeden de görüldü� ü gibi, 107

seviyesi de dahil olmak üzere yakın alt sınır olma özelli � i

göstermektedir. Çizelge 10.3.1.4.’de son sütunda “µ” ba� lı � ı altında

verilen tahminler, Mandelbrot ifadesini W=100 ve W=1000 parametre

de� erleri için bireysel olarak hesaplanan büyüme katsayılarının ortalaması ( 8048.02/)( 1000100 =+= ρρµ ) üzerinden kelime da� arcı � ı

boyut tahminleridir. Bu tahminler çizelgedeki 107 seviyesi

tahminlerinin tamamından daha iyidir.

Özetle, deneysel çalı � malarımız, Türkçe için kelime da� arcı � ının

büyüklü� ü ile derlem büyüklü� ü arasında, kelimeler için, üstel bir

ili � ki, yani güç ili � kisi oldu� una dair deliller sunmaktadır. Türkçe

kelime da� arcıkları, derlem büyüklü� ü arttıkça, Denklem 10.3.1.1.

ifadesi alt sınır olacak � ekilde, derlem büyüklü� ü ile do� ru orantılı,

ancak üstel bir artı � göstermi � tir. Dolayısı ile, elimizdeki deneysel

deliller ı � ı � ı altında � unu söyleyebiliriz ki: Türkçe çalı � malarda, ancak

derlem büyüklü� ü sınırlandırılıp, sabitlendi � inde, yani istatistiksel

çalı � manın kitlesi, söz konusu derlem olunca, kapalı kelime da� arcı � ına

dayalı kuramlar geçerli olabilir.

Türkçe için kelime da� arcı � ının derlem boyutu ile, üstel bir ili � ki içinde büyüme alt sınır katsayısı olarak: kelime esasında 0.7821≈ρ ve

gövde esasında 0.4441≈gρ önerilmektedir. Ayrıca, Zipf birinci

kanunu için yaptı � ımız çalı � maların ı � ı � ı altında, sezgisel olarak

belirledi � imiz bir nokta daha vardır: verdi � imiz gibi genel bir

parametre de� eri belirlemek elbette mümkündür, ancak belge türleri


265

esasında kısıtlı, ancak daha belirleyici katsayılar bulunması ve genel bir

katsayının belge türlerinin derlem içindeki da� ılımı ile ili � kilendirilmi �

olarak tahmin edilmesi daha tutarlı ve anlamlı olacaktır.

10.4.2. Kelime Biçimler i – Zipf � kinci Kanun

Bu bölümde kelime da� arcı � ı içindeki, kelimelerin yazıda

görülme � ekilleri ile ilgili özellikleri için matematiksel il i � kiler

tanımlanacak ve ifadelerin parametreleri deneysel olarak tespit

edilecektir. Bu konu, kuramsal olarak Zipf ikinci kanunu (Bölüm 7.2.1)

ile alakalıdır. BGG sahasındaki yansıması ise, i � lev ve içerik

kelimelerin ayrı � tırılması konusuna dayandı � ı için, tez kapsamımız

açısından da oldukça önemlidir.

�ncelememiz öncelikle, çok dü� ük frekanslı kelime biçimleri ile

ba� layacaktır. �lintil i olarak, kelime da� arcı � ının zenginli � i konusu da,

dü� ük frekanslı kelimeler sayesinde tanımlanacaktır. �kinci olarak,

kelimelerin belirli bir metinin içeri � ini temsili açısından içerik ve i � lev

kelimeler olarak birbirinden ayrı � tırılması konusu tanıtılacaktır.

10.4.2.1 Dü� ük frekanslı kelimeler

Kelime da� arcı � ının, derlem boyutunu ile birlikte büyüyece� i

sonucuna, sebep olarak gösterilebilecek dil özelliklerinden biri

biçimbirimsel üretkenliktir (productive morphology). Analitik bir dil

olarak �ngilizce için dahi geçerli olan böyle bir sebep (Kornai, 2002),

Türkçe gibi eklemeli ve biçimbirimsel üretkenli � i çok geli � kin bir dil

için daha da önemli bir etmen olacaktır. Kelime esasında yaptı � ımız


266

incelemeler de bu duruma i � aret etmi � tir. Fakat, Türkçe için kelimelerin

yazıda kullanıldıkları biçimleri açısından, tek bir kelime için milyon

seviyelerinde farklı kelime � ekli üretme kapasitesinde olu� u, zaten tek

ba� ına yeterli bir delildir (Hankamer, 1984).

Biçimbirimsel üretkenlik, aslen kelime biçimlerinden sadece bir

kere gözlenen (hapax legomena), sadece iki kere gözlenen (dis

legomena) gibi çok dü� ük frekanslı kelimelerin kelime da� arcı � ındaki

sayısını arttırır. Ancak, bu kelime biçimlerinin, kelime da� arcı � ı

içindeki toplam sayısının “daima” %40’den fazla olması, biçimbirimsel

üretkenli � i gerçekten büyük bir mesele haline getirir. Üç, dört, be� kere

veya daha çok gözlenen kelime biçimleri elbette vardır, ancak özellikle

hapaks kelime biçimleri tabii olarak açık kelime da� arcı � ı konusu

açısından, di � erlerinden çok daha önemlidir. Çünkü, bunlar daha önce

görülmemi � kelime biçimleridir ve sayıları ile derlem boyutu arasındaki

ili � ki nispetinde, kelime da� arcı � ı boyutlarını do� rudan etkilerler.

Hatta, “kelime da� arcı � ı boyutunun artı � ında baskın sebep, hapaks

kelimelerdir” demek daha iyi bir tanım olur.

Hapaks kelimelerin, kelime da� arcı � ının boyutları üzerinde bu

denli baskın bir etmen olması kar � ısında dilbilimciler tarafından

geli � tirilen açıklama, yazı içinde geçen harf dı � ı birliklerin varlı � ıdır,

daha do� rusu rakamlardır. Bu noktada, Türkçe için yaptı � ımız

yukarıdaki çalı � maların tamamının rakamlardan arınmı � çalı � malar

oldu� unu, bir kez daha belirtelim. Hapax kelimelerin sebeplerinden

birisi elbette rakamlardır, ancak ba� ka önemli sebepler de vardır.

Hapaks kelimelerin olu� masının ba� lıca sebepleri içinde, biçimbirimsel

üretkenlik ve rakamlar dı � ında yanlı � yazım, yazımda kullanılan

yabancı kelimeler, özel isimler gibi daha belirli sebepler de vardır. �ngilizce için verilen sonuçlarda rakamlar çıkarıldı � ında gözlemlenen


267

hapaks kelime oranları yine %50’nin üzerindedir: %56 sadece harf

birlikleri, rakamlarla birlikte %69,8 (Kornai, 2002). Görüldü� ü gibi,

hapakslar, yani bir kelime da� arcı � ında sadece bir kere gözlemlenen

kelimeler, bir derleme ait kelime da� arcı � ı büyüklü� ünün yakla� ık

olarak yarısından fazlasını olu� turmaktadır.

Kelime esasında birle� ik Türkçe derlem için, kelime

da� arcı � ındaki farklı kelime biçimleri ve sayıca kelime da� arcı � ı

içindeki da� ılımı Çizelge 10.3.2.1.1.’de çe� itli istatistikler ile birlikte

verilmi � tir.

Çizelge 10.3.2.1.1: Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri (Skewness* , Türkçe çarpıklık anlamına gelmektedir).

i V(i,N) % Top(%) i V(i,N) % Top(%)1 116,939 49.8 49.8 15 1,178 0.5 91.52 35,960 15.3 65.1 20 707 0.3 93.33 17,602 7.5 72.6 30 327 0.1 95.34 10,983 4.7 77.3 35 290 0.1 95.95 7,515 3.2 80.5 50 137 0.1 97.1 % i % i6 5,522 2.4 82.8 75 68 0.0 98.1 10 1 60 27 4,201 1.8 84.6 100 42 0.0 98.6 20 1 70 38 3,402 1.4 86.1 150 30 0.0 99.1 30 1 80 59 2,693 1.1 87.2 500 2 0.0 99.8 40 1 90 1310 2,314 1.0 88.2 1,004 1 0.0 99.9 50 2

188.32

23484311.452.00

218.50

NOrtalama(i)Medyan(i)

Std. Sapma(i)Skewness*

Çizelgede görüldü� ü gibi, Türkçe’de de hapaks kelimelerin (i=1)

durumu farklı de� ildir. Hapaks kelimelerin, yani bir kere gözlemlenen

kelime biçimlerinin sayısı, kelime da� arcı � ının %49,8’ ini; iki kere

gözlemlenen kelime biçimlerinin sayısı ile birlikte %65’ ini

olu� turmaktadır. Sadece 100 kere gözüken kelimelere gelindi � inde ise

toplam 234.843 kelimelik, kelime da� arcı � ının yakla� ık %98’ ini


268

kapsanmaktadır. Demek ki, beklendi � i gibi hapaks kelime meselesi

Türkçe için de gayet önemli bir konudur.

Zipf kanunlarının birincisi ile ikincisi arasında, aslen güçlü bir

ili � ki vardır. Bu ili � ki, Denklem 10.3.2.1.1.’de verildi � i gibidir, yani,

e� er bir da� ılım, Zipf birinci kanununa uyuyorsa, Zipf ikici kanununa

da e� imi Denklem 10.3.2.1.1. ile hesaplanan de� erle uyar (kuramsal

ispat için, Kornai (2002)).

)1/( NNN BBD += (10.3.2.1.1)

Denklemede, DN, ikinci kanun ifadesindeki e� im, BN ise birinci

kanun ifadesindeki e� imdir. Türkçe için deneysel olarak, Zipf birinci

kanun ifadesinin en uygun halinde, yani Mandelbrot ifadesinin

W=1000 parametre de� eri için, elde etti � imiz e� im 2786.11 −==− bBN ile, Denklem 10.3.2.1.1.’den hesaplayaca� ımız

de� er, Zipf ikinci kanun ifadesinin e� imini vermelidir. Yani Zipf ikinci

kanun ifadesi için, tahmin edilen deneysel e� im de� eri 5611.0)2786.11/()2786.1( =+=ND ’dir. BirTD derlemi için, Zipf

ikinci kanun ifadesi uyum sınaması sonucu Çizelge 10.3.2.1.2.’de

verilmi � tir. Kar � ıla� tırma amacıyla, � ekil 10.3.2.1.1.’de, tahmin edilen

ve gözlenen de� erler yayılım çizgesi � eklinde de gösterilmi � tir.

Çizelge 10.3.2.1.2: Kelime esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonucu.

Model Rsq N F Sigf b0 b1Zipf 0.998 926 5.164E+05 0.000 2.8455 -0.5516

Çizelgede görüldü� ü gibi, Türkçe birle� ik derlem için, Zipf ikinci

kanun ifadesinin uyumundaki e� im, tahmin edilen e� ime çok yakın bir


269

de� er çıkmı � tır. Bu sonuç da, Zipf birinci kanunu ile ikinci kanunu

arasında iddia edilen güçlü ba� lantının, deneysel olarak Türkçe için

geçerli oldu� unu göstermektedir.

�ekil 10.3.2.1.1.’de görüldü� ü gibi, Türkçe kelime da� arcı � ını

olu� turan kelime biçimlerinin, kelime da� arcı � ı içindeki sayıları, Zipf

ikinci kanununa uymaktadır. Zipf, özgün çalı � masında e� imi, 0.5

olarak vermi � tir. Türkçe için bu de� er, deneysel olarak elimizdeki

birle� ik derlemlerle de uyu� maktadır.

�ekil 10.3.2.1.1: Kelime esasında Türkçe birle� ik derlem için, Zipf ikinci kanun

ifadesinin tahmin etti � i kelime biçimi adedi ile gözlemlenen kelime biçimi adedinin yayılım çizgesi.

Zipf ikinci kanunu açısından, gövdelerin durumu beklendi � i gibi

kelimelerden biraz daha farklıdır. Çizelge 10.3.2.1.3.’de, BilTD ve


270

OSTAD derlemlerinin harmanı ile olu� turulmu� , gövde esasında

birle� ik derlem için kelime da� arcı � ının istatistikleri verilmi � tir.

Çizelge 10.3.2.1.3: Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri (Skewness, Türkçe çarpıklık anlamına gelmektedir).

i V(i,N) % Top(%) i V(i,N) % Top(%)1 7,693 36.5 36.5 15 145 0.7 80.52 2,959 14.0 50.5 45 37 0.2 89.93 1,504 7.1 57.6 75 11 0.1 92.74 1,017 4.8 62.4 100 10 0.0 94.05 751 3.6 66.0 150 2 0.0 95.6 % i % i6 659 3.1 69.1 300 2 0.0 97.7 10 1 60 47 462 2.2 71.3 464 2 0.0 98.6 20 1 70 78 387 1.8 73.2 608 2 0.0 99.0 30 1 80 159 311 1.5 74.6 2,167 1 0.0 99.9 40 2 90 4610 255 1.2 75.8 3,900 1 0.0 99.9 50 2

274.5235.97

2109536.192.00

Std. Sapma(i)Skewness

NOrtalama(i)M edyan(i)

Çizelgede görüldü� ü gibi, Türkçe’de gövdeler esasında hapaks

� ekillerin (i=1) durumu oransal olarak kelimelerden iyidir. Hapaks

gövdelerin, yani bir kere gözlemlenen gövde türlerinin sayısı, kelime

da� arcı � ının %36,5’ ini (kelimelerde %49,8), iki kere gözlemlenen

kelime biçimlerinin sayısı ile birlikte %50’sini (kelimelerde %65,1)

olu� turmaktadır. Dolayısı ile gövdeler, medyan etrafında daha iyi bir

da� ılım göstermi � tir. “Skewness” de� eri, yani Türkçe olarak çarpıklık

de� eri olan 35,97 bu da� ılımın normal da� ılımdan ne kadar saptı � ının

bir ölçüsüdür. De� erin sıfır oldu� u zaman da� ılım normal demektir.

Kelimeler için “Skewness” de� eri de 188.32’dir. � ekil 10.3.2.1.2.’de

kelimeler (a) ve gövdeler (b) için verilen çizgelerde, da� ılımların

birbirlerinden farklılı � ını görsel olarak da seçilebilmektedir.


271

(a)

(b)

�ekil 10.3.2.1.2: Kelimeler (a) ve gövdeler (b) için kelime da� arcıkları. X-ekseni

derlem içinde gözlenme sıklı� ı, y-ekseni söz konusu gözlenme sıklı � ının kaç kere gözlendi � i, yani frekansların frekansları. Ortalama üzerinde referans normal da� ılım da gösterilmektedir.

Da� ılım açısından da incelemeler sonucunda, gövdeler için

istatistiksel çıkarımlar açısından kelimelere nazaran daha uygun bir

karakteristik elde edildi � i söylenebilir.

Gövdelerin, Zipf ikinci kanun için Denklem 10.3.2.1.1.’de verilen

ifade ile hesaplanan tahmini e� imi: 6924.0)2.25151/()2.2515( =+=ND ’dir. Zipf ikinci kanun ifadesi için

derlemden hesaplanan de� erse, Çizelge 10.3.2.1.4.’de verilmi � tir.


272

Çizelge 10.3.2.1.4: Gövde esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonuçları.

Model Rsq N F Sigf b0 b1Zipf 1.000 644 1.422E+06 0.000 2.6951 -0.6994

�ekil 10.3.2.1.3.’de de, gövde esasında Zipf ikinci kanununun

birle� ik derleme uyumunun, yayılım çizgesi verilmi � tir.

�ekil 10.3.2.1.3: Gövde esasındaki Türkçe birle� ik derlem için, Zipf ikinci kanun

ifadesinin tahmin etti � i kelime biçimi sayıları ile gözlemlenen kelime biçimi sayılarının yayılım çizgesi.

Gövdeler için Zipf ikinci kanun ifadesinin hesaplanan e� im

de� eri 0.6994’dür. Denklem 10.3.2.1.1. ile hesaplanan tahmini ise

0.6924’dür. Görüldü� ü gibi hata kelimelerden çok daha azdır. Ancak

burada, Mandelbrot denklemi için yaptı � ımız çalı � maların belirli

sabitlerle oldu� unun altını çizmek istiyoruz. Mandelbrot ifadesinde W

parametresinin en iyi de� erini tespit etmeye dönük bir çalı � ma ile elde


273

edilecek birinci ilke e� imi, muhakkak Zipf ikinci kanun e� iminin,

Denklem 10.3.2.1.1. ile yapılan tahmindeki hatayı dü� ürecektir. Elde

etti � imiz deneysel sonuçlar, Zipf birinci kanunu ile ikinci kanunu

arasında bir ba� ımsızlı � ın oldu� u hipotezini reddetmeye yetecek

delilleri sunmaktadır.

10.4.2.2 Farklı kelime biçimlerinin gözlenme sıklıkları

Kelime da� arcı � ı içindeki kelimelerin derlemde gözlenme

sıklıklarının frekansları, örne� in hapaks kelimelerin, yani derlemde

yalnızca bir kez gözlemlenen kelimelerin frekanslarının tahmin

edilmesi için Zipf ikinci kanunu Denklem 10.3.2.2.1.’de verildi � i

� ekilde hesaplamaya çok daha yatkın bir hale getirilebilir. Bu denklem

elbette, derlem büyüklü� ünün sonsuza gitti � i durumdaki asimptotik

durum için geçerlidir.

1/)(),( += ρiNmVNiV (10.3.2.2.1)

Denklemde m bir sabit sayıdır. E� er 11 /)(),( +∞

= =� ρiNVNiVi

e� itli � i sa� lanmak isteniyorsa, B > 1 için da� ılımı tutarlı hale getirecek,

B=1 durumundan hesaplanan 2/6 π=m , üstten sınır katsayısı olarak kullanılabilir (Aslen bu çarpım sabiti, ζ simgesi Reimann fonksiyonu

olmak üzere, )1(/1 += ρζm � eklinde hesaplanmaktadır.) Denklemde

verilen ifade, Zipf ikinci kanun ifadesindeki KN sabit teriminin

normalizasyonu ile elde edilmi � tir. Bu normal de� er )1/())(log( += ρNVKN olarak alınarak, Denklem 10.3.2.2.2.’de

verilen ifade elde edilir.

)1/()),(log()1/())(log()log( +−+= ρρ NiVNVi (10.3.2.2.2)


274

Zipf birinci kanun incelemesi sonucunda elde etti � imiz, kelime da� arcı � ı büyüme katsayısı, 0.7821≈ρ ve m sabiti için

0.607927/6 2 =π de� eri Denklem 10.3.2.2.1.’de yerine konursa,

Türkçe kelime da� arcıklarındaki kelimelerin, derlem içinde gözükme

sıklıklarının frekanslarının tahmini Denklem 10.3.2.2.3.’de verilen

ifade ile hesaplanabilir.

7821.12

/)(6

),( iNVNiVπ

= (10.3.2.2.3)

Denklem kullanılarak tahmin edilen ve birle� ik derlemin kelime

da� arcı � ında olan kelimelerin gerçek gözlenme sıklıklarının frekansları

kar � ıla� tırma amacı ile Çizelge 10.3.2.2.1.’de verilmi � tir.

Çizelge 10.3.2.2.1: Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.

i V(i,N) Tahmin i V(i,N) Tahmin1 116,939 142,767 15 1,178 1,1452 35,960 41,511 20 707 6863 17,602 20,154 30 327 3334 10,983 12,070 35 290 2535 7,515 8,110 50 137 1346 5,522 5,860 75 68 657 4,201 4,452 100 42 398 3,402 3,509 150 30 199 2,693 2,845 500 2 210 2,314 2,358 1,004 1 1

Kelimeler esasında yaptı � ımız bu çalı � mayı, gövdeler esasında da

tekrarlayacak olursak, gövdeler için Zipf birinci denkleminden elde etti � imiz kelime da� arcı � ı büyüme katsayısı, 0.4441≈gρ ve yine m

sabiti için 0.607927/6 2 =π de� eri alınırsa, Türkçe kelime


275

da� arcıklarındaki gövdelerin, derlem içinde gözükme sıklıklarının

frekanslarının tahmini de Denklem 10.3.2.2.4. kullanılarak

hesaplanabilir.

4441.12

/)(6

),( iNVNiV G π= (10.3.2.2.4)

Denklem kullanılarak hesaplanan ve gövde esasında birle� ik

derlemin kelime da� arcı � ında olan kelimelerin, gerçek gözlenme

sıklıklarının frekansları da Çizelge 10.3.2.2.2.’de verilmi � tir.

Çizelge 10.3.2.2.2: Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.

i V(i,N) Tahmin i V(i,N) Tahmin1 7,693 12,824 15 145 2572 2,959 4,713 45 37 533 1,504 2,624 75 11 254 1,017 1,732 100 10 175 751 1,255 150 2 96 659 965 300 2 37 462 772 464 2 28 387 637 608 2 19 311 537 2,167 1 010 255 461 3,900 1 0

Özetle, Denklem 10.3.2.2.1. ile iddia edilen � udur: Zipf birinci

kanununu, en azından orta ve dü� ük frekans bandında sa� layan

derlemler, Zipf ikinci kanununu da en azından dü � ük frekans bandında

sa� larlar. Kelimeler için � ekil 10.3.2.1.1. ve gövdeler için � ekil

10.3.2.1.3.’de verilen yayılım çizgelerinde de görüldü� ü gibi, Zipf

ikinci kanunun uyumu, istatistiksel anlamlılık açısından mükemmele

yakındır. Dolayısı ile kelime da� arcı � ı için, derlem içinde yüksek


276

frekansa sahip kelimelerin, orta ve dü� ük frekans bandındakilerden

izole edilerek de� erlendirilmesi gibi bir ayrıma gidilmesine gerek

yoktur.

10.4.2.3 Hapaks kelimeler ve da� arcık zenginli � i

Zipf ikinci kanunu için Denklem 10.3.2.2.1.’de verilen ifadede

i=1 (hapaks) için, mV(N) kadar, yani tüm kelime da� arcı � ının %60’ ı

kadar ( 0.607927/6 2 =π ) bir miktar tahmin edilmektedir. � ki kere

gözlenen kelimeler de hesaba katılırsa, toplam kelime da� arcı � ının

yakla� ık dörtte üçü kapsanmaktadır. Bu deneysel buluntular, nicel

dilbilim sahasında da yo� un � ekilde desteklenmektedir. Örne� in,

Herdan’ ın (1960) özgün çalı � masında, Zipf ikinci kanununa alternatif

olarak geli � tirdi � i, Waring da� ılımı için sadece 6.0)(/),1(4.0 ≤≤ NVNV aralı � ında de� erleri tablo halinde vermesi

bunun bir delil idir. Çünkü, “dilin uygulamalı çalı � malarında,

kar � ıla� ılması muhtemel kelimeler” bu aralık içinde kalmaktadır.

Baayen (2001), 0)(/),1(lim >∞→

NVNVN

olması durumunda,

V(1,N) de� erinin, az rastlanan olayların çok gözükmesi (large number

of rare events - LNRE) ilkesine ba� lı olarak sonsuza gidece� ini

tanımlamı � tır. Ayrıca, Baayen aynı çalı � masında, kelimelerin gözlenme

sıklıklarının da� ılımı ile ilgili olarak, çok büyük derlemlerle çalı � ılsa

dahi LNRE bandında kalındı � ını belirtmi � tir.


277

10.4.3. �� lev ve � çer ik Kelimeler ( � ndeks Ter imler )

Dilbilim sahasındaki çalı � maların kelime frekansları ile ilgili

olanlarının, yani istatistiklere dayalı çalı � maların temelinde, belirtilsin

veya belirtilmesin Bernoulli deneysel kurgusu vardır. Bu kurgu

gere� ince kelimelerle ilgili, tabii ba� lantılı olarak kelime da� arcı � ı ve

kitle ile ilgili bir takım kabullenmeler yapılması gereklili � i do � ar.

Kelimelerle, daha do� rusu bir derlemde gözlemlenecek birliklerle ilgili

yapılan kabullenmeler � unlardır: tüm birlikler, oranları belirli bir

� ekilde, tek bir torbada durmaktadırlar; birlikler bu torbadan çekilir

(yani yazımda gözlenir) ve tekrar torbaya atılır; herhangi bir birli � in

torbadan çekilmesi (yazıda gözlemlenmesi) olasılı � ı bir di � er birli � in

çekilmesi olasılı � ından ba� ımsızdır. Elbette bu kurgu gerçek yazılı

belgelerin do � asını temsil etmez, ancak istatistiksel yöntemlerin dil

üzerinde uygulanabilmesini mümkün kılar. Bir kere böyle bir kurgu

kabullenilince, temel ilkelerden ayrılmadan kurgu üzerinde

de� i � ikliklere gitmek elbette mümkündür. Örne� in Mandelbrot (1961),

bu kurguda tek bir büyük torba U yerine, iki ayrı torba, yani i � lev

(görev) kelimeler için UG ve içerik kelimeler için UI kullanılmasını

önermi � tir. Bunun sebebi olarak da, i � lev kelimelerin yazım kuralları

tarafından yönlendirilen ve yazarın inisiyatifinde olmayan kelimeler

oldu� unu, onun için yazarın aktarmak istedi � i içeri � i olu� turmada

kullanaca� ı kelimelerle, ilgisinin bulunmadı � ını söylemi � tir. Bu

çalı � mada, biz de söz konusu söyleme katılıyor ve tek bir büyük torba

yerine iki ayrı torba oldu� u varsayımını kabulleniyoruz.

� � lev kelimeler, yazım kuralları tarafından yönetilmektedir. Bu

yüzden yazım içerisinde, içerikten ba� ımsız olarak gözlemlenirler. �çerik kelimelerse, bir metin içinde ancak metinin konusu ile alakalı


278

kelimeler olabilir, dolayısı ile her metinde i � lev kelimeler

gözlemlenebilir, fakat içerik kelimelerin gözlenmesi için metnin

konusunun benzer olması gerekir. Sonuç olarak, bir derlemde i � lev

kelimelerin, içerik kelimelerden daha fazla gözlemlenmesi gerekir. � � te,

i � lev ve içerik kelimeler arasında bu ba� lam üzerinden bir ayrım

yapılabilir. � � lev kelimelerin tespiti için, derlem içinde yüksek frekanslı

birliklerin incelenmesi gerekir. Takip eden bölümde yüksek frekanslı

kelimelerin incelemesi ba� lı � ı altında, Türkçe için, i � lev ile içerik

kelimeler arasında, görülme sıklı � ını esas alan bir sınır belirleme

çalı � ması verilmi � tir.

10.4.3.1 Yüksek frekanslı kelimeler

� statistiksel açıdan bakıldı � ında, bir derlem içindeki metinlerde

birlik olarak nelerin kabul edildi � i, pek o kadar tutarlı bir durum

de� ildir. Örne� in “ ... 1980’ler ...” tek bir birlik midir, yoksa “1980”

rakam, “ ’” noktalama i � areti ve “ ler” ek olmak üzere üç ayrı birlik

midir, veya ikisi birden midir, tamamen derlemin ilk i � leni � sürecine

ba� lıdır, yani simgelemenin (tokenization) nasıl yapıldı � ı ile alakalıdır.

Bir ba� ka örnekte ise “ ... “ hayır” da hayır var. ...” gibi aynı kelime

� eklinin hem içerik, hem de i � lev durumunda oldu� u birlikler de

mevcuttur. Dolayısı ile, gerçekte içerik ile i � lev kelimelerin arasına, en

azından frekans esasında belirgin bir çizgi çekmenin imkanı yoktur.

Her iki torbada da, aynı kelimelerin de� i � ik anlamları için, � ekilleri e� olan temsillerinin bulunması gerekmektedir. Bu mesele, anlamsal

boyutta çözümlenebilecek bir u� ra� tır. Frekanslarla kesin bir sınır

çizilemez. Ancak, bir sınır belirli bir hata oldu� u kabullenmesi ile

konabilir.


279

UG torbasında, yani i � lev kelimelerden k adet oldu� unu var

sayarsak, Zipf birinci kanun tertibindeki sıralamada, birinciden k’ ıncı

sıra numarasına kadar olan kelimeler, k dahil olmak üzere, UG

torbasındadır diyebiliriz. Dolayısı ile r > k sıra numarasına sahip

kelimeler de, UI torbasında olacaktır, yani içerik kelimeleri olacaktır. E� er tüm i � lev kelimelerin toplam olasılık yo � unlu� unun �= =

kr rk pP 1

oldu� unu kabul edersek ve Zipf birinci kanunun da, UG için gerçekten

belirleyici bir ifade oldu� u var sayılırsa, i � lev kelimelerle içerik kelimelerin sınır noktasında, kP olasılı � ının, Zipf birinci kanun

ifadesinin e� im parametresi (B) ile hesaplanacak Bk kP /1≈ de� erine

e� it olması beklenir. Dolayısı ile, Denklem 10.4.3.1.1.’deki ifade,

derlemdeki kelimeler üzerinden yapılacak e� im (B) tahminleri ile i � lev

ve içerik kelimeler arasına bir sınır, k de� eri belirleyebilir.

)log(/)log( kpB k−= (10.4.3.1.1)

Örne� in, birle� ik Türkçe derlem için Zipf birinci kanun ifadesi ile

uyumunun en iyi oldu� u durumda (Mandelbrot, W=1000), elde

etti � imiz e� im, B=1.2786 de� eridir. Bu de� erin üzerinde kalan e� im

tahminlerine ait kelimeleri i � lev kelimeler UG, altında kalan kelimeleri

de içerik kelimeler UI, olarak kabul edebiliriz. Çizelge 10.4.3.1.1.’de

Türkçe birle� ik derlem için Denklem 10.4.3.1.1. ile hesaplanan e� im

tahminleri verilmi � tir.


280

Çizelge 10.4.3.1.1: Kelime esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri (k=1 de� eri, k=1.4 alınmı � tır; log(1)=0).

Kelime k p B Kelime k p Bbir 1 0.024031 11.0809 bizi 343 0.000278 1.4032ve 2 0.018371 5.7664 kendisine 343 0.000278 1.4032bu 3 0.012073 4.0204 mustafa 344 0.000275 1.4036da 4 0.008353 3.4517 henüz 346 0.000275 1.4027de 5 0.008244 2.9814 ahmet 346 0.000275 1.4027için 6 0.005724 2.8816 hangi 347 0.000274 1.4022çok 7 0.003964 2.8421 bilgi 348 0.000273 1.4019o 8 0.003639 2.7007 üstelik 501 0.000205 1.3661

gibi 9 0.003593 2.5618 güçlü 502 0.000204 1.3665ile 10 0.003488 2.4574 sırada 503 0.000203 1.3664

türkiye 38 0.001397 1.8072 � i ir 1,002 0.000115 1.3129istanbul 74 0.000878 1.6353 rahat 1,002 0.000115 1.3129

bunu 100 0.000726 1.5696 etmesi 1,002 0.000115 1.3129beni 101 0.000703 1.5732 alanda 1,002 0.000115 1.3129tüm 102 0.000701 1.5704 alınması 1,005 0.000115 1.3127yani 103 0.000694 1.5692 karısı 1,935 0.000063 1.2784

sadece 104 0.000693 1.5662 tl 1,935 0.000063 1.2784söz 105 0.000659 1.5738 yıldan 1,941 0.000063 1.2787

türkiye'nin 132 0.000594 1.5215 mahmut 1,941 0.000063 1.2787geldi 149 0.000533 1.5063 sanal 1,941 0.000063 1.2787ona 150 0.000530 1.5053 konunun 1,941 0.000063 1.2787veya 151 0.000528 1.5043 alanı 1,941 0.000063 1.2787

olmak 152 0.000524 1.5037 belge 1,941 0.000063 1.2787genç 153 0.000519 1.5034 de� i � ikli � i 1,941 0.000063 1.2787ki � i 154 0.000514 1.5036 bulmak 1,941 0.000063 1.2787gece 156 0.000513 1.5012 aslan 1,951 0.000062 1.2785ali 158 0.000505 1.4995 antalya 1,951 0.000062 1.2785abd 162 0.000494 1.4965 bankalar 1,965 0.000062 1.2781

birkaç 184 0.000449 1.4783 aynen 1,965 0.000062 1.2781açık 185 0.000447 1.4774 cinayet 1,965 0.000062 1.2781

erdo� an 186 0.000433 1.4820 cumhuriyeti 1,980 0.000061 1.2777geri 187 0.000432 1.4812 do� um 1,980 0.000061 1.2777ırak 198 0.000404 1.4774 doları 1,980 0.000061 1.2777

olsun 199 0.000403 1.4767 düzeyinde 2,305 0.000054 1.2701milli 200 0.000401 1.4764 denildi 2,321 0.000053 1.2699


281

Çizelge 10.4.3.1.1.’de tahmin edilen e� im, B de� erleri iki sütun

halinde verilmi � tir. Bu listelemede, örnekleri yukarıda bahsetti � imiz

konuları da kapsayacak � ekilde seçmeye dikkat ettik. Öncelikle,

“Türkiye” , “Ali” , “ABD” , “Erdo� an” , “ Irak” v.b. kelimelerin i � levsel

oldukları veya bir metnin içinde içeri � e katkı sa� layacak anlamsal

öneme sahip olmadıkları söylenemez. Dolayısı ile, bu kelimeler içerik

olması gerekirken, derlemlerin özellikle gazete yazılarından seçilmi �

olması sebebiyle, i � lev kadar frekansları olu� mu� tur. Ancak, bu hatalar

dı � ında liste incelendi � inde aslen iddia edildi � i gibi bir sınır için yer

oldu� u da gözükmektedir. Çizelgede dolgulu alanın içinde (“ karısı” ve

“antalya” kelimeleri arasındaki alan) bu geçi � in ba� langıcı ve biti � i gözükmektedir. Geçi � noktası, ba� langıçtan itibaren süre gelen

e� imdeki sistematik dü� ü� ün, B=1.2786 e� im de� erinin de altına ini � i

ve daha sonra yaptı � ı sıçrama ile tekrar B=1.2786 de� erinin üzerine

çıktı � ı aralık içindedir. Daha sonra dü� ü� sistematik olarak B=1.2786

altına do� ru devam eder. Yapılan e� im tahminlerinin söz konusu

seyrinden de çıkan sonuç, kelimelerin gerçekten tek bir büyük torba ile

temsil edilemeyece� i, dolayısı ile i � lev kelimelerin UG, içerik

kelimelerin UI gibi, iki ayrı torba kurgusu ile ele alınması iddiasının

geçerlili � idir. E� er i � lev kelimeler, bu yöntemle tahmin edilecek olursa,

sıra numarası 1941’de dahil olmak üzere 1 ile 1941 arasındaki tüm

kelimeler i � lev kelimeler olarak ele alınacaktır. Dolayısı ile, Türkçe

birle� ik derlem için i � lev olarak i � aretlenen kelimelerin sayısı 1944

olacaktır. Bu 1944 i � lev kelimenin derlem içindeki toplam frekansı

1.349.004’dür. Geriye kalan 232.899 kelime, içerik olarak

i � aretlenecektir. Söz konusu 232.899 içerik kelimenin ise, derlem

içindeki toplam frekansı 1.162.926’dir. Sonuç olarak, Türkçe

derlemdeki i � lev kelimelerin, toplam frekans içindeki oranı yakla� ık

%53 olacaktır (1.349.004 / 2.511.930). Bu oranlar � ngilizce için

yapılmı � çalı � malarla da örtü� mektedir.


282

�çerik ve i � lev olu� için, Zipf birinci kanununun yardımı ile

kelimeler için yaptı � ımız i � lemleri, gövdeler için de yapmak

mümkündür. Yapılan deneysel çalı � malarda, Zipf birinci kanun

ifadesinin, gövde esasında birle� ik derleme en uygun oldu� u durumdaki

Mandelbrot denkleminin W parametresi yine 1000 idi. Bu parametre

de� eri için e� im B=2,2515 olarak bulunmu� tu. Denklem 10.4.3.1.1. ile,

gövdeler içinde B e� im tahminleri Çizelge 10.4.3.1.2.’de verilmi � tir.

Gövdeler için, i � lev kelimelerin e� imin sıçrama noktası ile tespiti,

kelimelerdeki kadar anlamlı bir sonuç vermemi � tir. Çizelgede

görüldü� ü gibi, B=2,2515 sıçrama noktası çok ba� larda kalmı � tır. Çizelgede ayrıca, Mandelbrot W=1000 parametresinin dı � ında, W=100,

W=10 ve Zipf ifadelerinin de kesme noktaları belirlenmi � tir. Sıra

numarasında devam ettikçe görülmektedir ki, bu noktalardan hiç birisi

anlamlı bir kesim sınırı verememektedirler. Tahminlerin, bir ini � ardından çıkı � yaptı � ı, sıra numarası 1000 etrafındaki de� erler de

çizelgede gösterilmi � tir. Ayrıca, tam bir fikir vermesi açısından, tüm

yapılan tahminler � ekil 10.4.3.1.1.’de yayılım çizgesi olarak da

verilmi � tir.


283

Çizelge 10.4.3.1.2: Gövde esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri.

Kelime k p B Kelime k p Bbir 1 0.020941 11.4900 söz 100 0.001400 1.4269ol 2 0.020421 5.6138 önem 101 0.001383 1.4265ve 3 0.019411 3.5881 özel 102 0.001346 1.4293bu 4 0.016495 2.9609 göster 103 0.001345 1.4265de 5 0.012852 2.7055 hal 104 0.001343 1.4239et 6 0.008959 2.6316 göre 105 0.001335 1.4222

yap 7 0.007948 2.4846 ö� retim 951 0.000193 1.2476da 8 0.007886 2.3288 operasyon 951 0.000193 1.2476

için 9 0.005870 2.3383 nüfus 951 0.000193 1.2476ver 10 0.005586 2.2529 bakım 957 0.000191 1.2474al 11 0.005475 2.1717 ça� ır 957 0.000191 1.2474

türkiye 12 0.005108 2.1236 ça� rı 966 0.000189 1.2477o 13 0.004863 2.0765 acaba 966 0.000189 1.2477

gel 14 0.004334 2.0618 vali 1,004 0.000179 1.2480çık 15 0.004297 2.0124 tanık 1,004 0.000179 1.2480yıl 16 0.004119 1.9808 ço� u 1,004 0.000179 1.2480il 17 0.003966 1.9518 yasadı � ı 2,024 0.000065 1.2655

çok 18 0.003760 1.9317 tekstil 2,024 0.000065 1.2655ara 19 0.003721 1.8998 tofa� 2,024 0.000065 1.2655var 20 0.003477 1.8898 sı � ın 2,024 0.000065 1.2655

kendi 21 0.003307 1.8760 zarf 3,028 0.000034 1.2834daha 22 0.003299 1.8486 Ziya 3,028 0.000034 1.2834gibi 23 0.003213 1.8308 Zülfü 3,028 0.000034 1.2834ne 24 0.003050 1.8226 sevk 3,028 0.000034 1.2834

sonra 25 0.003022 1.8025 yurtsever 5,225 0.000013 1.3133söyle 26 0.003015 1.7814 sperm 5,225 0.000013 1.3133konu 27 0.003010 1.7616 söylemez 5,225 0.000013 1.3133iste 28 0.003006 1.7427 sosyoloji 5,225 0.000013 1.3133ben 29 0.002967 1.7285 sosyolojik 5,225 0.000013 1.3133

gerek 38 0.002510 1.6461 stohos 5,225 0.000013 1.3133son 39 0.002508 1.6345 bediüzzaman 7,547 0.000007 1.3368

kadar 40 0.002506 1.6236 bedensel 7,547 0.000007 1.3368i � 41 0.002432 1.6208 benston 7,547 0.000007 1.3368

devlet 42 0.002390 1.6150 zoralım 11,923 0.000003 1.3693ülke 43 0.002380 1.6061 Mondros 17,249 0.000001 1.3885


284

�ekil 10.4.3.1.1: Gövde esasında Türkçe birle� ik derlem için, Zipf birinci kanun e� im

tahminlerinin yayılım çizgesi.

Gövdeler için yapılan incelemelerde, Zipf kanunları da dahil

olmak üzere, kuramlara uyum açısından bir düzensizlik söz konusudur.

Ancak, bilinen ve deneysel olarak gösterilmi � olan gerçek, Türkçe için

gövdelerle çalı � mak, BGG geri-getirim ba� arımını arttırıcı bir unsurdur

(Solak, 1994; Ekmekçio � lu, 1996; Sever, 2003). Ayrıca, OSTAD

derlemi incelememizde, gövdelerin ana kitlenin benzer karakteristi � ini,

kelimelerden daha çabuk gösterdi � ini belirtmi � tik. Yapılan

incelemelerin ı � ı � ı altında sonuç olarak � unu söyleyebiliriz: Gövdeler

esasında kurgulanacak bir BGG sisteminde, frekansların ifade edece� i

karakteristik, kelime esasındaki e� lenik bir BGG sisteminden

istatistiksel açıdan anlamlı düzeylerde farklı olacaktır. Bu farklılı � ın

pozitif yönde oldu� una da � imdiye kadar yapılmı � çalı � malar delil

olacaktır.


285

11. � NDEKS TER � M SEÇ � M �

Bu tezin amacı, genel anlamı ile dilbilimsel özelliklerin kullanımı

ile BGG sistemlerinde ba� arımın artırılmasıdır. Bu amaç çok çe� itli yollardan gerçeklenebilir. Biz özel olarak BGG sistemlerinde yazılı

belgelerin sayısal temsilinde, yani indeks terimlerin seçiminde

dilbilimsel özellikleri kullanarak temsili güçlendirmeyi, dolayısı ile

BGG ba� arımını arttırma yolunu seçiyoruz. Amaca uygun alt yapının

hazırlı � ını da, Türkçe’nin belirli dilbilimsel özelliklerinin mevcut

da� ılım ve istatistiksel özelliklerini belirleyerek yapaca� ız. Bu

bölümde, sözcük türü (isim, fiil, sıfat v.s.) , kelime gurubu (“ kur � un

kalem” v.s.) ve cümle unsuru (fii l, fail, zarf, yer tamlayıcısı) olmak

üzere Türkçe’nin üç dilbilimsel özelli � ini sırasıyla inceleyece� iz.

Deneysel çalı � malarda, BilTD ve OSTAD derlemleri kullanılmı � tır. ODTÜ derlemi, dilbilimsel özellikler i � aretli olmadı � ı için

incelemelerimizin dı � ında kalmaktadır. Genel istatistikler ba� lı � ı

altında yapılan çalı � malarda kullanıldı � ı � ekline ek olarak, OSTAD

derleminde belge türü “ haber” olan metinlere ait indeks terimler de elle

i � aretlenmi � tir. OSTAD derleminde elle indeks terimleri i � aretlenmi � olan belgelerin istatistikleri Çizelge 11.1.’de verilmi � tir.

Çizelge 11.1: OSTAD derleminde elle i � aretlenmi � belge istatistikleri.

Belge No Parag Say Cümle Say Bir lik Say1 39 86 1,1822 47 110 1,5123 27 78 1,0754 49 114 1,5285 40 114 1,6136 46 104 1,6147 37 86 1,2478 61 94 1,4879 48 97 1,684

Toplam 394 883 12,942


286

Çizelgede de görüldü� ü gibi, elle i � aretlenen belge sayısı, BGG

sistemlerinin ba� arım ölçümlerinde genelde kullanılan boyutların

altında kalmaktadır. Mümkün olan en büyük boyutu yakalamak için

incelemelerde 394 paragraf, belge olarak kabul edilecektir. Derlemi

olu� turan 12,942 birlik, 104 ile 105 arasında kalmaktadır. Dolayısı ile,

hesaplamalı dilbilim çalı � malarında kullanılan genel derlem boyutlarına

uygun oldu� u söylenebilir. Fakat, BGG sistem sınamaları için, çok

uygun oldu� unu söyleyemiyoruz. Aslen, OSTAD derleminin tümü

de� erlendirmeye alınsa dahi, BGG sistem sınamaları için çok uygun

oldu� u söylenemez. Ancak, Türkçe için dilbilgisi özellikleri

i � aretlenmi � tek derlem budur. Toplam 12,942 birlikten sözcük türü

açısından de� erlendirmeye alınan toplam 10 temel sözcük türüne ait

harf birlikleri sayısı 9,575’dir. Söz konusu derlem büyüklü� ünü, 4,955

farklı kelime biçimi olu� turmaktadır, yani kelime esasında kelime

da� arcı � ı boyutu 4,955’dir. Bu 4,955 kelime biçiminden 2,525 tanesi

indeks terim olarak belirlenmi � tir. � ndeks terim olarak i � aretlenenler,

toplam 9,575 olan derlem boyutunun, 3,953 birli � ini olu� turmu � tur.

Gövde esasında kelime da� arcı � ı, 2,165’dir. Bu gövdelerden 1,393

tanesi indeks terim olan birli � in gövdesini te� kil etmektedir.

Gövdeleme ile BGG ba� arımının de� i � imi ara� tırması, tez

kapsamımızın dı � ındadır. Dolayısı ile, elde edilebilen yerlerde istatistik

olarak verilecek, ancak BGG ba� arımı esasında incelemeyecektir.

Türkçe yazılı metinlere ait indeks terimlerin, metnin içeri � ini

temsildeki önemini nicel olarak belirlemede, birliklerin (kelimeler,

sayılar v.b.) gözlenme sıklıkları, temel de� i � im ölçütü olarak

kullanılacaktır. Çalı � ma ile amaçlanan, elle i � aretlenmi � olan indeks

terimlerin, derlem içinde birliklerin gözlenme frekansları ile ne kadar

belirlenebildi � inin tespit edilmesidir, yani indeks terim olan birliklerin

de� i � iminin (veya ta� ınan enformasyonun), birliklerin frekanslarının


287

de� i � imi ile ne kadar izah edilebildi � idir. Bu ba� lamdaki beklenti,

dilbilimsel özelliklerin, frekanslarla ta� ınan enformasyon dı � ında da bir

miktar, daha do� rusu anlamlı düzeylerde enformasyon ta� ıdı � ıdır. E� er

frekanslarla ta� ınan enformasyon, zaten dilbilimsel özelliklerle ortaya

çıkarılacak enformasyonsa, dilbilimsel özelliklerin kullanılmasının bir

anlamı olmayacaktır (BGG sahasında, � u an yaygın olan kanı budur). �statistiksel olarak bu durum, frekanslarla dilbilimsel özelliklerin

ba� ımlı olması veya aralarında bir kar � ılıklı il i � ki (co-variance) olması

ile tanımlanabilir. Ancak bizim beklentimiz, ba� ımsız olmaları veya

kar � ılıklı i li � kilerinin olmamasıdır. Ba� ka bir söyleyi � le, birinin

de� i � iminin di � eri ile açıklanamaması, birinden di � erinin de� i � iminin

tahmin edilememesi gerekir. E� er frekansla dilbilimsel özellikler

ba� ımsızsa, dilbilimsel özelliklerin devreye alınması, metin içindeki

toplam de� i � imin frekans ile temsil edilen kısmı dı � ında kalan

kısımların da de� erlendirme içine katılabilmesine imkan tanıyacaktır.

Fakat, dilbilimsel özellikler ile izah edilen de� i � imin BGG ba� arımı

açısından anlamlı olup olmadı � ı, kullanılıp kullanılmaması gereklili � i

ise bir ba� ka meseledir. Örne� in bir geri-getirim yöntemi içerisinde,

frekans ile dilbilimsel özellikler tamamen di � eri ile simetrik, ters yönde

ve aynı miktarda enformasyonu temsil eder duruma getirilebilirler, e� er

bu yöntem de örne� in vektör uzayı modelini esas alıyorsa, bir vektör

di � er vektörün yarattı � ı tüm de� i � imi dengeleyece� i için, sonuç olarak

çok büyük bir ba� arım dü� ü� üne de sebep olabilir. Dolayısı ile,

ba� ımsız bir enformasyon varlı � ının tespitinin sonrasında, bu

enformasyonun, kullanılan yöntem veya yöntemler açısından da

incelenmesi gerekmektedir. Ancak, bir yöntemin, hatta bilinen tüm

yöntemlerin ba� arımlarında anlamlı bir artı � olmaması, tanımladı � ımız

özelliklere sahip herhangi bir ek de� i � im temsilinin, kökten faydasız

oldu� una delil olarak kabul edilemez. E� er varsa, bu ek de� i � imin


288

faydasını ortaya koyacak bir yöntem bulunması çalı � malarını ba� latmak

için, delil olarak kabul edilebilir.

Çizelge 11.2: BilTD ve OSTAD derlemlerinde yapılmı � olan biçimbirimsel i � aretlemede temel sözcük türü kodları.

Sıra Kod Açıklama1 Noun � simler2 Adj Sıfatlar3 Adv Zarflar/Belirteçler4 Verb Fiil5 Pron Zamirler (ben, sen, o, nereye, hepimiz, kim, v.b.)6 Conj Ba� laçlar (ve, ama, ki, ile, v.b.)7 Det Belirleyenler (bir, her, bu, � u, her, hiçbiri, v.b.)8 Post � lgeçler (diye, gibi, için, do� ru, v.b.)9 Quest Soru eki ile ba� layıp ayrı yazılan sözcükler (mi, mı, mısınız v.b.)10 Interj Ünlemler (oh, off, nah, hadi, aaa, tabi, aferin, haydi, v.b.)11 Num Sayılar12 Dup Tekrar edilerek olu� turulmu� , yansımalı kelimeler.13 Punc Noktalama i � aretleri

1+1 Prop Özel � sim

Çizelge 11.2.’de, deneysel çalı � malarda kullanılacak BilTD ve

OSTAD derlemlerinin biçimbirimsel i � aretlemesinde, temel sözcük

türleri için tanımlanmı � kodlar listelenmi � tir. Bu bölümde yapılan

çalı � maların istatistikleri verilirken de söz konusu kodlar korunmu � tur.

Son satırda verilen “Prop” yani özel isim, aslen bir ana tür olarak

i � aretlenmemi � ancak, de� erlendirme içine alındı � ı için listeye dahil

edilmi � bir yan sözcük türü’dür. � � aretleme esnasında, Noun kodundan,

yani isimden sonra getirilerek ismin bir özel isim oldu� u

belirlenmektedir. Bu i � aretleme kodları Oflazer’ in (1993) Türkçe için

iki seviyeli dilbilimsel tanımlamasında kullandı � ı biçimbirim

i � aretlemesinden alınan kodlardır. Çizelgede 12. sırada verilen Dup

kodu (tekrar), aslen Bölüm 2.’de kelime gurubu kapsamına aldı � ımız

bir dilbilgisi özelli � idir. Tekrarları, kelime guruplarından ayrı tutmak,


289

onları bir bütün olarak, ayrılmaz birlik � eklinde kabul edip (yani tek bir

nevi kelime), kelime türü � eklinde de� erlendirmek de makul bir

yakla� ım olabilir. Ancak, biz sözcük türü de� erlendirmemizde bu kodu

kullanmıyoruz ve çıkartıyoruz. Sıra numarası 11 ve 13 olan, Num ve

Punc, yani sayılar ve noktalama i � aretleri de tabii, de� erlendirmemiz

dı � ındadır. Dolayısı ile bu bölümdeki çalı � malarda, 10 temel kod ve bir

de özel isimleri belirleyebilmek için Prop yan kodu olmak üzere

toplam 11 kod kullanaca� ız. Özel isim de� erlendirmemiz de, ana

sözcük türleri de� erlendirmelerine ek olarak verilecektir.

Bölüm 10.’da Zipf güç kanunları incelenirken, içerik ve i � lev

kelime ayrı � tırması meselesi içerisinde, derlem içinde gözlenme sıklı � ı

yüksek olan birliklere odaklanmı � bir yöntem ile i � lev kelimelerle,

içerik kelimeler arasında bir sınır noktası da belirlemeye çalı � mı � tık.

Bu sınır noktasından yukarıda kalan birlikler i � lev kelimeler, sınırın

altında kalan kelimeler de içerik kelimeler olarak kuram gere� i kabul

edilmi � ti. Ancak, i � lev kelimeler olarak belirlediklerimizin arasında

içerik kelimeler; içerik kelimeler olarak belirlediklerimizin arasında da

i � lev kelimeler oldu� u da belirtilmi � ti. � � te bu durum, derlem üzerinde

görülme sıklı � ına dayalı olan tüm geri-getirim yöntemlerinin

ba� arımlarını etkileyen, daha do� rusu ba� arımlarını dü� üren durumdur.

Geleneksel geri-getirim yöntemlerinin hemen hepsi, görülme sıklı � ına

dayalı kurgulara sahiptir. Dolayısı ile mesele de geneldir. Derlemde

görülme sıklıklarını esas alan bir yöntemin kör noktası diyebilece� imiz

yer ise, dü� ük frekanslı kelimelerdir. Dü� ük frekanslı kelimelerin

kelime da� arcı � ının boyutları açısından önemi, yine Zipf güç kanunları

incelemesinde de� erlendirilmi � ti. Zipf kanunları incelenirken, kelime

da� arcı � ının derlem boyutu ile birlikte üstel ve do � ru orantıyla

büyüyece� i iddiasına, dü� ük frekanslı kelimeleri esas alan bir bakı � açısından Türkçe için deneysel olarak deliller göstermi � tik. Aslen,


290

dü� ük frekanslı kelimelerin kelime da� arcı � ı boyutları açısından önemli

bir etmen olmasının yanında, indeks terim seçiminde de önemi

büyüktür. Çünkü, dü� ük frekans içersinde bir de� i � imden söz edilemez.

Bir kere gözlenen bir kelime, bir belgede tek bir yerde gözlenmi � tir. Oysa, geri-getirim yöntemleri frekans içindeki de� i � imleri

belirleyebildi � i ölçüde ba� arıma sahip olmaktadır. Dü� ük frekanslı

kelimelerin i � lev veya içerik olduklarının belirlenebilmesi için

gözlenme sıklı � ı dı � ında bir etmenden faydalanması gerekmektedir.

Söz konusu bu etmenle ek bir belirleyicilik kazanmalıdır. Aynı durum

aslında yüksek frekanslı birlikler ve orta frekanslı birlikler için de

geçerlidir. Dilbilgisi özellikleri bu yönde ba� vurulabilecek araçlardan

bir tanesidir. Geleneksel geri-getirim yöntemlerinde örne� in, özel isim

olan birlikler ister dü� ük frekanslı olsun, ister yüksek frekanslı olsun

içerik kelime olarak ele alınmaktadır.

Bu tez kapsamında, dilbilgisi özellikleri aynı bakı � açısından ele

alınıp, indeks terim (içerik kelime) olu� u belirleyicilik açısından

incelenmi � tir. � ndeks terimlerle ilgili çalı � ma iki a� amaya ayrılmı � tır. Birinci a� amada, derlemi olu� turan birlikler içerisinden indeks

terimlerin belirlenmesi üzerinde durulmu � . � kinci kısımda, seçilen

indeks terimlerin bulundukları metnin içeri � ini temsilde önemi

belirlemeye yönelik çalı � malar yapılmı � tır. � lerleyen kısımlarda

öncelikle “Genel Da� ılımlar” ba� lı � ı altında, dilbilgisi özelliklerinin

frekans esasında yalın da� ılımları tanımlanmı � ve ardından elle

i � aretlenmi � indeks terimler üzerinden da� ılımları verilmi � tir. � ndeks

terimlerin belirlenmesinde dilbilgisi özelliklerinin kullanımı bu � ekilde

ara� tırıldıktan sonra, seçilmi � indeks terimlerin bulundukları metnin

içeri � ini temsilde önemini ölçeklendirmek için geleneksel geri-getirim

yöntemlerinin � ngilizce derlemlerde ba� arım olarak en iyi olanlarının

a� ırlıklandırma yordamları frekans esasında Türkçe için sınanmı � tır.


291

Türkçe için de� erlendirme sonucunda en iyi olarak belirlenen geri-

getirim yönteminin ba� arım de� erleri, e� ik olarak kabul edilmi � ve son

olarak dilbilgisi özelliklerinin BGG sistemlerinin ba� arımına katkısı

istatistiksel olarak ara� tırılmı � tır.

11.1. Genel Da� ılımlar

11.1.1. Sözcük Tür ler i

Türkçe’de i � levsel açıdan kelimeler/sözcükler ele alındı � ında, üç

tür kelime vardır: isimler, fi iller ve edatlar. Yazılı dilin temel unsurları,

yani yazıda anlamı kar � ılayan unsurlar, isimler ve fiillerdir. Edatlar ise

yazılı anlatımın kuralları içinde, i � levsel olarak görevli, tek ba� larına

anlamları soyut ve havada kalan, ancak isimlerle ve fiillerle

kullanıldıklarında anlam kazanan yardımcı unsurlardır.

�� levsel olarak aslen isim soyundan gelen, yani isim ba� lı � ı

altında genel olarak toplanan, ancak görev olarak birbirlerinden farklı

alt guruplar da vardır: özel/cins isimler, sıfatlar, zamirler ve zarflar.

Özel isimler tek bir nesnenin, cins isimler ise bir gurup nesnelerin ve

kavramların adlarıdır. Sıfatlar nesnelerin vasıf isimleridir. Zamirler

nesneleri geçici olarak kar � ılamak için, dilde kullanılan ve sayıca kısıtlı

isimlerdir (bu, � u, o v.b.). Zarflarsa fiillerin zamanını, olu� � eklini,

yerini, v.b. tanımlayan isim soylu kelimelerdir. Edatlar da kullanı �

� ekline göre kendi içinde çe� itli guruplar altında toplanırlar: Ünlem

edatları, ba� lama edatları ve son çekim edatları. Fiiller de kendi

içlerinde yapılarına ve kullanılı � larına göre çe� itlere ayrılır: fiil ler, sıfat-

fii ller (partisipler-ortaç) ve isim-fiil ler (gerundiumlar).


292

Türkçe’deki sözcük türlerinin dilbilimsel detayları Bölüm 2.’de

Türkçe ba� lı � ı altında detaylı � ekilde ele alınmı � tı. Burada bu sözcük

türlerinin yazılı metinler içindeki sayısal da� ılımları açısından

incelemesini yapaca� ız. Zipf kanunları ile tür ayrımına gitmeden

yaptı � ımız çalı � malara ek bir enformasyon olup olmadı � ını, daha

do� rusu kelimelerin frekansları ile türleri arasında kar � ılıklı il i � ki olup

olmadı � ını inceleyece� iz. Böyle bir ba� lantı ile, i � lev ve içerik

kelimelerin ayrımlarının yapılıp yapılamayaca� ı ikinci tartı � ma konusu

olacak. Dolayısı ile yazılı belgelerin sayısal temsillerine katkının olup

olmayaca� ının tartı � ması bu ba� lamdan verilecektir.

BilTD ve OSTAD derlemleri, ayrıca ikisinin harmanı ile

olu� turulan birle� ik derlem için, ana sözcük türlerinin kelime da� arcı � ı

içindeki oransal da� ılımları, kelime esasında Çizelge 11.1.1.1.’de,

gövde esasında Çizelge 11.1.1.2.’de verilmi � tir. Sözcük türü oransal

da� ılımı OSTAD derlemi için, hem kelime hem de gövde esasında �ekil 11.1.1.1.’de, çizge olarak da verilmi � tir.

Çizelgelerde de görüldü� ü gibi, her iki derlem ve dolayısı ile

birle� ik derlem için, isim türünde kelimeler (noun) kelime da� arcı � ı

içinde %50’ inin üzerinde bir orana sahiptir. � sim türünü, kelime

esasında fiil (verb) ve gövde esasında sıfat (adj) türü takip etmektedir.

OSTAD derleminde, di � er iki derlemden farklı olarak, isim türü oranı

gövde esasında %70’ in altında kalmı � tır (%58,4). Harman ile

olu� turulan BirTD derlemi a� ırlıklı olarak (yakla� ık 3/4), BilTD

derleminin etkisinde oldu� u için, tabii olarak yakın sonuçlar vermi � tir.


293

Çizelge 11.1.1.1: Kelime esasında sözcük türlerinin kelime da� arcı � ı içindeki oransal da� ılımları.

Tür Frekans % Yı � . (%) Frekans % Yı � . (%) Frekans % Yı � . (%)Adj 7,063 7.2 7.2 2,054 11.4 11.4 7,786 7.4 7.4Adv 2,427 2.5 9.6 716 4.0 15.3 2,663 2.5 10.0Conj 32 0.0 9.7 27 0.1 15.5 35 0.0 10.0Det 1,388 1.4 11.1 14 0.1 15.5 1,393 1.3 11.3Interj 35 0.0 11.1 31 0.2 15.7 48 0.0 11.4Noun 69,160 70.3 81.5 11,014 60.9 76.6 72,743 69.4 80.8Postp 47 0.0 81.5 38 0.2 76.9 52 0.0 80.9Pron 313 0.3 81.8 180 1.0 77.9 335 0.3 81.2Ques 34 0.0 81.9 23 0.1 78.0 37 0.0 81.2Verb 17,849 18.1 100.0 3,981 22.0 100.0 19,688 18.8 100.0Toplam 98,348 100.0 18,078 100.0 104,780 100.0

BilTD OSTAD BirTD

Çizelge 11.1.1.2: Gövde esasında sözcük türlerinin kelime da� arcı� ı içindeki oransal da� ılımları.

Tür Frekans % Yı � . (%) Frekans % Yı � . (%) Frekans % Yı � . (%)Adj 3,536 12.4 12.4 1,358 19.0 19.0 3,797 12.8 12.8Adv 1,042 3.7 16.1 486 6.8 25.9 1,127 3.8 16.6Conj 32 0.1 16.2 27 0.4 26.2 35 0.1 16.7Det 988 3.5 19.7 13 0.2 26.4 992 3.3 20.0Interj 35 0.1 19.8 31 0.4 26.9 48 0.2 20.2Noun 20,192 71.0 90.9 4,165 58.4 85.3 20,941 70.4 90.6Postp 47 0.2 91.0 38 0.5 85.8 52 0.2 90.7Pron 46 0.2 91.2 29 0.4 86.2 52 0.2 90.9Ques 4 0.0 91.2 4 0.1 86.3 4 0.0 90.9Verb 2,502 8.8 100.0 978 13.7 100.0 2,699 9.1 100.0Toplam 28,424 100.0 7,129 100.0 29,747 100.0

BilTD OSTAD BirTD


294

Noun 60.92%

Postp 0.21%

Pron 1.00%

Ques 0.13%

Verb 22.02%

Adj 11.36%

Conj 0.15%

Adv4%

Det 0.08%

Interj 0.17%

(a)

Noun 58.42%

Postp 0.53%Pron

0.41%

Ques 0.06%

Verb 13.72%

Adj 19.05%

Conj 0.38%

Adv7%

Det 0.18%

Interj 0.43%

(b)

�ekil 11.1.1.1: OSTAD derlemi, kelime (a) ve gövde (b) esasında kelime da� arcı� ı

içinde sözcük türü oranları.

Sözcük türlerinin, “derlem içinde görülme sıklı � ı” açısından

oranları da, genel de� erlendirme içinde ele alaca� ımız ikinci unsurdur.

Tabi, görülme sıklı � ı açısından oranlardan bahsetti � imiz için kelime

esası veya gövde esası diye bir ayrıma gidilememektedir. Çünkü,

görülme sıklı � ı açısından kelimelerle gövdeleri arasında sözcük türü

ba� lamında bir fark yoktur. Dolayısı ile, kelime türlerinin derlem içinde

görülme sıklı � ı oranları topluca (kelime yada gövde esasında

yorumlanabilir), Çizelge 11.1.1.3.’de verilmi � tir. OSTAD derlemi için

sözcük türlerinin görülme sıklıklarına göre oranları ayrıca � ekil

11.1.1.2.’de çizge olarak da verilmi � tir.


295

Çizelge 11.1.1.3: Sözcük türlerinin derlem içinde görülme sıklıklarının oransal da� ılımları.

Tür Frekans % Yı � . (%) Frekans % Yı � . (%) Frekans % Yı � . (%)Adj 85,650 12.2 12.2 6,087 11.8 11.8 91,737 12.2 12.2Adv 31,124 4.4 16.6 3,510 6.8 18.7 34,634 4.6 16.8Conj 34,678 4.9 21.6 2,503 4.9 23.6 37,181 4.9 21.7Det 29,435 4.2 25.8 2,217 4.3 27.9 31,652 4.2 25.9Interj 430 0.1 25.8 132 0.3 28.1 562 0.1 26.0Noun 418,726 59.6 85.5 24,351 47.4 75.5 443,077 58.8 84.8Postp 15,730 2.2 87.7 1,298 2.5 78.0 17,028 2.3 87.0Pron 14,568 2.1 89.8 2,476 4.8 82.9 17,044 2.3 89.3Ques 1,898 0.3 90.0 296 0.6 83.4 2,194 0.3 89.6Verb 69,938 10.0 100.0 8,508 16.6 100.0 78,446 10.4 100.0Toplam 702,177 100.0 51,378 100.0 753,555 100.0

BilTD OSTAD BirTD

Derlem içinde gözlenme sıklı � ı açısından, kelime türleri bu sefer

üç derlemde de paralel oranlar sergilemi � tir. � sim türü birinci, sıfat türü

ikinci ve fiil üçüncü en büyük orana sahiptir.

Postp 2.53%

Pron 4.82%

Ques 0.58%

Verb 16.56%

Adj 11.85%

Conj 4.87%

Adv 7%

Det 4.32%

Interj 0.26%

Noun 47.40%

�ekil 11.1.1.2: OSTAD derlemi, derlem içinde gözlenme sıklı� ına göre sözcük türü

oranları.


296

11.1.1.1 � ndeks terim da� ılımları

OSTAD derleminde, sözcük türlerinin indeks terim da� ılımları

Çizelge 11.1.1.1.1’de tablo halinde, � ekil 11.1.1.1.1.’de çizge olarak

verilmi � tir. “Ques” , yani soru sözcük türü de� erlendirmede yoktur.

Çizelge 11.1.1.1.1: OSTAD derleminde sözcük türlerinin indeks terim da� ılımları.

Söz.Türü indT f Söz.Türü indT fAdj 1 207 Noun 0 2,099Adj 0 1,019 Noun 1 3,690Adv 1 7 Postp 0 290Adv 0 375 Pron 1 0Conj 0 515 Pron 0 170Det 0 280 Verb 1 48

Interj 0 8 Verb 0 867Interj 1 0

Çizelgede, her sözcük türünün indeks terim (içerik) olarak

gözlenme sıklı � ı (indT=1) ve indeks terim olmadı � ı (i � lev) gözlemler

(indT=0) tablo halinde listelenmi � tir.

0.170.02 0.00 0.00 0.00

0.64

0.00 0.00 0.05

0.830.98 1.00 1.00 1.00

0.36

1.00 1.00 0.95

0%

20%

40%

60%

80%

100%

AdjAdv Con

jDet

Inte

rj

Noun

Postp

Pron

Verb

0

1

�ekil 11.1.1.1.1: OSTAD derleminde sözcük türlerinin indeks terim da� ılımları.


297

Yukarıda verilen sözcük türlerinin kendi içinde oransal

de� erlendirmesinde, en yüksek oran (%64) ile isim sözcük türünde

çıkmı � tır. � sim sözcük türünü, %17 ile sıfatlar (Adj), %5 ile fii ller

(Verb) ve %2 ile zarflar (Adv) takip etmektedir. Genel toplam

üzerinden, indeks terimlerin sözcük türü da� ılımları da � ekil

11.1.1.1.2.’de verilmi � tir.

Noun93.4%

Adj5.2%Verb

1.2%

�ekil 11.1.1.1.2: � ndeks terimlerin sözcük türü da� ılımları.

Genel da� ılım göz önüne alındı � ında, indeks terimlerin %93’ ü

isim sözcük türünde gözlenmi � tir. Bu sonuç, genel kabul ile paraleldir.

Genel kabulde, metin içindeki harf birliklerinin, metin içeri � ine

anlamca katkıda bulunanlarının isim sözcük türünde oldu� u belirtilir.

Ancak, sözcük türlerinin kendi içinde indeks terim olu� da� ılımı göz

önüne alındı � ında, aslen “ isim sözcük türündeki kelimeler indeks

terimdir.” � eklinde bir önermenin yapılamayaca� ı da açıktır. Çünkü,

isim sözcük türü içinde indeks terim olu� un belirsizli � i %36 gibi

yüksek bir de� erdir.


298

Lahtinen (2000), sözcük türlerinde aynı yakla� ımı � ngilizce için

kullanmı � tır. Oransal da� ılımları indeks terimlerin seçiminde ve metin

içinde önemini tespitte de kullanmı � tır. Yani sözcük türlerinin indeks

terim da� ılımlarını sadece indeks terim seçimi için de� il, ayrıca terimin

bulundu� u metnin içeri � ine anlamsal katkısı ile de ili � kilendirmi � tir. Lahtinen deneysel ara� tırmasının sonunda, dilbilimsel özelliklerin

indeks terimleri seçebildi � ini, metin içinde önemini tespitte de yardım

edebildi � ini bildirmi � tir.

Sözcük türü ve indeks terimlerin topluca da� ılımsal

de� erlendirmesi, Çizelge 11.1.1.1.2.’de tablo halinde verilmi � tir.

Çizelge 11.1.1.1.2: OSTAD derleminde, sözcük türü ve indeks terimlerin toplu de� erlendirmesi.

Söz.Türü 0 1 Toplam P(ind=0|.) P(ind=1|.)

frek 1,019 207 1,226P(SözT|.) 0.18 0.05 0.13

frek 375 7 382P(SözT|.) 0.07 0.00 0.04

frek 515 0 515P(SözT|.) 0.09 0.00 0.05

frek 280 0 280P(SözT|.) 0.05 0.00 0.03

frek 8 0 8P(SözT|.) 0.00 0.00 0.00

frek 2,099 3,690 5,789P(SözT|.) 0.37 0.93 0.60

frek 290 0 290P(SözT|.) 0.05 0.00 0.03

frek 170 0 170P(SözT|.) 0.03 0.00 0.02

frek 867 48 915P(SözT|.) 0.15 0.01 0.10

5,623 3,952 9,5760.59 0.41

0.95 0.05

ToplamP(ind)

1.00 0.00

1.00 0.00

0.83 0.17

0.98 0.02

�ndeks Ter im

Adj

Adv

Conj

Det

Interj

Noun

Postp

Pron

Verb

1.00 0.00

1.00 0.00

1.00 0.00

0.36 0.64


299

11.1.1.2 Özel isimlerin indeks terim da� ılımı

Özel isimler, isim sözcük türünün bir alt parçasıdır. Dolayısı ile,

katkısı tamamen isim sözcük türü tarafında kapsanır. Ancak, katkı isim

sözcük türü içerisinde kalmasına ra� men, indeks terim belirleyicili � i

açısından çok güçlüdür. Lahtinen (2000) tarafından da � ngilizce için

belirtildi � i gibi, özel isimler daima indeks terim olurlar. Bir özel isim,

bir ki � i ismi iken, ön ad ve soyadı birlikteli � inde sadece soyadının

indeks terim olarak alınması da rastlanan bir durumdur. OSTAD

derleminde yapılan elle i � aretlemelerde, toplam 495 farklı özel isme

rastlanmı � tır. Bu özel isimler derlemde, 883 kez gözlenmi � tir. Tüm

gözlemler indeks terimdir. Bir ba� ka söyleyi � le, özel isim olan her isim

sözcük türü, indeks terim olarak alınmı � tır.

11.1.2. Cümle Unsur lar ı

Türkçe bir cümlede temel unsurlar, fiil, fail, nesne, yer

tamlayıcısı ve zarf’ tır. Yani cümlede fii l ile onun gerektirdi � i unsurlar

bulunur. Hükmün geni � li � ine göre cümlede, cümle unsurlarından biri,

bir kaçı veya hepsi bulunur. Fiil ve fail cümlenin esas unsurları, nesne,

zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede

ancak bir fiil unsuru bulunur. Di � er unsurların ise cümlede aynı cinsten

bir veya birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç

nesne, birkaç yer tamlayıcısı ve birkaç zarf bulunabilir. Cümlede bu

unsurlardan ba� ka bir de ba� lama ve ünlem edatları veya ünlem

gurupları bulunabilir. Fakat bunlar esas hareketle, fii lle ilgili olmayan

ve cümleye sadece ilave edilmi � durumda bulunan unsurlardır.

Genellikle cümlelerin ba� larında, sonlarında ve cümleler arasında

bulunurlar. Parantez � eklinde cümle içine girdikleri de görülür. Bunlara


300

cümle dı � ı unsurlar denir. Cümle unsurlarının daha geni � açıklamaları

Bölüm 2.’de Türkçe ba� lı � ı atında ilgili bir kısım olarak verilmi � tir.

OSTAD derlemi cümle unsurlarının da� ılımını

inceleyebilece� imiz tek derlemdir. Bilgimiz dahilinde, cümle unsurları

i � aretli olan ba� ka bir Türkçe derlem yoktur. OSTAD derleminde

cümle unsurlarının i � aretlenmesi için kullanılan kodlar Çizelge

11.1.2.1.’de tablo halinde verilmi � tir.

Çizelge 11.1.2.1: OSTAD derleminde cümle unsuru i � aretlemesinde kullanılan kodlar.

Kod Açıklama* Cümle unsuru olarak belirlenemeyen yabancı kelimelerABLATIVE.ADJUNCT Yer isteyen soru kelimelesi (-den hali)APPOSITION � ki nokta ile açıklanan kelimeler v.b.CLASSIFIER isim-isim � eklinde tamlamalarda, birinci kelimeye verilen kodCOLLOCATION Kelime gurubuCOORDINATION Ba � laç koduDATIVE.ADJUNCT Yer isteyen soru kelimelesi (-e hali)DETERMINER Belirleyiciler (Bu, � u v.b.)ETOL Birle � ik fiilINSTRUMENTAL.ADJUNCT Araç isteyen soru kelimesi (Neyle, nasıl gibi)INTENSIFIER VurgulayıcılarLOCATIVE.ADJUNCT Yer isteyen soru kelimelesi (-de hali)MODIFIER Sıfatları adlara, zarfları sıfatlara veya fiillere, ilgi tümcelerini

fiillere ve zaman bildiren isimleri fiillere ba � layan kodNEGATIVE.PARTICLE De � il kelimesinin koduOBJECT Cümlenin nesnesiPOSSESSOR Belirtili isim tamlamasında tamlayana verilen kodQUESTION.PARTICLE Soru parçacı � ı (mı, mi gibi)RELATIVIZER � li � kilendiricilerS.MODIFIER Söylen ba � laçları (çünkü, fakat v.b.)SENTENCE Her tümceyi, tümce sonundaki noktalama i � aretine ba � larSUBJECT Cümlenin faili/öznesiVOCATIVE Seslenme

�ndeks terimlerin cümle unsurları üzerine da� ılımları, Çizelge

11.1.2.2.’de tablo olarak verilmi � tir.


301

Çizelge 11.1.2.2: � ndeks terimlerin cümle üzerindeki da� ılımı.

Cümle Unsuru Kod indT f Unsur Kod indT f* * 0 5 LOCATIVE.ADJUNCT Loc 0 169* * 1 0 LOCATIVE.ADJUNCT 1 235ABLATIVE.ADJUNCT Abl 0 54 MODIFIER Mod 0 2,171ABLATIVE.ADJUNCT 1 67 MODIFIER 1 387APPOSITION App 0 24 NEGATIVE.PARTICLE Neg 0 16APPOSITION 1 56 NEGATIVE.PARTICLE 1 0CLASSIFIER Clas 0 173 OBJECT Obj 0 940CLASSIFIER 1 598 OBJECT 1 1,198COLLOCATION Coll 0 0 POSSESSOR Poss 0 62COLLOCATION 1 6 POSSESSOR 1 288COORDINATION Coo 0 270 QUESTION.PARTICLE Que 0 2COORDINATION 1 11 RELATIVIZER Rel 0 2DATIVE.ADJUNCT Dat 0 133 S.MODIFIER S.M 0 73DATIVE.ADJUNCT 1 212 SENTENCE Sen 0 895DETERMINER Det 0 217 SENTENCE 1 96ETOL Etol 0 1 SUBJECT Sub 0 233INSTRUMENTAL.ADJUNCT Inst 0 18 SUBJECT 1 763INSTRUMENTAL.ADJUNCT 1 32 VOCATIVE Voc 0 4INTENSIFIER Ints 0 162 VOCATIVE 1 2INTENSIFIER 1 0

Cümle unsurları her zaman tek bir kelimeden olu� maz, birden

fazla kelimenin bir araya gelmesi ile olu� an kelime gurupları, daha

do� rusu tümceler (Collocation) cümlenin unsurları olabilirler. Dolayısı

ile, tek birlik üzerinde in� a etti � imiz indeks terim kurgusu ile cümle

unsurları aynı hesaplama birimine sahip olmadı � ı için, yani çekirdek

birlik boyutu olarak aynı ölçe� e sahip olmadıkları için bir uyumsuzluk

söz konusudur. Bu uyumsuzluk, bir cümle unsurunu olu� turan

birliklerden birisi, indeks terim olarak seçilmi � se, o cümle unsuru

indeks terim olarak kabul edilerek giderilmi � tir. Ayrıca, tahmin

edilece� i gibi, bir cümle unsurunu olu� turan birliklerden birden fazlası

da indeks terim olabilmektedir. Bu mesele kelime gurupları

incelemesinde ele alınacaktır. Burada yalın bir yakla� ım izlemek yeterli

görülmü� tür. Cümle unsurunun indeks terim olarak frekansı


302

hesaplanırken, içerdi � i birliklerin indeks terim olanları sayılmı � tır. Dolayısı ile, örne� in bir cümle unsuru 2 indeks terim içeriyorsa,

frekansı 2 olarak hesaplanmı � tır. Bir cümle unsuru, sadece tek bir

kelime gurubu ile örtü� ece� i için böyle bir yakla� ım yanlı � olmamaktadır. Çizelgede, her cümle unsuru kodu için, “kod” sütununda

bir de kısa kod atanmı � tır. Bu kısa kodlar, istatistiklerin gösterimlerde

� ekilsel düzeni sa� lamak için olu� turulmu� tur.

�ekil 11.1.2.1.’de cümle unsurlarının kendi içinde, indeks terim

da� ılımları çizge olarak betimlenmi � tir.

0%10%

20%30%

40%50%60%

70%80%

90%100%

*

Ab

l

App

Cla

s

Col

l

Coo Dat

Det

Inst

Inte

Loc

Mo

d

Neg Ob

j

Poss

Qu

e

Rel

S.M

Sen Sub

Vo

c

0

1

�ekil 11.1.2.1: OSTAD derlemi, cümle unsurlarının indeks terim da� ılımları.

�ekilde cümle unsurlarının, indeks terim da� ılımları arasında,

kendi içinde en tutarlı olan unsur “kelime gurubu” (Coll) olarak

i � aretlenmi � olan birliklerdir. Ancak, OSTAD için hazırlanan kullanım

kılavuzunda, kelime gurubu koduna sahip olan birliklerin sonradan bir

program yardımı ile tek birli � e çevrildi � i ve sadece yanlı � i � aretlenmi �

olanların kaldı � ı söylenmi � tir. Dolayısı ile, tutarlılık

de� erlendirmesinde, kelime gurubu koduna sahip birlikler göz önüne


303

alınmamı � tır, ancak betimsel istatistiklerden de çıkarılmamı � tır. Genel

üzerinden, indeks terimlerin cümle unsurları üzerindeki da� ılımı da �ekil 11.1.2.2.’de verilmi � tir.

Sub19%

Inst1%

Loc6%

Dat5%

Clas15%

Abl2%

App1%

Sen2%

Poss7%

Obj30%

Mod10%

�ekil 11.1.2.2: OSTAD derleminde indeks terimlerin cümle unsuru da� ılımları.

Cümle unsurlarının, indeks terim da� ılımları hem kendi içinde

hem de genel üzerinden toplu de� erlendirmesi Çizelge 11.1.2.3.’de

verilmi � tir.


304

Çizelge 11.1.2.3: OSTAD derlemi, cümle unsuru ve indeks terim için toplu de

�

erlendirme.

Kod 0 1 Top P(ind=0|.) P(ind=1|.) Kod 0 1 Top P(ind=0|.) P(ind=1|.)

frek 5 0 5 frek 2,171 387 2,558

P(Kod|.) 0.00 0.00 0.00 P(Kod|.) 0.39 0.10 0.27

frek 54 67 121 frek 16 0 16

P(Kod|.) 0.01 0.02 0.01 P(Kod|.) 0.00 0.00 0.00

frek 24 56 80 frek 940 1,198 2,138

P(Kod|.) 0.00 0.01 0.01 P(Kod|.) 0.17 0.30 0.22

frek 173 598 771 frek 62 288 350

P(Kod|.) 0.03 0.15 0.08 P(Kod|.) 0.01 0.07 0.04

frek 1 5 6 frek 2 0 2

P(Kod|.) 0.00 0.00 0.00 P(Kod|.) 0.00 0.00 0.00

frek 270 11 281 frek 2 0 2

P(Kod|.) 0.05 0.00 0.03 P(Kod|.) 0.00 0.00 0.00

frek 133 212 345 frek 73 0 73

P(Kod|.) 0.02 0.05 0.04 P(Kod|.) 0.01 0.00 0.01

frek 217 0 217 frek 895 96 991

P(Kod|.) 0.04 0.00 0.02 P(Kod|.) 0.16 0.02 0.10

frek 18 32 50 frek 233 763 996

P(Kod|.) 0.00 0.01 0.01 P(Kod|.) 0.04 0.19 0.10

frek 162 0 162 frek 4 2 6

P(Kod|.) 0.03 0.00 0.02 P(Kod|.) 0.00 0.00 0.00

frek 169 235 404 5,625 3,951 9,575

P(Kod|.) 0.03 0.06 0.04 0.59 0.41

Toplam

P(ind)

Sub 0.23 0.77

Voc 0.67 0.33

S.M 1.00 0.00

Sen 0.90 0.10

Que 1.00 0.00

Rel 1.00 0.00

Obj 0.44 0.56

Poss 0.18 0.82

Mod 0.85 0.15

Neg 1.00 0.00

0.42 0.58

0.36 0.64

Inte 1.00 0.00

0.39 0.61

Det 1.00 0.00

0.17 0.83

Coo 0.96 0.04

0.30 0.70

Clas 0.22 0.78

1.00 0.00

Abl 0.45 0.55

*

App

Coll

Dat

Inst

Loc


305

Lahtinen (2000), yaptı�ı çalı � mada cümle unsurları için �

ngilizce’de benzer bir yol izlemi � tir. Lahtinen çalı � masında, cümle

unsurlarının kendi içinde indeks terim olu� da�ılımlarını kullanmı � tır.

Genel da�ılımı, yani indeks terimlerin cümle unsurları üzerindeki

da�ılımını kullanmamı � tır. Not edilmesi gereken bir önemli nokta

Lahtinen tarafından yapılan çalı � mada da, �ngilizce için kendi içinde en

yüksek olasılı�a sahip cümle unsuru olarak, isim tamlamalarının ilk

birli�inin bulunmasıdır.

�kinci unsur, cümlenin faili; üçüncü unsur edat

tümlecinde tamlayan22 (complement of preposition) adını verdi�i unsur

ve dördüncü unsur da nesnedir.

11.1.3. Sözcük Türü ve Cümle Unsuru Ortak De� er lendirme

Sözcük türünün ve cümle unsurlarının bireysel olarak indeks

terim da�ılımları kendi içlerinde de

�erlendirildi, burada birlikte

de�erlendirmesi yapılacaktır. Birlikte de

�erlendirme, sözcük türü ve

cümle unsurunun birlikte indeks terim da�ılımlarıdır. Çizelge

11.1.3.1.’de OSTAD derleminde yapılan elle i � aretleme verileri

kullanılarak hesaplanmı � , sözcük türü ve cümle unsuru belirlenmi � ken,

indeks terim olma (1) ve olmama (0) olasılıkları, tablo halinde

verilmi � tir.

22 Lahtinen, edat tümlecinde tamlayan cümle unsuru adını verdi � i kelime gurupları için “divorced from ETHICS” örne� ini vermi � tir. Bu gurubun edatı “ from” birli � idir. “ETHICS” (töre, ahlak) birli � i tamlayandır. “divorced” (bo� anma) birli � i de tamlanan.


306

Çizelge 11.1.3.1: OSTAD derleminde, sözcük türü ve cümle unsuru birlikte indeks terim da

�

ılımı.

indT Adj Adv Conj Det Inter j Noun Postp Pron Verb indT Adj Adv Conj Det Interj Noun Postp Pron Verb

0 0.80 0 0.25 0.42 1.00 1.00 0.00

1 0.20 1 0.75 0.58 0.00 0.00 1.00

0 0.50 0.44 1.00 0 0.85 0.99 1.00 1.00 0.69 1.00 1.00 0.96

1 0.50 0.56 0.00 1 0.15 0.01 0.00 0.00 0.31 0.00 0.00 0.04

0 1.00 0.75 1.00 0.21 1.00 0 1.00 0.00 1.00

1 0.00 0.25 0.00 0.79 0.00 1 0.00 1.00 0.00

0 0.55 1.00 0.20 1.00 1.00 0 0.79 1.00 1.00 0.40 1.00 1.00 0.89

1 0.45 0.00 0.80 0.00 0.00 1 0.21 0.00 0.00 0.60 0.00 0.00 0.11

0 0.17 0 0.60 0.12 1.00

1 0.83 1 0.40 0.88 0.00

0 0.50 1.00 1.00 0.29 1.00 0 0.00 0.00 1.00 0.00

1 0.50 0.00 0.00 0.71 0.00 1 1.00 1.00 0.00 1.00

0 0.00 0.35 1.00 1.00 0 1.00

1 1.00 0.65 0.00 0.00 1 0.00

0 1.00 1.00 1.00 1.00 0 1.00 1.00 1.00 1.00

1 0.00 0.00 0.00 0.00 1 0.00 0.00 0.00 0.00

0 0.00 0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

1 1.00 1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

0 0.35 1.00 0 0.56 1.00 0.18 1.00 1.00 0.80

1 0.65 0.00 1 0.44 0.00 0.82 0.00 0.00 0.20

0 1.00 1.00 0.00 1.00 0 1.00 1.00 1.00 0.00

1 0.00 0.00 1.00 0.00 1 0.00 0.00 0.00 1.00

Sub

Voc

Que

Rel

S.M

Sen

Mod

Neg

Obj

Poss

Etol

Inst

Inte

Loc*

Abl

App

Clas

Coll

Coo

Dat

Det

B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE

307

11.1.4. Kelime Guruplar ı

OSTAD derlemi, kelime gurupları i � aretlenmi � bir derlemdir.

Derlemde kelime gurupları Türkçe dilbilgisi kuralları dahilinde tespit

edilmi � tir. BGG sistemlerinde kelime guruplarının kullanımı, genel

olarak birlikte gözlenme olasılıkları açısından ele alınmakta ve indeks

terim olarak bu biçimde de� erlendirilmektedir. Bölüm 2.’de Türkçe

bahsinde etraflıca ele aldı � ımız kelime gurupları, dilbilgisi kurallarına

uygun olan biçimlerdir. BGG sistemlerinde kullanılan halinde,

kelimelerin birlikte, ardı ardına belirli bir gözlenme sıklı � ından daha

fazla görülmeleri esas alınır. Dolayısı ile, örne� in derlemde bir kere

gözlenen ardı � ık kelimeler, kelime gurubu olarak kabul edilmezler.

Bölüm 5.3.’de belgelerin BGG sistemlerinde sayısal olarak temsili için

kullanılan yordam tanıtılırken, kelime guruplarını tespit için bahsedilen

yöntemler tanıtılmı � tı. Burada, OSTAD derleminde i � aretlenmi � kelime

guruplarının istatistikleri verilecektir.

OSTAD derleminin elle indeks terimleri i � aretlenmi � kısmında,

içerdi � i kelime sayısı 2 ile 9 arasında de� i � en toplam 1060 kelime

gurubu vardır. Söz konusu 1060 kelime gurubu, derlem içinde 1150 kez

gözlenmi � tir. Yani, bir kelime gurubu ortalama 1.08 (1150/1060) kez

derlem içinde gözlenmi � tir. 1150 gözlemin, 1111’ i indeks terim olarak

i � aretlenmi � tir. Yani, herhangi bir kelime gurubunun indeks terim

olması ihtimali, yakla� ık 0.97’dir. Kelime guruplarının indeks terim

da� ılımı, içerdikleri kelime sayıları esasında Çizelge 11.1.4.1.’de özet

tablo olarak verilmi � tir. � ndeks terim olu� , kelime gurubu esasında

de� erlendirilmi � olup, bireysel kelimelerin indeks terim olup olmadı � ı

ile il i � kilendirilmemi � tir.


308

Çizelge 11.1.4.1: OSTAD derleminde, kelime guruplarının indeks terim da� ılımları.

Kel. Sayı 0 1 Toplam Kel. Sayı 0 1 Toplam

40 836 876 6

0.05 0.95 0.448 0.003

194 0

0.099 0.000

48 1

0.025 0.001

24 1

0.012 0.001

6 Toplam 40 1,111 1,150

0.003 P(ind) 0.03 0.97

6

0

1

1

0

0

0

0

194

48

24

6

0

0

0

0

6

7

8

9

6

2

3

4

5

Çizelgede görüldü� ü gibi, 3 ve yukarısında kelime sayısına sahip

olan tüm kelime gurupları indeks terim olarak seçilmi � tir. Ancak,

içerdi � i kelime sayısı 3 ve yukarısında olan birliklerin derlemde birden

fazla gözlenenlerinin sayısı yok denecek kadar azdır: 3 kelimeden

olu� an gurupların toplamı 10 adettir, bunlardan 9 tanesi 2 kere, 1 tanesi

3 kere gözlenmi � tir; 4 kelimeden olu� an gurupların toplamı 2 adettir,

hepsi 2 kere gözlenmi � tir; 5 kelimeden olu� an gurupların toplamı 2’dir

ve hepsi 2 kere gözlenmi � tir; 6 kelimeden olu� an gurupların toplamı

1’dir ve 2 kere gözlenmi � tir; 8 ve 9 kelimeden olu� an gurupların iki

kere gözleneni ise yoktur.

Geleneksel olarak, indeks terim ba� lamında kelime gurubu olarak

ele alınan ardı � ık birliklerde, kelime sayısı ço� unlukla 2’dir. Kelime

sayısı 3 ve üzeri olan kelime gurupları indeks terim ba� lamında ele

alınıp incelenmemi � tir (Lahtinen, 2000).

Tez kapsamında, kelime guruplarının indeks terim ba� lamında

incelenmesi, 2 kelime ile olu� turulan guruplarla sınırlıdır. Kelime

guruplarını olu� turan kelimelerin sözcük türlerinin olu� turdu� u


309

kombinasyon için indeks terim da� ılımları incelenerek, kelime

gurupları ile ilgili genel da� ılım çalı � ması yapılmı � tır.

�çerdi � i kelime sayısı 2 olan gurup sayısı 876’dır. Bunlardan,

836’sı indeks terimdir. Bu gurupların içerdi � i kelimelerin sözcük

türlerinin indeks terim da� ılımı Çizelge 11.1.4.2.’de tablo halinde

verilmi � tir.

Çizelge 11.1.4.2: OSTAD derleminde 2 kelimeden olu � an kelime guruplarını, sözcük türü kombinasyonlarının indeks terim da� ılımları.

SözT1 SözT2 0 1 Toplam SözT1 SözT2 0 1 Toplam

86 6 92 585 21 606

0.935 0.065 0.965 0.035

669 178 847 222 3 225

0.790 0.210 0.987 0.013

28 1 29 1869 595 2464

0.966 0.034 0.759 0.241

132 3 135 52 1 53

0.978 0.022 0.981 0.019

2 6 8 587 21 608

0.250 0.750 0.965 0.035

33 1 34 4265 836 5101

0.9706 0.0294Verb Noun

Noun

Adj

Adv

Noun

Pron

Verb

Toplam

Adv Noun

Interj Noun

Adj

Adj

Noun

Verb

Çizelge olu� turulurken, öncelikle indeks terim olan kelime

guruplarının sözcük türü dizilimleri tespit edilmi � , daha sonra bu

dizilimlerin derlem içinde genel gözlenme sıklıkları bulunmu� tur. Bu

sayede bir sözcük türü dizilimine ait indeks terim olma olasılı � ı elde

edilmi � tir. Bu yöntemle bulunan olasılıklar, dilbilgisi kurallarına uygun

kelime gurupları olasılıklarıdır. BGG sistemlerinde yaygın olarak

kullanılan, birlikte gözlenme sıklı � ı ile kelime guruplama yönteminden

farklıdır. Aslen, bu � ekilde kelime gurubu incelemesi, sözcük türlerinde

ba� lam enformasyonunun de� erlendirilmesi demektir. Bir ba� ka


310

söyleyi � le, yine sözcük türlerini esas alan bir indeks terim da� ılımı

çıkarmaktır. Ancak, bu defa bir sözcük türü kendisinden bir önceki

sözcük türü ile ba� lam ili � kisi de göz önüne alınarak

de� erlendirilmektedir. Bu durum sözcük türü üzerinde n-gram dil

modeli kurulması olarak dü� ünülebilir. � çerdi � i kelime sayısı 2 olan

kelime gurubu 2-gram, 3 olan kelime gurubu 3-gram � eklinde

de� erlendirilmektedir. Dolayısı ile, kelime gurubu incelememizden

çıkartaca� ımız sonuçlar, sözcük türü incelememize ek olarak

de� erlendirilmelidir, yani sözcük türü incelemesinin ba� lam katkısı

olarak ele alınmalıdır. Kelime guruplarının, sözcük türü

enformasyonunda ba� lam katkısı olarak ele alınabilmesi ile ilgili

belirtilmesi gereken çok önemli bir � art vardır; o da kelime guruplarının

ardı � ık kelime dizileri olarak kabul edilmesidir. Türkçe için bu � art

de� erlendirildi � inde, genel olarak kabullenmenin yanlı � oldu� u

söylenemez. Tabii istisnalar da mevcuttur. Ardı � ıklık ve kelime

gurupları ile ilgili söylenmesi gereken bir önemli nokta daha vardır.

OSTAD derleminde indeks terim olarak i � aretlenmi � kelime guruplarını

olu� turan bireysel kelimelerin ço� unlu� u, kelime esasında indeks terim

olarak zaten i � aretlenmi � olanlardır. Bu durum, BGG sistemlerinde

neden kelime gurupları ile çalı � manın ba� arımı arttırmadı � ına bir sebep

olarak ele alınabilir. Kelime gurupları genel uygulamada, BGG

sistemlerinin tek kelime indeks terim listesine ek olarak alınırlar.

Ancak, gurup halinde indeks terim listesinde bulunan kelimeler zaten

bireysel olarak listededirler. Kelimelerin yakınlık ili � kisi ile

olu� turulmu� gurubun bireysel kelimeleri, e� er derlemde sadece kelime

gurubu düzeni içerisinde gözlenmi � se, yani herhangi bir bireysel kelime

gurup düzeni dı � ında derlemde gözlenmemi � se, indeks terim listesinde

tek olarak yer aldı � ı zamanki enformasyonu ile, gurup düzeni içinde

temsil etti � i enformasyonu birbirine e� it olur diyebiliriz. Bir ba� ka

söyleyi � le, kelimeler söz konusu gurup hali dı � ında kullanılmıyorsa,


311

bireysel olarak listelenerek olu� turulacak bir indeks terim listesinde,

gurup halinde ta� ıdıkları enformasyon da içerilir. Örne� in, “ � ebin

Karahisar” gibi bir gurubun, bireysel kelimeleri “ � ebin” ve “Karahisar”

indeks terim listesinde yer aldı � ında, gurubun da listeye alınması,

kelime frekansı esasına dayalı yöntemlerle a� ırlıklandırma yapılması

taktirinde ek bir enformasyon sa� lamaz. Dolayısı ile, BGG

sistemlerinin ba� arımında bir artı � beklenemez.

Çizelge 11.1.4.2.’de 2 kelimeden olu� an kelime guruplarının,

sözcük türü dizilerinin verilen indeks terim da� ılımı içinde sözcük türü

dizilerinin indeks terim olu� (1) olasılıkları oldukça dü� üktür.

Listelenen guruplar, dilbilgisi kuralları ile tutarlı olan dizilimlerdir:

“Adj-Adj” için yabancı sermayeli; “Adj-Verb” için kıymetli

arkada� lardır; “Noun-Pron” için ba� bakanlık müste� arı'nınki

verilebilecek örneklerdir.

11.2. BGG Sistem Ba� arımı üzer ine � ncelemeler .

Bir derlem için, derlemi olu� turan tüm belgelere ait kelime

listesinden, indeks terim olarak seçilecek olanları belirleme ile bir

indeks terimin belirli bir belgenin içeri � i içinde önemini belirleme aslen

farklı i � lerdir. BGG sistemleri içinde, indeks terimlerin adaylar

(derlemi olu� turan tüm kelimeler) arasından belirlenmesi i � i sayısal

belge temsili (Bölüm 5.3) içinde halledilir. Bir indeks terimin belirli bir

metin için önemini belirleme i � i, geri-getirim yönteminin asli görevidir.

Geri-getirim yöntemleri bu özelliklerinin güçü nispetinde birbirlerinden

ayrılırlar. Bir indeks terimin, bir belgenin içeri � ine yaptı � ı katkının

nicel olarak ölçeklendirilmesine, a� ırlıklandırma adı verilir. Geri-

getirim yöntemlerinin tamamı, kurgularına uygun olarak bir


312

a� ırlıklandırma yöntemi önerirler. Geleneksel geri-getirim

yöntemlerinde yaygın olarak kullanılan a� ırlıklandırma yöntemleri

Bölüm 6.’da (Geri-Getirim Modelleri) ayrıntılı � ekilde tanıtılmı � tır.

Zipf güç kanunları incelemesinde içerik ve i � lev kelimeler adı ile

indeks terim belirleme i � i BGG sahasında genel geçer olan frekans

esasındaki kuramlar üzerinden ele alınmı � tı (Bölüm 10). Bu u� ra� indeks terim belirlemedir. � çerik kelimeler olarak adlandırılan kelimeler

aslen indeks terimlerdir. � � lev kelimelerse, sayısal belge temsilinin bir

alt süreci olan durma kelimelerinin ayıklanması içinde kullanılan

listede yer alacak kelimelerdir. BGG sistemleri, içerik kelimeler, yani

indeks terimler bu � ekilde belirlendikten sonra, her indeks terimi

derlemde terimin gözlendi � i her belge ile ili � kilendirirler, daha do� rusu

her belge-indeks terim çifti için sayısal bir a� ırlık de� eri hesaplarlar.

Bu hesaplamaların indeks terimlerin frekanslarına dayalı olanları,

Bölüm 7.2.’de verilen Luhn kuramını esas alarak önemi

ölçeklendirirler.

Yukarıda verilen bakı � açısı ve uygulamada izlenen yol, BGG

sistemlerinin genel geçer bakı � açısı ve yoludur. Ancak, indeks

terimlerin seçimi ve öneminin belirlenmesi için bir ba� ka bakı � açısı

daha kullanılabilir. Geleneksel olarak izlenen uygulamadaki yol içinde,

seçim ve önem iki bölüt u� ra� olarak ele alınmaktadır. Aslında, seçim

ve önem birbirinden bu denli ba� ımsız de� ildir. “Belge içeri � ine en çok

katkıda bulunan kelimeler, indeks terim olarak seçilmelidir” önermesi

ba� ımsız olmadıklarını açıkça ortaya koymaktadır. Bu önerme, aynı

zamanda tüm BGG sistemlerinin ortak hedefidir. Fakat, geleneksel

bakı � açısında, önemsiz kelimeler bir ön kabullenme ile zaten belgeler

incelenmeden önce belirlenmi � tir. Yani, yazılı dilin kuralları gere� i

kullanılması gereken, ancak içeri � e katkısı olmadı � ı dü� ünülen


313

kelimeler önemsiz olarak kabul edilir. Durma listeleri bu kelimelerden

olu� turulur ve her belgeden bu kelimeler ayıklanır. Önemsiz oldu� u

dü� ünülen kelimeler, örne� in sözcük türü olarak edatlar olabilir. Bu

sözcük türündeki kelimeler gerçekten, dilbilgisi kuralları gere� i

kullanılır. Ama, “belgenin içeri � ine katkısı açısından önemi yoktur”

� eklinde bir kabullenme, daha belgeler belli de� ilken pek do� ru

olmayabilir. Örne� in, bir derlem, dilbilgisi ile ilgili belgelerden

olu� uyorsa ve edatları anlatan belgeler varsa, BGG sisteminden bir

ba� arım beklenmesi söz konusu olamaz. Tabii, kabullenme tamamen

yanlı � tır da denemez. Bu � ekilde önceden önemsiz oldu� u ba� tan kabul

edilen kelimeler, frekans yakla� ımı içinde yüksek de� erlere sahip

olanlardır. Zipf güç kanunları incelemesinde, i � lev kelimeler bu yüzden

belirli bir frekansın üzerinde gözlenme sıklı � ına sahip olanlardan

olu� turulmu� tur. Özetleyecek olursak, geleneksel BGG sistemleri

içinde indeks terimlerin seçimi açısından önem kavramı, görülme

sıklı � ı ile izah edilmektedir. Burada kastedilen önem, tabii terimin

belge içeri � ine yaptı � ı katkının büyüklü� ü ile orantılıdır.

Tanımladı � ımız bakı � açısından geri-getirim yöntemlerinin önerdi � i

a� ırlıklandırma yöntemleri dü� ünüldü� ünde, her iki i � levi de yerine

getirdi � i söylenebilir. A � ırlıklandırma yöntemi, bir terim ile bir belgeyi

önem açısından a� ırlıklandırırken, aynı zamanda o terimin indeks terim

olarak seçilme a� ırlı � ını da belirlemektedir. Uygulamada, önemsiz

terimlerin, yani i � lev kelimelerin ba� tan ayıklanması, geri-getirim

yönteminin belirleyicili � i açısından bir gürültü olu� turmasından ve

ba� arımı dü� ürmesinden kaynaklanmaktadır. Deneysel çalı � malarda,

söz konusu kabullenme yapılmayacaktır, yani ba� tan aday kelimeler

önemli veya önemsiz � eklinde ayrılmayacaktır. Bu sayede, geleneksel

uygulamaların izledi � i yolun en ba� ında kalınacak, daha do� rusu hiçbir

ön kabullenme olmaksızın ba� arımlar ele alınabilecek, dolayısı ile

yansız bir de� erlendirme sa� lanacaktır. Geleneksel bakı � açısı kabul


314

edilmedi � i için, ne durma listesi içindeki kelimeler ayıklanacak, ne

gövdeleme yapılacak, ne de bu bakı � açısının do� rultusunda ba� arım

sa� ladı � ı gösterilen ba� ka yöntemler devreye alınacaktır. Derlemde

gözlenen tüm kelimelere e� it � ans tanınacak, bu � ekilde yalın bir

de� erlendirme içinde katkı sa� lanıp sa� lanmadı � ı sınanmı � olacaktır.

Geleneksel bakı � açısı do� rultusunda katkı sa� ladı � ı ispatlanmı �

yöntemlerin kullanılması, yalın de� erlendirme sonucu ister olumlu,

ister olumsuz olsun üzerine yapılması gereken deneylerdir. Burada

sınanmaya çalı � ılan, dilbilgisi özelliklerinin en temelde katkı sa� layıp

sa� lamadı � ıdır, yani dilbilgisi özelliklerinin ek bir enformasyon ta� ıyıp

ta� ımadı � ının belirlenmesidir. Bir bakı � açısı içerisinde yer alan

yöntemlerle, e� er varsa söz konusu ek enformasyonun, ne tür bir ili � ki

içinde oldu� unun ara� tırılması bir ba� ka u� ra� tır ve tez kapsamımızın

dı � ındadır.

Tez kapsamında hedefimiz, dilbilgisi özellikleri ile geri-getirim

ba� arımını arttırmak, yani katkı sa� lamaktır. Bir katkı olup olmadı � ının

anla� ılması için, öncelikle geleneksel yöntemlerin Türkçe için yalın

olarak ba� arımları belirlenecek ve elde edilen en iyi ba� arım de� eri e� ik

düzey olarak kabul edilip, dilbilgisi özelliklerinin anlamlı bir de� i � im

yaratıp yaratmadı � ı açısından sınanacaktır.

11.2.1. Türkçe için E � ik Ba� arım

Türkçe için ba� arım açısından sınanıp, en iyisi e� ik de� er olarak

belirlenecek geri-getirim yöntemleri üç tanedir: Okapi (Robertson and

Walker, 2000), Ltu (Buckley et al., 1996), TFxIDF. Ayrıca, kelimelerin

sadece görülme sıklıkları, yani tf olarak adlandıraca� ımız bir kontrol

yöntemimiz de vardır. Dolayısı ile deneysel çalı � ma dört geri-getirim


315

yöntemi üzerinden gerçekle� tirilecektir. Deneysel derlem olarak,

OSTAD kullanılacaktır. Geri-getirim yöntemlerinin ba� arımlarının

sınanması için kullanılacak yöntem, üstel-puanlama’ dır (Bölüm 8).

Türkçe için sınanacak geri-getirim yöntemlerinin biçimsel ifadeleri,

Denklem 11.2.1.1.’de Okapi, Denklem 11.2.1.2.’de Ltu ve Denklem

11.2.1.3.’de TFxIDF olmak üzere verilmi � tir.

df

dfN

tfdlavg

dltf

)5.0

5.0log(

_5.15.0 +

+−

++

(11.2.1.1)

dlavg

dldf

Ntf

_2.08.0

)log()1)(log(

+

+ (11.2.1.2)

df

Ntf )log(* (11.2.1.3)

Denklemlerde, tf terimi, bir terimin belge içindeki görülme

sıklı � ını; df terimi bir terimin gözlendi � i belge sayısını; dl terimi,

belgenin uzunlu� u; avg_dl terimi, derlemdeki belgelerin ortalama

uzunlu� u; N terimi, derlem içindeki toplam belge sayısını temsil

etmektedir. Aslen denklemlerde verilen ifadeler, a� ırlıklandırma

hesaplamalarıdır. Bu hesaplamaların tamamı, vektör uzayı geri-getirim

modelini esas almaktadır. Geri-getirim yöntemi olarak da

adlandırılmalarının sebebi, a� ırlıklandırma hesabının, bir geri-getirim

yönteminin özünü olu� turmasından kaynaklanır. Okapi ve Ltu, son

zamanlarda, � ngilizce için yapılan çalı � malarda en yüksek ba� arımları

elde etmi � yöntemlerdir. TFxIDF ise, vektör uzayı modelinin bilinen ilk

hesaplama yöntemidir. Aslen, Okapi ve Ltu, TFxIDF ifadesinden

türetilmi � tir. Dayandıkları mantık aynıdır.


316

Söz konusu yöntemlerin, OSTAD derlemi üzerinde deneysel

olarak, üstel-puanlama yöntemi ile ba� arım sınamasının sonuçları,

Çizelge 11.2.1.2.’de tablo halinde, � ekil 11.2.1.1.’de ise çizge halinde

verilmi � tir.

Çizelge 11.2.1.2: Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.

Üstel PuanTF 1.2731TFxIDF 1.2959Okapi 1.2763Ltu 1.2908

TF

TFxIDF

Okapi

Ltu

1.2700

1.2750

1.2800

1.2850

1.2900

1.2950

1.3000

Üstel Puan

�ekil 11.2.1.2: Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak,

üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.

Alınana sonuçlara göre, TFxIDF yöntemi Türkçe için di � er

yöntemlerden çok daha yüksek bir ba� arım sergilemi � tir. Geri-getirim

yöntemlerinin üçü de, istatistiksel olarak 0.05 anlamlılık düzeyinde


317

birbirlerinden farklıdır (Friedman test istatisti � i23, p-de� eri 0.04). Ba� ta belirtildi � i gibi, terimlerin yalın gözlenme sıklıkları ile kontrol için

olu� turdu� umuz tf yöntemi, beklendi � i gibi en kötü sonucu vermi � tir. Kontrolün amacı, varsa farklılı � ın, yani de� i � imin yönünü tayin

edebilmektir. � statistiksel farklılık sınamaları, de� i � imin yönü

konusunda bilgi vermezler. Üstel-puanlama yönteminin, ortalama

duyarlılık ile oransal sonuçlar verdi � i belirtilmi � tir, ancak Türkçe için

yaratılan farklılı � ın iyi yönde oldu� unu da garanti altına almak için

kontrol yapılmı � tır.

Sonuç olarak, TFxIDF Türkçe için, deneysel derlemimiz olan

OSTAD üzerinde en yüksek ba� arımı sa� layan yöntem olmu� tur. Bu

sonuç, � ngilizce için alınan sonuçlar ile tezat olu� turmaktadır. � ngilizce

için yapılan sınamalarda, Okapi en iyi ba� arımı göstermi � , ardından

sırasıyla Ltu ve TFxIDF gelmi � tir. Bunun sebebi aslında açıktır. Okapi

ve Ltu yöntemleri, parametrik yöntemlerdir. Parametreler, � ngilizce

talim derlemlerinde elde edilen en yüksek ba� arım noktalarındaki

de� erlere e� ittir. Dolayısı ile, ba� ta � ngilizce olmak üzere, talim

edildikleri derleme inceltilmi � tir. Türkçe için aynı sonuçları vermeleri,

beklenen bir durum de� ildir. Ancak, Ltu yönteminin Okapi

yönteminden daha genellenebilir oldu� unu da söylemek gerekir.

11.2.2. � ndeks Ter im Seçimi ve A � ır lıklandırma

Bir geri-getirim yöntemi, belge içeri � ini temsil açısından

terimlere, önemleri ile orantılı olarak a� ırlıklandırma yapmayı

ba� ardı � ı miktarda, bir BGG sisteminin ba� arımını arttırabilir (Bölüm

23 Friedman istatisti � i, parametrik olmayan bir yöntemdir. Aslen 2-yönlü ANOVA parametrik istatisti � inin, parametrik olmayan kar � ılı� ıdır.


318

8.3). Bir ba� ka söyleyi � le, bir geri-getirim yöntemi belgeler için içeri � e

katkıda bulunan terimleri, yani indeks terimleri, i � lev terimlerden yani,

içeri � e katkısı olmayan terimleri birbirinden ayırt edebildi � i miktarda,

BGG sisteminin ba� arımını arttırabilir.

OSTAD derleminde, seçilen her belge için elle indeks terimler

i � aretlenmi � tir. Dilbilgisi özelliklerinin katkısını ölçmek için, Türkçe

için en yüksek geri-getirim ba� arımına sahip olan TFxIDF yöntemi ile

atanmı � a� ırlıklar e� ik belirleyicilik olarak kullanılacaktır. TFxIDF

yöntemi ile indeks terimlerin belirlenebilmesi ile dilbilgisi özellikleri

de kullanılarak belirlenmesi arasında anlamlı bir farklılık olup

olmadı � ına bakılacaktır. Dolayısı ile, ba� arım üzerindeki etkisi de aynı

zamanda ortaya konmu� olacaktır. OSTAD derleminde yapılan söz

konusu deneysel çalı � malarda, belge yerine paragraflar kullanılmı � tır.

TFxIDF yöntemi ile a� a� ıdaki paragraf için hesaplanarak atanmı �

a� ırlıklar Çizelge 11.2.2.1.’de örnek olarak verilmi � tir.

“ AB'ye uyum süreci nedeniyle hazırlanan azınlık cemaatleri vakıflarının mal edinmelerini düzenleyen yönetmelik kapsamına alınmayan Süryani ve Protestanlar isyan etti . Yönetmelikle , sadece Lozan Antla � ması'na göre azınlık statüsü tanınan Rumlar , Ermeniler ve Yahudi cemaatlerine mülk edinme hakkı verilmesi tartı � ma yarattı . “


319

Çizelge 11.2.2.1: Örnek paragrafın TFxIDF a� ılıkları.

Bir lik TFxIDF ind Bir lik TFxIDF indazınlık 14.0741786 1 tartı � ma 7.622051819 1alınmayan 8.62205182 0 rumlar 7.622051819 1cemaatleri 8.62205182 1 hazırlanan 7.622051819 0edinmelerini 8.62205182 0 cemaatlerine 7.622051819 1ermeniler 8.62205182 1 ab'ye 7.037089319 1isyan 8.62205182 1 düzenleyen 7.037089319 0lozan 8.62205182 1 edinme 7.037089319 0protestanlar 8.62205182 1 mülk 7.037089319 1statüsü 8.62205182 0 kapsamına 6.622051819 0süreci 8.62205182 0 yönetmelikle 6.622051819 1vakıflarının 8.62205182 1 uyum 6.300123725 0yönetmelik 8.62205182 1 mal 5.814696897 1yahudi 7.62205182 1 sadece 5.814696897 0yarattı 7.62205182 0 nedeniyle 5.037089319 0verilmesi 7.62205182 0 göre 4.229734397 0süryani 7.62205182 1 ve 3.090472445 0tanınan 7.62205182 0

Çizelge’de örnek paragraf için verilen TFxIDF de� erlerinde

görüldü� ü gibi, örne� in “yahudi” ve “ yarattı” terimleri aynı a� ırlı � a

sahiptir. E� er TFxIDF mükemmel bir a� ırlıklandırma yapıyor olsaydı,

tüm indeks terimlerin, a� ırlı � ın azalan sıralamasında üst kısımlarda;

tüm i � lev kelimelerde sıralamanın altlarında olması gerekirdi. Aslen

“ tartı � ma yaratmak” birle� ik olarak, “ tartı � ma” ve “ yaratma”

kelimelerinden önem olarak farklıdır. Paragrafın konusu: azınlık

statüsünün Süryaniler ve Protestanlar arasında yarattı � ı tartı � ma ve

isyandır.

TFxIDF yöntemi ile atanmı � a� ırlıkların azalan sırasına göre

terimler listelendi � inde, söz konusu belge (paragraf) için terimlerin

önemlerine göre de azalan bir sıralama yapılmı � olmaktadır. Dolayısı

ile, 1. sırada listelenen terim en önemli, son sırada listelenen terim de

en önemsiz terim olmaktadır. E� er bu belge, içindeki her hangi bir


320

terim veya terimler için sorgulanacak olursa, belgenin sistem tarafından

geri-getirilen sonuç listesinde, verilen bu sıralama ile do� ru orantıl ı

olarak di � er belgelere göre bir sıralamaya konacaktır. � ndeks terimleri,

i � lev kelimelerinden daha yukarda olan bir belge, genel sonuç

listesindeki sıralamada da üst sıralarda olacaktır. Dolayısı ile, BGG

sisteminin ba� arımı olması gereken ideal noktaya do� ru

yakınsayacaktır. Yöntemlerin ba� arımlarını kar � ıla� tırmak için, her

yöntemin sıralamada indeks terimlerin ne kadar önce listeledi � i ölçüt

olarak kullanılabilir. Bu tür bir ölçütün sayısal de� erleri, Bölüm 8.1.’de

anlatılan duyarlılık esasına dayalı olarak elde edilebilir. Belirli bir

yöntemin, bir belgenin terimleri için verdi � i sıralamada, yukarıdan

a� a� ı inerken kar � ıla� ılan indeks terim sayısının sıra numarasına oranı

bize duyarlılık de� erini verecektir. Örnek paragraf üzerinden, TFxIDF

ile yapılan a� ırlıklandırma sonucunda hesaplanan duyarlılık de� erleri

Çizelge 11.2.2.2.’de tablo halinde verilmi � tir.

Çizelge 11.2.2.2: Örnek paragrafın, TFxIDF a� ırlıkları üzerinden duyarlılık de� erleri.

Bir lik TFxIDF ind Sıra Duy Bir lik TFxIDF ind Sıra Duyazınlık 14.0742 1 1 1.000 tartı � ma 7.6221 1 18 0.611alınmayan 8.6221 0 2 0.500 rumlar 7.6221 1 19 0.632cemaatleri 8.6221 1 3 0.667 hazırlanan 7.6221 0 20 0.600edinmelerini 8.6221 0 4 0.500 cemaatlerine 7.6221 1 21 0.619ermeniler 8.6221 1 5 0.600 ab'ye 7.0371 1 22 0.636isyan 8.6221 1 6 0.667 düzenleyen 7.0371 0 23 0.609lozan 8.6221 1 7 0.714 edinme 7.0371 0 24 0.583protestanlar 8.6221 1 8 0.750 mülk 7.0371 1 25 0.600statüsü 8.6221 0 9 0.667 kapsamına 6.6221 0 26 0.577süreci 8.6221 0 10 0.600 yönetmelikle 6.6221 1 27 0.593vakıflarının 8.6221 1 11 0.636 uyum 6.3001 0 28 0.571yönetmelik 8.6221 1 12 0.667 mal 5.8147 1 29 0.586yahudi 7.6221 1 13 0.692 sadece 5.8147 0 30 0.567yarattı 7.6221 0 14 0.643 nedeniyle 5.0371 0 31 0.548verilmesi 7.6221 0 15 0.600 göre 4.2297 0 32 0.531süryani 7.6221 1 16 0.625 ve 3.0905 0 33 0.515tanınan 7.6221 0 17 0.588


321

Çizelgede duyarlılık hesabı yapılırken, sıra numarası her terim

için bir artarak verilmi � tir. Aslen, aynı a� ırlıktaki terimlerin e� it sıra

numaralarına sahip olmaları gerekmektedir. Ancak, aynı a� ırlı � a sahip

terimler de bir � ekilde kendi içinde sıralanmak zorundadır. Bu gurup içi

sıralama için, TFxIDF bir belirleyicilik sa� layamamaktadır. Dolayısı

ile, aynı a� ırlıkta olan terimler rasgele bir sıraya sahip olabilir. Bizde

rasgele bir sıralama seçtik. Bu noktada, Zipf güç kanunları

incelemesinde kelime da� arcı � ını olu� turan kelimelerin, derlemde

yalnızca bir kez gözlenenlerinin, kelime da� arcı � ının %50’ye yakınını

olu� turdu� unu bir kez daha hatırlatmak istiyoruz. TFxIDF veya türevi

bir a� ırlıklandırma yöntemi ile terimler ele alındı � ında, bir kez

gözlenen terimlerin tamamı aynı sıra numarasına sahip olacaktır. Bu da,

derlemdeki belgeleri olu� turan kelimelerin yakla� ık yarısı konusunda

TFxIDF yönteminin belirleyicili � i olamayaca� ı anlamına gelmektedir.

11.2.3. Dilbilgisi Özellikler inin Ba� arıma Etkisi

Türkçe için, dilbilgisi özelliklerinin indeks terimler üzerindeki

da� ılımları ve indeks terimlerin dilbilgisi üzerindeki da� ılımları

çıkarılmı � tı (Bölüm 11.1). Bu da� ılımların BGG sistemlerinin ba� arımı

üzerindeki etkisi, belge içinde terimleri sıralarken indeks terimleri

sıralamada ne kadar önce listeledi � i i le ölçülecektir. TFxIDF Türkçe

için, kar � ıla� tırılan yöntemler arasında ba� arımı en yüksek olandır.

Dolayısı ile, e� er indeks terimler dilbilgisi özellikleri ile sa� lanan

sıralamada, TFxIDF ile sa� lanan sıralamadakinden anlamlı düzeylerde

önce listeleniyorsa; dilbilgisi özelliklerinin indeks terim seçiminde,

dolayısı ile BGG sistemlerinin ba� arımları üzerinde, “anlamlı düzeyde

katkı olmadı � ı” önermesini reddedebilecek istatistiksel delilin,


322

elimizdeki derlemden elde edildi � i veya elde edilemedi � i sonucuna

varılacaktır.

TFxIDF ile sa� lanan sıralama ile, her dilbilgisi özelli � i üzerinden

sa� lanan sıralamalar, istatistiksel olarak anlamlı bir farklılı � a sahip

olup olmadıkları açısından kar � ıla� tırılacaktır. Bu iki kar � ıla� tırmalar

için kullanılacak parametrik olmayan istatistik, Wilcoxon i � aret testidir.

Wilcoxon i � aret testi, iki adet ili � kili veri kümesinin aynı da� ılımdan

geldi � i hipotezini sorgular. Bizim durumumuzda, iki veri kümesi,

TFxIDF ile olu� turulan sıralama ve bir dilbilgisi özelli � i i le olu� turulan

sıralamadır. � li � kili olmalarının sebebi, aynı terim için sıra

belirtmelerinden kaynaklanır. Anlamlı farklılık bulmaya çalı � tı � ımız

durum da, dilbilgisi özelli � i ile yapılan sıralamada, indeks terimlerin

TFxIDF ile yapılan sıralamadakinden daha üstlerde yer almasıdır.

Örnek paragraf için verilen çizelgede, yöntemin sıralamasına kar � ılık

gelen “duyarlıklık” de� erleri, sıralamanın indeks terimlere ne kadar

duyarlı oldu� unu vermektedir. Bir ba� ka yöntem ile yapılan

sıralamanın duyarlılı � ı farklı olacaktır. E� er elimizde iki yöntem varsa,

bu yöntemlerle önce a� ırlıklar atayıp, sıralamalar elde edilirse ve

örne� in her iki sıralama için duyarlılıklar hesaplanırsa; iki yöntemin

duyarlılıkları arasında anlamlı bir farklılık olup olmadı � ına, Wilcoxon

test istatisti � i i le bakılabilir ve hangi yöntemin indeks terimleri

sıralamada daha yukarıda topladı � ı belirlenebilir. Ancak, bu

anlattı � ımız senaryo ile, iki yöntemin bir belge üzerindeki sınaması

yapılabilir, bir çok belgeden olu� an bir derlemde, genel olarak anlamlı

bir farklılık olup olmadı � ına bakmak için bir uyarlama yapmak gerekir.

Uyarlamanın mantı � ı � öyledir: bir belgede indeks terimlerin ne kadar

yukarıda toparlandı � ını, e� it ölçekte tek bir de� ere indirgeyip, belge

içinde terimler için yaptı � ımız sınamayı, derlem içinde belgeler

üzerinde gerçekle� tirebiliriz. Her belgenin e� it ölçekte, tek bir de� er ile


323

indeks terimlerini sıralamada ne kadar yukarda kümeledi � ini ölçmek

için, Bölüm 8.2.’de tanıtılan Rnorm de� erleri kullanılabilir. Rnorm

ölçütünün özgün tanıtımı, yapılan bir sorgu için sonuç kümesinde

alakalı belgelerin ne kadar önce listelendi � ini belirleme amacıyla

verilmi � tir. Bu tanımlama, basitçe elimizdeki duruma benzetilebilir. Bir

belgenin içeri � ini, temsilde önemi olan kelimeler indeks terimlerdir.

E� er bir yöntem belge içinde, indeks terimleri sıralamada bir ba� ka

yöntemden daha yukarıda kümeliyorsa, yani indeks terimlere daha fazla

a� ırlık atıyorsa, bu yöntemin geri-getirece� i sonuç listesinde, söz

konusu belge daha üst sıralarda olacaktır. Yani, her belge içinde, bir

yöntemle elde edilmi � sıralama için, Rnorm de� erleri hesaplanır ve bu

de� erlerle yapılan belge sıralamasının da, belgelerin, indeks terimlerle

olu� turulabilecek olası tüm sorgulara kar � ı, en iyi sıralamasını (Tanım

8.2.1.’de belirtilen olasılık sıralama ilkesi) verdi � i kabul edilirse; iki

yöntemden belgeler için elde edilecek Rnorm de� erleri ile, yine

Wilcoxon test istatisti � i kullanılarak, bu defa derlem genelinde anlamlı

farklılık sınanabilir. Bu tezde, dilbilgisi özellikleri ile olu� turulan

sıralama ve TFxIDF ile elde edilen sıralamalar, yukarıda anlatıldı � ı gibi

düzenlenerek derlem genelinde anlamlı farklılık sınamaları yapılmı � tır.

Dilbilgisi özelliklerinden, sözcük türü ve cümle unsuru hem ayrı

olarak hem de birlikte ba� arım üzerindeki etkisi açısından

de� erlendirilecektir. Kelime gurubunun (2 kelimeden olu� an guruplar)

katkısı ise ayrıca de� erlendirilecektir.

11.2.3.1 Sözcük türünün ba� arım de� erlendirmesi

Sözcük türlerinin tek ba� ına belge içindeki terimlere atanacak

a� ırlıklar, sözcük türünün indeks terim olması olasılı � ıdır. Özel isim


324

sözcük türü de bu de� erlendirmeye alınmı � tır. TFxIDF için

kullandı � ımız örnek paragrafa, sözcük türleri ile atanmı � a� ılıklar ve

kar � ılık gelen duyarlılık de� erleri Çizelge 11.2.3.1.1.’de tablo halinde

verilmi � tir.

Çizelge 11.2.3.1.1: Örnek paragrafın, sözcük türü ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.

Bir lik SözT A � ır lık ind Sıra Duy Bir lik SözT A � ır lık ind Sıra Duyab'ye Noun 1.0000 1 1 1.00 nedeniyle Noun 0.6378 0 18 0.67ermeniler Noun 1.0000 1 2 1.00 edinmelerini Noun 0.6378 0 19 0.63lozan Noun 1.0000 1 3 1.00 edinme Noun 0.6378 0 20 0.60protestanlar Noun 1.0000 1 4 1.00 isyan Noun 0.6378 0 21 0.57rumlar Noun 1.0000 1 5 1.00 kapsamına Noun 0.6378 0 22 0.55süryani Noun 1.0000 1 6 1.00 azınlık Noun 0.6378 1 23 0.57yahudi Adj 1.0000 1 7 1.00 cemaatleri Noun 0.6378 0 24 0.54yönetmelik Noun 0.6378 1 8 1.00 cemaatlerine Noun 0.6378 0 25 0.52yönetmelikle Noun 0.6378 1 9 1.00 alınmayan Adj 0.1705 0 26 0.50süreci Noun 0.6378 0 10 0.90 hazırlanan Adj 0.1705 0 27 0.48tartı � ma Noun 0.6378 1 11 0.91 düzenleyen Adj 0.1705 0 28 0.46uyum Noun 0.6378 0 12 0.83 tanınan Adj 0.1705 0 29 0.45vakıflarının Noun 0.6378 0 13 0.77 yarattı Verb 0.0525 0 30 0.43verilmesi Noun 0.6378 0 14 0.71 sadece Adv 0.0183 0 31 0.42statüsü Noun 0.6378 0 15 0.67 göre Postp 0.0000 0 32 0.41mal Noun 0.6378 1 16 0.69 ve Conj 0.0000 0 33 0.39mülk Noun 0.6378 1 17 0.71

Çizelgede, sözcük türü ile atanan a� ırlıkların, TFxIDF ile atanan

a� ırlıklardan daha iyi bir sıralama yaptı � ı gözle de görülmektedir.

Sözcük türü ile yapılan a� ırlık atamasında 1 de� eri olanlar, özel

isimlerdir. Dolayısı ile, özel isimlerin etkisi oldukça yüksektir. TFxIDF

ve sözcük türü ile atanan a� ırlıkların, indeks terimleri sıralama içinde

kümeledikleri yerler için, derlem genelinde Wilcoxon i � aret testi ile

yapılan kar � ıla� tırma sonuçları Çizelge 11.2.3.1.2.’de tablo halinde

verilmi � tir.


325

Çizelge 11.2.3.1.2: OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve sözcük türü a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.

SözT - TFxIDF N Ortalama Toplam Z Sig(-) Sıralar 39 76.5513 2985.5000 -14.6673 0.00(+) Sıralar 312 188.4311 58790.5000E � itlik 43Toplam 394

Çizelge’de Wilcoxon test istatisti � i için elde edilen sonuçlar

görülmektedir. Bundan sonraki tüm sonuçlar da benzer � ekilde

verilece� i için, burada tablo detaylı olarak anlatılacak, ilerleyen

kısımlarda, sadece sonuçlar yorumlanacaktır. “SözT-TFxIDF” ba� lı � ı,

testin hangi de� i � kenler arasında gerçekle� ti � ini belirtir. Testte, iki

de� i � kenin e� le� tirilmi � de� erleri (Rnorm) arasındaki farklar bulunur.

Tabii, birinci de� i � ken, yani “SözT” kısaltması ile temsil edilen sözcük

türü, için de� er, ikinci de� i � ken, yani “TFxIDF” için de� erden büyükse,

fark pozitif olaca� ından, (+) sıra numaraları elde edilir. E� er, tersi ise,

(-) negatif sıra de� erleri elde edilir. E� er, iki de� i � kenin de� erleri, söz

konusu belge için e� itse, “e� itlik” olur. Testte, pozitif olan sıra

numaraları, negatif olan sıra numaraları ve e� itlik durumları kendi

içinde toplanır. “N” sütununda pozitif, negatif ve e� it olarak tespit

edilen sıra numaralarının sayısı vardır, en alt satırda da, “Toplam” sıra

numarası verilmi � tir. “Ortalama” sütunu, her üç gurubun kendi içinde

sıra numaralarının, mutlak de� er toplamları (“Toplam” sütunu)

üzerinden ortalamalarını listeler. � statistik, mutlak de� er toplamı en

küçük olan gurup için gerçekle� tirilir: bizim durumumuzda (-) farka

sahip de� erlerin sıra numaraları toplamı en küçük oldu� u için, test bu

gurup üzerine kurulmu � tur. “Z” sütununda, (-) sıra gurubundaki, sıra

numaralarının mutlak de� er toplamı, standart de� er olarak verilmi � tir.


326

“Sig” sütunundaki de� er, iki yöntemle atanan de� erlerin (Rnorm)

birbirinden anlamlı olarak farklı olup olmadı � ını gösterir. Bu de� erin:

büyük olması, “ farklılı � ın olmadı � ı” hipotezini reddedecek delilin,

deney kümesinden elde edilemedi � ini gösterir. Bizim durumumuz için

de� er 0’dır, yani anlamlılı � ın 0.05 düzeyinde, iki yöntem arasında bir

farklılık bulunmu� tur. Dolayısı ile, deneysel derlemimiz için, sözcük

türü enformasyonu esasında bir BGG sisteminin ba� arımı ile TFxIDF

esasında bir BGG sisteminin ba� arımlarının e� it olaca� ı hipotezini

reddedebilecek kadar delil vardır sonucuna varıyoruz. Yarıca, pozitif

(+) guruba dahil olan sıra numaralarının mutlak de� er toplamlarının,

negatif (-) guruba dahil olan sıra numaralarının mutlak de� er

toplamından büyük olması sebebiyle, farklılı � ın, sözcük türü lehinde

oldu� una da karar veriyoruz.

11.2.3.2 Cümle unsurlarının ba� arım de� erlendirmesi

Cümle unsuru incelemesinde, sözcük türü için kullandı � ımız

yöntemin benzeri kullanılacaktır. Bu defa, sözcük türü yerine cümle

unsurunun indeks terim da� ılımları a� ırlık olarak kabul edilecektir.

Örnek paragrafın cümle unsurları ile atanmı � a� ılıklar ve kar � ılık gelen

anma ve duyarlılık de� erleri Çizelge 11.2.3.2.1.’de tablo halinde

verilmi � tir.


327

Çizelge 11.2.3.2.1: Örnek paragrafın, cümle unsurları ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.

Bir lik CümU A � ır lık ind Sıra Duy Bir lik CümU A � ır lık ind Sıra Duyazınlık Clas 0.7782 1 1 1.00 edinmelerini Obj 0.5622 0 18 0.56mülk Clas 0.7782 1 2 1.00 ermeniler Obj 0.5622 1 19 0.58uyum Clas 0.7782 0 3 0.67 tartı � ma Obj 0.5622 1 20 0.60yahudi Clas 0.7782 1 4 0.75 tanınan Mod 0.1517 0 21 0.57yönetmelik Clas 0.7782 1 5 0.80 süreci Mod 0.1517 0 22 0.55verilmesi Sub 0.7671 0 6 0.67 sadece Mod 0.1517 0 23 0.52vakıflarının Sub 0.7671 0 7 0.57 yönetmelikle Mod 0.1517 1 24 0.54süryani Sub 0.7671 1 8 0.63 göre Mod 0.1517 0 25 0.52rumlar Sub 0.7671 1 9 0.67 düzenleyen Mod 0.1517 0 26 0.50statüsü Sub 0.7671 0 10 0.60 cemaatleri Mod 0.1517 0 27 0.48protestanlar Sub 0.7671 1 11 0.64 nedeniyle Mod 0.1517 0 28 0.46edinme Sub 0.7671 0 12 0.58 hazırlanan Mod 0.1517 0 29 0.45cemaatlerine Dat 0.6116 0 13 0.54 alınmayan Mod 0.1517 0 30 0.43kapsamına Dat 0.6116 0 14 0.50 isyan Sen 0.0959 0 31 0.42ab'ye Dat 0.6116 1 15 0.53 yarattı Sen 0.0959 0 32 0.41lozan Obj 0.5622 1 16 0.56 ve Coo 0.0391 0 33 0.39mal Obj 0.5622 1 17 0.59

TFxIDF ve cümle unsuru ile atanan a� ırlıkların, indeks terimleri,

sıralama içinde kümeledikleri yerler için, derlem genelinde Wilcoxon

i � aret testi ile yapılan kar � ıla� tırma sonuçları da, Çizelge 11.2.3.2.2.’de

tablo halinde verilmi � tir.

Çizelge 11.2.3.2.2: OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve cümle unsuru a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.

CümU - TFxIDF N Ortalama Toplam Z Sig(-) Sıralar 45 100.4556 4520.5000 -13.8936 0.00(+) Sıralar 307 187.6466 57607.5000E � itlik 42Toplam 394

“Sig” de� eri 0’dır, yani anlamlılı � ın 0.05 düzeyinde, cümle

unsuru ile TFxIDF arasında, bir farklılık bulunmu� tur. Dolayısı ile,

deneysel derlemimiz için, cümle unsuru enformasyonu esasında bir


328

BGG sisteminin ba� arımı ile TFxIDF esasında bir BGG sisteminin

ba� arımlarının e� it olaca� ı hipotezini reddedebilecek kadar delil vardır

sonucuna varıyoruz. Ayrıca, pozitif (+) guruba dahil olan sıra

numaralarının mutlak de� er toplamlarının, negatif (-) guruba dahil olan

sıra numaralarının mutlak de� er toplamından büyük olması sebebiyle,

farklılı � ın, cümle unsuru lehinde oldu� una da karar veriyoruz.

11.2.3.3 Sözcük türü ve cümle unsuru birlikte de� erlendirme

Örnek paragrafın cümle unsurları ile atanmı � a� ılıklar ve kar � ılık

gelen anma ve duyarlılık de� erleri Çizelge 11.2.3.2.1.’de tablo halinde

verilmi � tir.

Çizelge 11.2.3.3.1: Örnek paragrafın, cümle unsuru ve sözcük türü ile birlikte atanan a� ırlıkları üzerinden duyarlılık de� erleri.

Bir lik SözT CU A � ır lık ind Sıra Duy Bir lik SözT CU A � ır lık ind Sıra Duyab'ye Noun Dat 1.0000 1 1 1.00 edinmelerini Noun Obj 0.5999 0 18 0.56ermeniler Noun Obj 1.0000 1 2 1.00 mal Noun Obj 0.5999 1 19 0.58lozan Noun Obj 1.0000 1 3 1.00 tartı � ma Noun Obj 0.5999 1 20 0.60protestanlar Noun Sub 1.0000 1 4 1.00 isyan Noun Sen 0.3576 0 21 0.57rumlar Noun Sub 1.0000 1 5 1.00 nedeniyle Noun Mod 0.3097 0 22 0.55süryani Noun Sub 1.0000 1 6 1.00 cemaatleri Noun Mod 0.3097 0 23 0.52yahudi Adj Clas 1.0000 1 7 1.00 süreci Noun Mod 0.3097 0 24 0.50verilmesi Noun Sub 0.8189 0 8 0.88 yönetmelikle Noun Mod 0.3097 1 25 0.52vakıflarının Noun Sub 0.8189 0 9 0.78 tanınan Adj Mod 0.1543 0 26 0.50statüsü Noun Sub 0.8189 0 10 0.70 düzenleyen Adj Mod 0.1543 0 27 0.48edinme Noun Sub 0.8189 0 11 0.64 hazırlanan Adj Mod 0.1543 0 28 0.46azınlık Noun Clas 0.8008 1 12 0.67 alınmayan Adj Mod 0.1543 0 29 0.45mülk Noun Clas 0.8008 1 13 0.69 yarattı Verb Sen 0.0486 0 30 0.43uyum Noun Clas 0.8008 0 14 0.64 sadece Adv Mod 0.0144 0 31 0.42yönetmelik Noun Clas 0.8008 1 15 0.67 ve Conj Coo 0.0000 0 32 0.41kapsamına Noun Dat 0.6451 0 16 0.63 göre Postp Mod 0.0000 0 33 0.39cemaatlerine Noun Dat 0.6451 0 17 0.59

TFxIDF ile atanan a� ırlıklar ile sözcük türü ve cümle unsuru ile

atanan a� ırlıkların, indeks terimleri, sıralama içinde kümeledikleri

yerler için, derlem genelinde Wilcoxon i � aret testi i le yapılan


329

kar � ıla� tırma sonuçları da, Çizelge 11.2.3.3.2.’de tablo halinde

verilmi � tir.

Çizelge 11.2.3.3.2: OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF ile sözcük türü ve cümle unsuru birlikte, yapılan a� ırlıklandırma ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.

SözCüm - TFxIDF N Ortalama Toplam Z Sig(-) Sıralar 13 89.0769 1158.0000 -15.7303 0.00(+) Sıralar 342 181.3801 62032.0000E � itlik 39Toplam 394

“Sig” de� eri 0’dır, yani anlamlılı � ın 0.05 düzeyinde, sözcük türü

ve cümle unsurunun birlikte kullanılması ile TFxIDF arasında bir

farklılık bulunmu� tur. Dolayısı ile, deneysel derlemimiz için, sözcük

türü ve cümle unsurunun birlikte kullanılmasından elde edilen

enformasyon esasında bir BGG sisteminin ba� arımı ile TFxIDF

esasında bir BGG sisteminin ba� arımlarının e� it olaca� ı hipotezini

reddedebilecek kadar delil vardır, sonucuna varıyoruz. Ayrıca, pozitif

(+) guruba dahil olan sıra numaralarının mutlak de� er toplamlarının,

negatif (-) guruba dahil olan sıra numaralarının mutlak de� er

toplamından büyük olması sebebiyle, farklılı � ın, cümle unsuru lehinde

oldu� una da karar veriyoruz.

11.2.3.4 Kelime guruplarının de� erlendirilmesi

Kelime gurupları üzerine genel indeks terim da� ılımları

incelenirken belirtti � imiz gibi, kelime guruplarını, sözcük türü dizileri

olarak ele alıyoruz. Dolayısı ile, tek kelimeden olu� mu� indeks terim


330

listesinde, a� ırlıklandırma yöntemine (Okapi, Ltu ve TFxIDF) ek

olarak kullanıyoruz. Herhangi bir yöntemle, kelime gurubunu

katı � tırmak için izlenen yol, seçilebilecek en basit yoldur. Farklı olarak,

daha karma� ık dil modelleri üzerinde, elbette çalı � ılabilir. Ancak, yalın

olarak etkiyi aramak tez kapsamımıza aldı � ımız hali ile yeterlidir.

Kelime gurupları, sözcük dizileri olarak ele alındı � ı için,

sınanacak yöntemlerde kullanılacak birlikler de uygun � ekilde

düzenlenmi � tir. Örne� in, kelime “Türkiye” ise, isim olan sözcük türü,

kelimeye kodu olan Noun eklenmi � hali i le, yani “NounTürkiye”

� eklinde de� erlendirmeye alınmı � tır. Bu 1-gram tanımıdır ve aslen

kelime gurubu ifade etmez. Kelime gurubu için, 2-gram kullanılmı � tır, yani bir önceki kelimenin sözcük türü, 1-gram ile olu� turulan birli � in

tekrar önüne eklenmi � tir. Örne� e devam edersek, diyelim ki bir önceki

kelime “büyük” , yani söz-dizisi “ büyük Türkiye” ise, sıfat olan sözcük

türü kodu Adj’de eklenerek, “AdjNounTürkiye” � eklinde bir birlik

yaratılmı � tır. Böylece, kelimenin sözcük türü olmayan yalın hali

“Türkiye” için, sadece kendisine ait sözcük türü ile “NounTürkiye”

kurulan birlik için ve bir öncesindeki kelimenin de sözcük türü

eklenmi � hali olan “AdjNounTürkiye” birli � i için geri-getirim

yöntemlerinin a� ırlıklandırma hesapları yapılmı � tır. Sözcük türü

enformasyonunun katı � tırılmasından da anla� ılaca� ı gibi, aslen bu

sınamada, derlemde bulunan birlik sayısı arttırılmı � , yani ba� lam da

hesaba katılarak yöntemlerin ba� arımları kar � ıla� tırılmı � tır. Aslen

sınadı � ımız bu yöntemin, tam bir kelime gurubu sınaması oldu� u

söylenemez, ancak kelime gurupları olu� turma u� ra� ı, maliyetli bir i �

oldu� u için, “kelime gurubunun etkisi anlamsızdır” genel kanısını

yıkmaya çalı � manın yanı sıra, yöntemin de basit olması gerekmektedir;

Dolayısı ile, bu yolla sınama yapmak her iki durumu da kolladı � ı için

makul bir seçim olarak gözükmektedir.


331

�ekil 11.2.3.4.1.’de, olu� turulan tüm birlikler için,

de� erlendirmeye alınan her geri-getirim yönteminin üstel-puanları

çizge olarak verilmi � tir.

TFxIDF TFxIDF TFxIDF

Okapi

Ltu Ltu Ltu

TF

TF TF

Okapi Okapi

1.2500

1.2550

1.2600

1.2650

1.2700

1.2750

1.2800

1.2850

1.2900

1.2950

1.3000

1.3050

TF 1.2731 1.2734 1.2762

TFxIDF 1.2959 1.2967 1.2982

Okapi 1.2763 1.2743 1.2685

Ltu 1.2908 1.2919 1.2934

Durum1 Durum2 Durum3

�ekil 11.2.3.4.1: OSTAD derleminde, kelime guruplarının geri-getirim ba� arımı

üzerine etki sınamasına ait üstel-puanlar.

�ekilde, her yöntemin, her birlik çe� idi için üstel-puanları hem

çizge olarak betimlenmi � , hem de tablo olarak listelenmi � tir. “Durum1”

sütununda, kelimenin kendisinden olu� turulan yalın � ekli için her

yöntemin üstel-puanları; “Durum2” sütununda, kelime ve kendisine ait

sözcük türü ile olu� turulan birlik için her yöntemin üstel-puanları;

“Durum3” sütununda da, kelime, kendisine ait sözcük türü ve bir

önceki kelimenin sözcük türü ile olu� turulan birlik için her yöntemin

üstel-puanları listelenmi � tir.


332

�ekilden de anla� ılabilece� i gibi, geleneksel TFxIDF

a� ırlıklandırması istatistiksel olarak, anlam düzeyi %10 (α=0.10,

p=0.08) ile, di � er yöntemlerden daha ba� arılıdır. Tüm yöntemler de,

“Durum” etkisinden ba� ımsız olarak, birbirlerinden %5 (α=0.05,

p=0.04) anlamlılık düzeyinde farklıdır (Friedman test istatisti � i).

Hiçbir yöntemin “Durum” de� i � keni üzerindeki da� ılımı, anlamlı

düzeyde bir de� i � iklik göstermemi � tir. Bir ba� ka söyleyi � le, yöntemler

kendi içinde, olu� turulan üç birlik için anlamlı düzeyde farklılık

göstermemi � tir. Ancak, çizgede ba� lam kullanıldı � ında, yani kelime

gurubunun tanımladı � ımız sözcük türü dizisi � eklindeki hali devreye

girince, yöntemlerin kendi içinde farklıla� ma e� iliminde oldu� u

söylenebilir. Friedman testi ile alınan istatistik de� erinin p de� erinin

%36 olması da, bunu desteklemektedir. Çünkü, de� er, %10 oldu� u

takdirde anlamlı bir farklılık oldu� u söylenebilecektir. �imdilik, kelime

gurupları ile ilgili kararımız “kelime guruplarının, tanımladı � ımız

� ekilde sözcük türü dizisi olarak, yani ba� lam etkisi biçiminde

kullanılması durumunda, yöntemlerin kendi içinde anlamlı düzeylerde

farklılık yaratmadı � ı hipotezini, reddedebilecek yeterli kanıtı deneysel

derlemimizden elde edemedik” � eklinde verilebilir.


333

12. SONUÇ

Bu tezin amacı, Türkçe yazılı belgeler için, bir bilgi geri-getirim

sistemlerinde dilbilgisi özelliklerini, özgün (novel) ve orijinal (original)

bir çalı � ma sayesinde kullanıma sunmak ve ba� arımda mevcudun

ötesine geçebilmektir. Özgün ile kastetti � imiz, BGG sahasında

geleneksel olarak kullanılan mevcut yöntem ve anlayı � ların, farklı

uygulama alanlarına ta� ınması, yani Türkçe üzerine çalı � mak; orijinal

ile kastetti � imizse, sahada genel geçer olan evrensel kabullenmelerin ve

bilinenlerin dı � ında yeni yöntemler ve bakı � açıları ortaya koymaktır.

Tezde, söz konusu iki vasfı kar � ılamak için, de� i � ik u� ra� sahalarının

içine giren, bir dizi ara� tırma ortaya konmu� ve hedefte olan

“ba� arımda mevcudun ötesine geçme” , hem u� ra� sahalarının kendi

içinde tam olarak, hem de bütünselli � e katkıları açısından kısmen

sınanmı � tır. Yapılan ara� tırmaların ve geli � tirilen yöntemlerin tamamı,

Türkçe odaklı oldu� undan ve uyarlama ile kullanılabildi � inden, hepsi

özgündür. Ancak, hepsi kuramsal ve fikren orijinal yanlar ta� ımalarına

ra� men, aralarında orij inallik derecelendirilebilir. Bu bölümde yapılan

çalı � maların sonuçları verilirken, orijinallik derecelerine de

de� inilecektir.

Tezin temel kapsamı, bilgi geri-getirim ve hesaplamalı dilbilim

sahalarıdır. Uygulamada Türkçe oldu� u için, Türkçe dilbilgisi de

kapsama, yan unsur olarak dahildir. Geli � tirilen yöntemler ve

ara� tırmalar istatistik/olasılık esasında oldu� undan, kapsam bu bakı �

açısına giren yöntem ve kuramlarla sınırlanmaktadır. Yönelim a� ırlık

olarak, bilgi geri-getirim sahasına do� rudur. Ancak, hesaplamalı

dilbilim sahası da, Türkçe dilbilgisi özelliklerinin kullanımı söz konusu

oldu� u için, bilgi geri-getirim sahasına uygun olarak inceltilmi � hali ile,


334

geni � yer tutmaktadır. Tez kapsamında yapılan çalı � malar, yukarıda

belirtilen özellikleri ve özet sonuçları ile birlikte, maddeler halinde

verilmi � tir.

1. Geli � tirilen yöntemler: Tez kapsamında, u� ra� olarak hesaplamalı dilbilim sahasına giren, ancak BGG sistemlerinde kullanılmak üzere uyarlanmı � 4 de� i � ik amaca sahip yöntem geli � tirilmi � tir. Yöntemlerin tamamı, kelime da� arcı � ı (sözlük) kullanmamaktadır. Sebebi ise, hesaplamalı dilbilim sahasında genel kabullenme olan ve tez kapsamında incelenip do � ru oldu� una dair delil bulunamayan, “ do� al dillerin kelime da� arcıklarının kapalı, yani sınırlı oldu� u” hipotezidir. Yöntemler, kelime da� arcı � ının açık, yani sınırsız olaca� ı kabullenmesine uygun olarak geli � tirilmi � tir.

1.1. Türkçe yazılı belgelerin tespiti için bir yöntem önerilmi � ve deneysel olarak ba� arımı sınanmı � tır. Yöntemin orijinal yanı, kelimelerin Türkçe hecelemeye uygunlu� una dayalı olarak seçim yapmasıdır. Ayrıca, hiçbir sözlük v.b. liste kullanmamaktadır. � ngilizce ve Türkçe olmak üzere, karı � ık

� ekilde olu� turulmu� derlemlerde, hecelenme oranlarına göre yapılacak ayıklama ile, Türkçe belgelerin � ngilizce belgelerden ayırt edilebilece� i gösterilmi � tir.

1.2. Türkçe yazılı metinlerde, cümle sonunun tespiti için bir yöntem önerilmi � ve deneysel olarak ba� arımı incelenmi � tir. Yöntem istatistik/olasılık esasındadır ve orijinal yanı, Türkçe heceleme ile cümle sonu tespiti yapmasıdır. Ayrıca, hiçbir sözlük v.b. liste kullanmamaktadır. Deneysel olarak kullanılan derlem için, %96,24 ba� arım sa� lamı � tır.

1.3. Türkçe kelimeleri, gövdelemek için bir yöntem önerilmi � ve deneysel olarak ba� arımı sınanmı � tır. Yöntem istatistik/olasılık esasında kurgulanmı � tır. Türkçe harflerin çiftlerinden olu� an bir liste kullanmaktadır. Dolayısı ile, olu� an listenin boyutu sınırlıdır. Yöntem kurgu olarak tümüyle orijinaldir. Deneysel olarak ula� ılan ba� arım, %95,8’dir.


335

1.4. Türkçe kelimelerin sözcük türlerini tespit için bir yöntem önerilmi � ve deneysel olarak sınanmı � tır. Yöntem istatistik/olasılık esasına dayanmaktadır. Kurgusu gizli Markov zinciri dil modeline dayanmaktadır. Orijinal olan yanı, kelimelerin sözcük türlerini tespit ederken, kelime sonlarından alınan belirli sayıda harf dizisine göre karar vermesidir. Deneysel olarak yapılan çalı � malarda ula� ılan en iyi sonuç, %85,9’dur. Türkçe için yayınlanan en yüksek ba� arım, %93,95’dir (Hakkani-Tür ve arkada� ları, 2002). Ancak, yöntem sözlük kullanmakta ve gizli Markov zinciri dil modeline ek olarak kelimelerin biçimbirimsel analizlerine ihtiyaç duymaktadır. Önerdi � imiz yöntem, kelime da� arcı � ı açısından kapalıdır. Ayrıca, biçimbirimsel analize gereksinim duymamaktadır.

2. Genel istatistikler: Türkçe yazılı belgelerden olu� turulan derlemlerin, Zipf güç kanunları esasında uyumluluk sınamaları yapılmı � tır. Zipf güç kanunlarına uyum, BGG sistemleri için geli � tirilen yöntemlerin kuramsal tabanını olu� turmaktadır. Ayrıca, Zipf güç kanunları çerçevesinde, Türkçe derlemlerin kelime da� arcı � ının, boyut olarak incelemesi ve açık/kapalı olu� unun sınamaları da gerçekle� tirilmi � tir.

2.1. Ara� tırma kapsamına alınan her derlem için gövde esasında ve kelime esasında tanımlayıcı istatistikler yapılmı � tır.

2.2. Her derlem için Zipf ve Mandelbrot ifadelerine uyum sınamaları, hem gövde esasında hem de kelime esasında yapılmı � tır. Sınamalar sonucunda, Türkçe için W=1000 parametre de� eri olan Mandelbrot ifadesi en iyi uyumu göstermi � tir. � ngilizce için yapılan aynı çalı � mada, Mandelbrot ifadesi ile en iyi uyum sa� lanmı � , ancak W parametresi 100 de� erinde kalmı � tır. Mandelbrot, W parametresinin dilin kelime biçimi olarak zenginli � ini ölçeklendirdi � ini belirtmektedir, dolayısı ile Türkçe, � ngilizce’den, kelime biçimi olarak daha zengin çıkmı � tır (eklemeli dil olarak, Türkçe için beklenen bir sonuçtur).


336

2.3. Türkçe için, kelime da� arcı � ının yapılan incelemelerinde, boyut olarak, derlem boyutu arttıkça sınırsız � ekilde artaca� ı, yani açık oldu� u, hipotezini çürütecek bir delili elimizdeki derlemlerden elde edilememi � tir. Deneysel sınamalarımıza esas te� kil eden ölçüt olarak, Zipf birinci kanun ifadesindeki do� rusal uyumun e� imi kullanılmı � tır. Kelime da� arcı � ının açık oldu� unu reddedebilmek için, deneysel olarak Zipf birinci kanun ifadesindeki e� imin, 1’den küçük olması gerekmektedir, ancak, hiçbir sınamada e� im 1’den küçük çıkmamı � tır. Alınan bu sonuç, hesaplamalı dilbilim sahasında genel kabulün tersidir. Genel kabul: “ do� al diller için kelime da� arcı � ının, derlem boyutu sonsuza giderken kapalı oldu� u, yani sabit bir sayıya yakınsayaca� ıdır” . Oysa, deneysel sınamalarımızda, böyle yakınsanacak sabit bir sayının oldu� una dair delil bulunamamı � tır.

2.4. Türkçe için, kelime da� arcı � ının, derlem boyutu ile üstel bir i li � ki ile büyüme gerçekle� tirdi � i kabul edildi � inde, kelime

da� arcı � ının boyutunu hesaplamak için kullanılabilecek, ρN ifadesindeki katsayısı olarak: gövdeler için 0.4441≈gρ ,

kelimeler için 0.7821≈ρ bulunmu � tur. � fadede, N derlem boyutunu temsil etmektedir.

2.5. Türkçe derlemlerin, kelime da� arcıklarının içerdi � i kelime biçimlerinin, derlem içinde gözlenme sıklıklarına göre incelemeleri de yapılmı � tır. Bu kapsamda, derlem içinde bir kez gözlenen (hapaks kelimeler), iki kere gözlenen, üç kere gözlenen v.b. dü� ük frekanslı kelimeler detaylı olarak incelenmi � , kelime da� arcı � ını olu� turan kelime biçimlerinin oran olarak tahlilleri yapılmı � tır. Kelime da� arcı � ı içinde, bir kez gözlenen kelimelerin, sayıca oranının: kelime esasında yakla� ık %50, iki kere gözlenen kelime biçimleri de eklendi � inde oranın %65’e ula� tı � ı; gövde esasında bir kez gözlenenlerin yakla� ık %36,5, iki kere gözlenen gövde biçimleri de eklenince oranın %50’ye ula� tı � ı tespit edilmi � tir.


337

2.6. Kelime da� arcı � ı kapsamında, Zipf ikinci kanunu ele alınmı � ve kelime da� arcı � ını olu� turan farklı kelime biçimlerinin, derlemde gözlenme sıklıkları ile orantılı olarak, kelime da� arcı � ındaki oranlarını hesaplamak için biçimsel ifadeler olu� turulmu� tur. Kelime biçimlerinin farklı derlem boyutları için, önerilen ifadelerle tahmin edilen de� erleri i le gerçekle� en de� erleri kar � ıla� tırmalı olarak verilmi � tir.

2.7. BGG sistemleri açısından önemli bir konu olan, metin içinde i � lev ve içerik olan kelimelerin, birbirlerinden ayırt edilmesi için, Zipf güç kanunları esasında frekansa dayalı bir yöntem hem gövdeler hem de kelimeler için sınanmı � ve sonuçları incelenmi � tir. BGG sistemlerinde, sayısal belge temsili için, metinlerde yer alan kelimelerin, içeri � e katkıları bulunanları seçilmektedir. Bu içeri � e katkıda bulunan kelimelere indeks terimler adı verilmekte; belgeler indeks terimlerin bir listesi

� eklinde temsil edilmektedir. � ncelemede, içerik kelime olarak ele alınan yazım birlikleri, indeks terimler olmaktadır.

3. Dilbilgisi özelliklerinin BGG sistemlerinde kullanımı: Tez hedefimizin ana çalı � ması, bu kapsam içinde gerçekle� mi � tir. Dilbilgisi özelli � i olarak: sözcük türlerinin (isim, fiil, sıfat v.b.), cümle unsurlarının (fiil, fail/özne, nesne v.b.) ve kelime guruplarının BGG sistemlerinin ba� arımları üzerindeki etkileri sınanmı � tır.

3.1. Sözcük türlerinin, cümle unsurlarının ve sözcük türü ile cümle unsurları birlikte kullanılarak, elle i � aretlenmi � indeks terimler üzerindeki olasılık da� ılımları çıkartılmı � tır. Kelime guruplarının indeks terimler üzerindeki da� ılımı da ayrıca verilmi � tir.

3.2. � ngilizce derlemlerde en yüksek ba� arım de� erlerine sahip olan TFxIDF, Okapi ve Ltu geri-getirim yöntemleri, Türkçe için, ba� arım açısından sınanmı � ve TFxIDF yönteminin, OSTAD derlemi üzerinde en iyi sonucu verdi � i tespit edilmi � tir.


338

3.3. OSTAD derleminin seçilen kısmı için, sözcük türlerinin indeks terimler üzerindeki olasılık da� ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba� arımdan anlamlı düzeyde farklılık sa� landı � ı, tespit edilmi � tir. Sözcük türleri içinde özel isimler, ayrı olarak ele alınmı � ve kullanılmı � tır.

3.4. OSTAD derleminin seçilen kısmı için, cümle unsurlarının indeks terimler üzerindeki olasılık da� ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba� arımdan anlamlı düzeyde farklılık sa� landı � ı, tespit edilmi � tir.

3.5. OSTAD derleminin seçilen kısmı için, sözcük türlerinin ve cümle unsurlarının, indeks terimler üzerindeki birle� ik olasılık da� ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba� arımdan anlamlı düzeyde farklılık sa� landı � ı, tespit edilmi � tir.

3.6. OSTAD derleminin seçilen kısmı için, kelime gurubu olarak sadece 2 kelimeden olu� anlar üzerinde bir inceleme yapılmı � tır. �ncelemede, kelime gurupları, harf birlikleri dizisi olarak ele

alınmamı � , harf birliklerine kar � ılık gelen sözcük türleri de� erlendirilmi � tir. Bu sayede, kelime gurubunun, sözcük türleri üzerinden, yalın � ekilde ba� lam enformasyonu ile temsili sa� lanmı � tır. Deneysel sınanmalar için, sözcük türleri, kelimelerin önlerine basitçe eklenmi � ve frekanslar yeni birlikler için tekrar olu� turulmu� tur. Olu� turulan yeni birlikler için TFxIDF, Okapi ve Ltu geri-getirim yöntemleri ile a� ırlıklar hesaplanmı � tır. Sınama sonucunda, üç geri-getirim yönteminin de, aynı ba� arıma sahip oldu� u hipotezini çürütecek, delil bulunamamı � tır.

Tez kapsamında yapılan çalı � malardan çıkan özet sonuçlar

� öyledir: 1-) Hesaplamalı dilbilim sahasında genel kanı olan kapalı,

yani boyut olarak sınırlı kelime da� arcı � ını destekleyecek delil Türkçe

için derlemlerimizde bulunamamı � tır. 2-) Hesaplamalı dilbilim

yöntemlerinde, genel kurgu içinde sözlük kullanımı gerektiren u� ra� ları

için, Türkçe’nin kendine özgü kuralları sayesinde, sözlük kullanmaya


339

ihtiyaç duymayacak e� leniklerinin yapılabilece� i gösterilmi � tir. 3-)

BGG sahasında, yaygın kanı olan, dilbilgisi özelliklerinin geri-getirim

ba� arımına anlamlı katkısı olmadı � ına dair görü� ün aksi yönünde,

OSTAD derlemi üzerinde yapılan çalı � malarla delil verilmi � tir. Sözcük

türü ve cümle unsuru enformasyonunun, indeks terimler üzerindeki

olasılık da� ılımı ile, ba� arımda anlamlı farklılık yaratıldı � ı tespit

edilmi � tir. 4-) Zipf güç kanunları esasında, Türkçe derlemlerin çe� itli da� ılım özellikleri belirlenmi � , kelime da� arcıklarının kapalı/açık olu� u

konusu irdelenmi � ve hem kelime da� arcı � ı boyutu için hem de kelime

biçimlerinin da� arcık içindeki sayılarını tahmin için derlemde

gözlenme sıklıklarını esas alan, hesaplama ifadeleri verilmi � tir.

Listelenen lehte çalı � maların yanı sıra, Türkçe kelimelerin sözcük

türleri için önerilen yöntem, kabul edilebilir ba� arım sınırları (%90-

%95) içinde de� ildir. Ancak, yöntemin verilen hali ile dahi, önerimin

olabilirli � i için yeterli kanıt oldu� u ve üzerinde daha fazla çalı � ma

yapılması gerekli � ine inanıyoruz. Kelime gurupları ile yapılan

çalı � mada aynı � ekilde, olumsuz sonuç vermi � tir. Bu konuda da,

ara� tırmanın derinle� tirilerek yapılması ile müspet sonuçlara

çıkılabilece� i konusunda, zayıfta olsa delillerimiz mevcuttur.


340


341

13. GEL �� M NOKTALARI VE TARTI � MA

Bu tezin hedefi olan BGG sistemlerinde dilbilim özelliklerinin

(sözcük türü ve cümle unsuru) kullanımı ile geri-getirim ba� arımının

anlamlı düzeyde arttırılması Türkçe için ba� arılmı � tır. Aynı ba� lamda,

Türkçe ile yapısal olarak benzerlik gösteren di � er diller için, örne� in

Fince veya Macarca’da da aynı ba� arımların sa� lanabilece� i güdüsü ile

ara� tırma yoluna gidilebilir. Ayrıca, kelime guruplarında istatistiksel

olarak anlamlı bir ba� arım artı � ı olmadı � ı sonucuna çıkmamıza ra� men,

kelime guruplarının önerdi � imiz � ekli ile ele alınmasının dı � ında, ba� ka

kurgularla ba� arım artı � ı sa� lanaca� ı dü� ünülmektedir.

Hesaplamalı dilbilim sahasındaki u� ra� konularının içerisinde,

önerdi � imiz dört yöntemden biri olan, sözcük türü tespiti için ba� arım

kabul edilebilir düzeylerde gerçekle� memi � tir. Elde etti � imiz %85

ba� arımın ba� lam kullanımı ile elde edilmesi, yakla� ımın tartı � ılabilir

oldu� unu ancak geli � tirilmesi gereklili � ini ortaya koymaktadır. Geli � im

için iki yön önerilmektedir: 1-) Kullanılan olasılık yumu� atma yöntemi

olan Kneser ve Ney metodunun Türkçe için yeniden uyarlanması

ve/veya yeni bir yumu� atma yöntemi geli � tirmek; 2-) Sondan alınan

birlikler üzerinde dilbilgisi kurallarına dayalı bir düzenleme yapılması

(örne� in, “ ?dır, ?dir, ?dur, ?dür” gibi dört farklı birli � in tek bir üst

birlikte toplanması), yani sondan alınan birliklerin da� ılımlarının,

deneysel olasılıklarına, daha do� rusu gerçek olasılıklarına

yakınsamasının dilbilimsel özellikler ile desteklenmesi.

Dilbilimsel özellikler ile izah edilen de� i � imin, BGG ba� arımı

açısından anlamlı olup olmadı � ı, kullanılıp kullanılmaması gereklili � i, uygulamalar açısından tam çözümlenmemi � bir meseledir. Örne� in bir


342

geri-getirim yöntemi içerisinde, söz gelimi vektör uzayı modelinde, bir

vektör (frekans de� i � imi), di � er vektörün (dilbilgisi özellikleri ile tespit

edilen de� i � im) tam ters yönünde meydana gelebilir ve sonuç olarak

uygulamada da çok büyük bir ba� arım dü� ü� üne sebep olabilir. Söz

konusu durum istatistiksel olarak tespit edilebilir bir konudur. Örne� in,

dilbilgisi özellikleri ve bilinen tüm yöntemler birer de� i � ken olarak

kabul edilip, toplam de� i � ime katkıları açısından do � rusal regrasyon

yöntemi ile bütün olarak de� erlendirilebilir, yani bireysel olarak tüm

de� i � kenlerin kar � ılıklı etkile� imleri ve uygulamada toplam ba� arıma

katkıları ölçülebilir.

Zipf kanunları çerçevesinde yazılı Türkçe için yapılan tanımlayıcı

istatistikler, Türkçe’de gövdelerin bugün mevcut olan kuramlar

esasında, � ngilizce gibi analitik diller için geli � tirilen geri-getirim

yöntemlerine daha uygun oldu� unu göstermi � tir. Dolayısı ile, Türkçe

için bilgi geri-getirim sistemlerinin tasarımlarında iki seçenek ortaya

çıkmaktadır: 1-) E� er analitik diller için geli � tirilen yöntemler

kullanılacaksa, Türkçe için kelimelerin yazılı � ekli yerine, gövdelerin

kullanılması, 2-) Kelimeler kullanılacaksa, geri-getirim yöntemlerinin

Türkçe kelimelerin, Zipf kanunları çerçevesinde bu tezde de incelenen

da� ılımları göz önüne alınarak uyarlanması. Dilbilgisi özelliklerinin,

kelimeler esasında geri-getirim ba� arımını arttırdı � ı bu tez ile

gösterilmi � tir. Ancak, gövdeler esasında bir inceleme yapılmamı � tır. Aynı zamanda, yaptı � ımız çalı � mada dilbilgisi özellikleri, geleneksel

yöntemlerle yer de� i � tirilerek, yani geleneksel yöntemlerin yerine

kullanılmı � tır. Dilbilgisi özellikleri ve geleneksel yöntemlerin bir

melezi olu� turularak ba� arımların sınanması da mümkündür.

Tüm çalı � malarımızın ı � ı � ı altında, Türkçe için daha çok çalı � ma

yapılmasının gerekli oldu� unu belirtmemiz gerekir. Örne� in, yazılı


343

Türkçe için tek biçimbirimsel analiz kurgusu ve uygulaması olan,

Kemal Oflazer tarafından geli � tirilen biçimbirim analizcisi dı � ında da

çalı � malara ihtiyaç vardır. Her dilbilim uygulaması kendine has

özellikler ve � artlar ortaya koymaktadır, tekbir yöntemin tüm ihtiyaçları

kar � ılaması beklenemez. Dolayısı ile, genelde her uygulamaya

uyarlanabilir soyut bir kurguya sahip, özelde de bilgi geri-getirim

sahasına uygun bir biçimbirim analiz yönteminin geli � tirilmesi

gerekmektedir. Hesaplamalı dilbilim sahası içerisinde geli � tirdi � imiz,

gövdeleme ve sözcük türü tespit yöntemleri biçimbirim analizine

gereksinim duymayacak � ekilde tasarlanmı � tır. Bunun bir sebebi

mevcut biçimbirim analizinin bilgi geri-getirim için çok pahalı

olmasıdır. Ancak biçimbirim analizi, bütünsel dilbilim analizleri için ön

� arttır; her zaman, bu tezde gerçekle� tirdi � imiz � ekilde, dilbilgisi

özelliklerinin tek ba� ına ve ba� ımsız belirlenmesi uygun olmayabilir.

Bu çalı � manın Türkçe üzerine yaptı � ımız, yapaca� ımız ve

yapılacak ara� tırma çalı � maları için topluca bir de� erlendirme, genel

üzerinden bir güdüleme sa� layaca� ı ümit edilmektedir. Dünyanın

mevcut gidi � atı do � rultusunda, sayısal ortamda yeterince temsil

edilmeyen, daha do� rusu hesaplamalı yöntemler açısından yeterince

geli � tirilmeyen ve üzerinde çalı � ılmayan dillerin, gelecekte yok olaca� ı

görü� ündeyiz. Çünkü, bir dili canlı ve ileti � imde kullanı � lı yapan � ey,

ki � iler arasında iletilmek istenen enformasyonu, temsil etmedeki gücü

ve söz konusu dil üzerinden ileti � im kuran ki � ilerin sayıca çoklu� udur.

Gelece� in küresel ileti � im aracı, � nternet veya bir türevi olacaktır.

Ancak, kesin olan � udur ki, alt yapısı hesaplama temelinde kalacaktır.

Dolayısı ile, Türkçe’nin sayısal ortamda, hesaplama yönünden eksiksiz

temsili çok önemlidir. Bu yönde yapılacak her çalı � manın, bizi bir adım

daha gelece� e ta� ıdı � ı unutulmamalıdır.


344


345

TÜRKÇE- � NG � L � ZCE TER � MLER SÖZLÜ � Ü

Terim � ngilizce Kar � ılı � ı

Anlam Semantic

Bakı � -açısal Pragmatic

Belge (Doküman) Document

Belge Özetleme Document Summerization

Biçim-bilim Morphology

Bilgi Knowledge

Bilgi/Haber Geri-Getirim Information Retrieval

Derlem Corpus

Dil Modeli Language Model

Dilbilim Linguistics

Dura� an Stationary

Düzenli deyim Regular Expression

Düzenli deyim dilbilgisi Regular Expression Grammar

Düzensizlik/belirsizlik (Çeli � ki) Entropy

Enformasyon Özümseme Information Extraction


346

En-yüksek Düzensizlik Maximum Entropy

Ergodik Ergodic

E� -anlamlılar Sözlü� ü Thesaurus

E� siz Sayılara Ayrı � tırma Singular Value Decomposition

Gizli Anlam � ndeksleme Latent Semantic Indexing

Gövdeleme Stemming

Göz-atma Browse

Haber (enformasyon) Information

Hesaplamalı Dilbilim Computational Linguistics

� ndeks Terimler Index Terms

� stikrarsızlık (Karı � ıklık/ � a� kınlık) Perplexity

Karar A � acı Esaslı Sınıflandırıcı Decision Tree Classifier

Kar � ılıklı Mutual

Kelime Da� arcı � ı Vocabulary

Konu� ma-algılama Speech Recognition

Konu� ma-harmanlama Speech Synthesis

Kümeleme Clustering


347

Kural Tabanlı/Esaslı Rule Based

Makine Çevirisi Machine Translation

Makine Ö� renimi Machine Learning

Melez Hybrid

Metin Hizalama Text Alignment

Öz (Özgül, özgün) Self

Saklı Markov Modeli Hidden Markov Model (HMM)

Saklı Markov Zinciri Hidden Markov Chain

Sayısal/Mantıksal Belge Görüntüsü Document Logical View

Ses-bilim Phonology

Seyrek veri Sparse Data

Silsile Stochastic

Simge/Birlik Token

Simgele� tirme/Birle� tirme Tokenization

Sinir A � ı (Yapay Sinir A � ı) Neural Network

Sistem (Dizge) System

Sonlu Durum Makinesi Finite State Machine


348

Sonuç-çıkarma a� ı Inference Network

Sorgu Geni � letme Query Expansion

Söylev Discourse

Sözcük/kelime türü Part-of-Speech (POS)

Sözcük/kelime türü i � aretleme Part-of-Speech Tagging

Sözdizimsel Çözümleme Syntactic Parsing

Sözlük-bilim Lexicology

Ta� ma Burstness

Temel Bile� en � ncelemesi Principle Component Analysis

Vekil yazılım Software Agent

Veri Data

Yayılım Çizimi Scatter Plot


349

KAYNAKLAR

Allan, J. (editor), Aslam, J, Belkin, N., Buckley, C., Callan, J., Croft, B. (editor), Dumais, S., Fuhr, N., Harman, D., Harper , D.J., Hiemstra, D., Hofmann, T., Hovy, E., Kraaij , W., Laffer ty, J., Lavrenko, V., Lewis, D., L iddy, L., Manmatha, R., McCallum, A., Ponte, J., Prager, J, Radev, R., Resnik, P., Robertson, S., Rosenfeld, R., Roukos, S., Sanderson, M., Schwartz, R., Singhal, A., Smeaton, A., Turt le, H., Voorhees, E., Weischedel, R., Xu, J., Zhai, C., 2003, Challenges in Information Retrieval and Language Modeling, SIGIR Forum 37(1).

Aberdeen, J., Burger , J., Day, D., Hirschman, L., Robinson, P. and Vilain, M ., 1995, Mitre: Description of the alembic system used for muc-6, In The Proceedings of the Sixth Message Under-standing Conference (MUC-6), Columbia, Maryland. Morgan Kaufmann.

Aduriz, I . Alegr ia, J.M. Ar r iola, X. Artola, A. Diaz de I llarraza, N. Goj enola, E.K. and Maritxalar . M ., 1995, Different issues in design of a lemmatizer/tagger for Basque. In SIGDAT-95 (EACL-95 workshop).

Atalay, N.B., Oflazer , K . and Say, B., 2003, The annotation process in the Turkish Treebank, in Proceedings of the EACL Workshop on Linguistically Interpreted Corpora - LINC, Budapest, Hungary.

Baayen, R.H., 1996, The effect of lexical specialization on the growth curve of the vocabulary. Computational Lingusitics, 22, pp.455-480.

Baayen, R.H., 2001, Word patterns and story shapes: the statistical analysis of narrative style. Literary and Linguistic Computing 2, pp.61-70.

Baeza-Yates, R. and Ribeiro-Neto, B., 1999, Modern Information Retrieval. 2nd edn. Addison-Wesley, England.

Barton, G. E., 1986, Computational complexity in two-level morphology. In ACL Proceedings, 24th Annual Meeting.

Baker, J. K ., 1975, Stochastic modeling for automatic speech understanding. In D. Raj Reddy (eds.), Speech Recognition: Invited papers presented at the 1974 IEEE symposium, New York: Academic Press. Reprinted in (Waibel and Lee 1990), pp.297-307.


350

Berghel, H., 1997, Cyberspace 2000: Dealing with Information Overload, Communications of the ACM, 40(2): 19–24.

Bir türk, A., 1998, Türkçenin yönetim ve ba� lama kuramı yakla� ımı ile bilgisayarla çözümlenmesi. Doktora. Orta Do� u Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 168 sayfa.

Blair D.C., 1990, Language Representation in Information Retrieval, Elsevier, Amsterdam.

Borko, H. and Bernier , L.B., 1978, Indexing concepts and methods,. Academic Press Inc., New York.

Brants, T. and Samuelsson, C., 1995, Tagging the Teleman Corpus, In Proceedings of the tenth Nordic Conference of Computational Linguistics.

Brants, T., 2000, TnT - a statistical part-of-speech tagger, In Proceedings of the 6th Applied NLP Conference, ANLP-2000, Seattle, WA.

Br ill, E., 1995a, Transformation-based error driven learning and natural language processing: A case study in part of speech tagging. Computational Linguistics, 21(4):543-566.

Brill, E., 1995b Unsupervised learning of disambiguation rules for part of speech tagging. In Proceedings of the Third Workshop on Very Large Corpora, Cambridge, MA.

Brin S. and Page, L, 1998, The anatomy of a large-scale hypertextual web search engine - Google Search Engine, avalible at (2004): http://dbpubs.stanford.edu:8090.

Broglio J., Callan J.P. and Croft W.B., 1994, INQUERY system overview. In Proceedings of the TIPSTER Text Program (Phase I). San Francisco, CA Morgan Kaufmann, pp 47-67.

Buckland, M., 1991, Information and Information Systems, Greenwood Press, Westport, USA.


351

Buckley, C., Salton, G., Allen, J. and Singhal., A., 1995, Automatic query expansion using SMART: TREC-3. In Harman, Donna K. (editor). Overview of the Third Text REtrieval Conference (TREC-3). NIST Special Publication 500-225, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.69-80.

Buckley, C., Singhal, A. and Mitra, M., 1996, New retrieval approaches using SMART. In D.K. Harman, editor, Proceedings of the Fourth Text Retrieval Conference (TREC-4), Gaithersburg.

Burgin, R. and Dillion, M., 1992, Improving disambiguation in FASIT, Journal of the American Society for Information Science.

Callan, J.P., Croft. W.B. and Harding., S.M., 1992, The INQUERY retrieval system, in Database and Expert Systems Applications: Proceedings of the International Conference, Valencia Spain, pp. 78-83.

Chanod, J.P. and Tapanainen, P., 1995, Tagging French –comparing a statistical and constrained-based method. In EACL-95.

Chen, S.F. and Goodman, J., 1998, An empirical study of smoothing techniques for language modeling. Technical Report, TR-10-98, Center for Research in Computing Technology, Harvard University, Cambridge, Massachusetts.

Chomsky, N., 1957, Syntactic Structures. The Hague: Mouton.

Church, K .W., 1988, A stochastic parts program and a noun phrase parser for unrestricted text, In Proceedings of the Second Conference on Applied Natural Language Processing, Austin, Texas.

Cleveland, D.B. and Cleveland, A.D., 1983, Introduction to Indexing and Abstracting, Libraries Unlimited, Inc., Littleton, Colorado.

Cole, R (chief ed.), Mar iani, J., Uszkoreit, H., Mar ile, G.B. (man. ed.), Zaanen, A., Zampolli, A. (man. ed.), and Zue, V., 1997, State of the Art of the Human Language Technologies, Cambridge University Press and Giardini, UK.

Cover, T.M. and Thomas, J.A., 1991, Elements of Information Theory, John Wiley & Sons, New York.


352

Craven, T., 2002, Introduction to Information Retrieval, Lecture Notes, MIT, USA, (unpublished) URL: http://instruct.uwo.ca/mit/026-98/index.htm

Croft, W.B., Turtle, H.R. and Lewis, D.D., 1991, The uses of phrases and structured queries in information retrieval, Proceedings of the 14th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 32-45.

Cussens, J., Dzeroski, S. and Er javec, T., 1999, Morphosyntactic tagging of Slovene using Progol, In Dzeroski, S., & Flach, P. (Eds.), Inductive Logic Programming: Proc. of the 9th International Workshop (ILP-99) Bled, Slovenia, Springer-Verlag.

Dalkılıç, M.E. and Dalkılıç, G., 2001, Some measurable language characteristics of printed Turkish, Proc. of the XVI International Symposium on Computer and Inf. Sciences, pp. 217-224.

Demir, C., 1993, Türkçe için bir ATN grameri. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 1993, 94s.

Derouault, A.M. and Mer ialdo, B., 1986, Natural language modeling for phoneme-to-text transcriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence (8), pp.649-742.

Dermatas, E. and Kokkinakis, G., 1995, Automatic stochastic tagging of natural language texts. Computational Linguistics, 21(2):137-164

DeRose, S., 1988, Grammatical category disambiguation by statistical optimization, Computational Linguistics, 14(1).

Ekmekçioglu, F. Ç., Lynch, M. F. and Willett, P., 1996, Stemming and n-gram matching for term conflation in Turkish texts, Information Research, 1(1) Available at: http://informationr.net/ir/2-2/paper13.html

Ergin, M., 1999, Türk Dil Bilgisi, Bayrak Yayın/Da� ıtım, Fatih, � stanbul.

Evans, D. and Leffer ts, R., 1994, Design and evaluation of the CLARIT-TREC-2 system, In Harman, D., editor, National Institute of Standards and Technology Special Publication No. 500-215 on the The Second TextREtrieval Conference (TREC-2), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.


353

Feldweg, H., 1995, Implementation and evaluation of a German HMM for POS disambiguation. In EACL SIGDAT Workshop.

Faloutsos, C. and Oard, D.W., 1995, A survey of information retrieval and filtering methods, Technical Report CS-TR-3514, University of Maryland, College Park, MD.

Foskett, A.C., 1996, The Subject Approach to Information, Fifth Edition, Library Association Publishing Ltd., London, U.K.

Garside, R., 1987a, The CLAWS word-tagging system. In Garside R., Leech, F., and Sampson, G., editors, The Computational Analysis of English. Longman.

Garside, R. and Leech, F., 1987b, The UCREL probabilistic parsing system. In Roger Garside, Geoffrey Leech, and Geoffrey Sampson (eds.), The Computational Analysis of English: A Corpus-Based Approach, Longman, London, 66-81.

Good, I .J., 1953, The population frequencies of species and the estimation of population parameters. Biometrica, 40(3 and 4), pp. 237-264.

Greene, B.B. and Rubin, M. G., 1971, Automated grammatical tagging of English. Department of Linguistics, Brown University.

Güngördü, Z., 1993, Türkçe için bir sözcüksel-i � levsel gramer. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 138 sayfa.

Haj i � , J. and Hladká, B., 1998, Tagging inflective languages: Prediction of morphological categories for rich, structured tag set. In Proceedings of COLLING/ACL’98, Montreal, Canada.

Hakkani, D.Z., 1996, Serbest ö� e sıralı bir dil olan Türkçe için yüzeysel üretici tasarımı ve gerçekle� tirilmesi. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 135 sayfa.

Hakkani-Tür , D.Z., Oflazer, K . and Tür, G., 2002, Statistical morphological disambiguation for agglutinative languages, Computers and the Humanities.

Hankamer, J., 1984, Turkish generative morphology and morphological parsing, In Second International Conference on Turkish Linguistics. Istanbul.


354

Herdan, G., 1960, Type-token mathematics. The Hague: Mouton.

Hersch, W.R., Elliot, D.L ., Hickam, D.H., Wolf, S.L., Molnar, A. and Lechtenstien, C., 1995, Towards new measures of information retrieval evaluation, Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 164-170.

Hiemstra, D. and de Jong, F., 2001, Statistical language models and information retrieval: natural language processing really meets retrieval, Glot International 5(8), 288-294.

Hull D., 1996, Stemming Algorithms: A Case Study for Detailed Evaluation, Journal of theAmerican Society for Information Science, Vol 47(1): 70-84pp.

Hull, D.A., Grefenstette, G., Schulze, G.M., Gaussier , E., Schutze, H. and Pedersen, J.O., 1997, Xerox TREC-5 Site Report: Routing, Filtering, NLP, and Spanish Tracks. In Voorhees EllenM. and Donna K. Harman (editors). The Fifth Text Retrieval Conference (TREC-5). NIST Special Publication 500-238, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp. 167-180.

Ingwersen, P., 1992, Information Retrieval Interaction. Taylor Graham Publishing, London.

Jacobs, P., 1994, GE in TREC-2: Results of a Boolean approximation method for routing and retrieval, In Harman, D., editor, National Institute of Standards and Technology Special Publication No. 500-215 on the The Second Text REtrieval Conference (TREC-2), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.

Jacqemin, C. and Royaute, J., 1994, Retrieving terms and their variants in a lexicalized unification-based framework, Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 132-141.

Jain, S. and Sharma, A., 1993, Probability is more powerful than team for language identification from positive data, Proceedings of the sixth annual conference on Computational learning theory, ACM Press, Santa Cruz, California, pp.192-198.


355

Jain, S. and Sharma, A., 1994, On the intrinsic complexity of language identification, Proceedings of the seventh annual conference on Computational learning theory, ACM Press, New Brunswick, New Jersey, pp. 278-286.

Jelenic, F. and Mercer , R., 1980, Interpolated estimation of Markov source parameters from sparse data. In Proceedings of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands: North-Holland.

Jelenik, F., 1985, Markov source modeling of text generation. In J.K. Skwirzynski (eds.), The Impact of Processing Techniques on Communications, volume E91 of NATO ASI series, Dordrecht: M. Nijhoff, pp.569-598.

Jin, R., Faloutsos, C. and Hauptmann, A.G., 2001, Meta-Scoring: Automatically evaluating term weighting schemes in IR without Precision-Recall, In Proceedings of the 24th ACM SIGIR Conference on Research and Development in Information Retrieval, New Orleans, Louisiana.

Jones, K .S. and Kay, M., 1973, Linguistics and Information Science, Academic Press, New York.

Jones, K .S. and Kay, M., 1976, Linguistics and Information Science: A Postscript, In Donald E. Walker, Hans Karlgren, and Martin Kay (eds.) Natural Language in Information Retrieval – Perspectives and Directives for Research, Skriptor, Stocholm.

Jones, K .S., 1999, What is the Role of NLP in Text Retrieval, In Tomek Strzalkowski (ed.), Natural Language Information Retrieval, Kluwer, Boston.

Jurafsky D. and Martin J. M., 2000, Speech and Language Processing. Prentice-Hall, New Jersey USA.

Karlgren, J., 2000, The basics of information retrieval. Swedish institute of Computer Science, Survey, SICS, 49p, (unpublished).

Katz, S.M., 1987, Estimation of probabilities from sparse data for the language model component of a speech recognizer. IEEE Transactions on Acoustic, Speech and Signal Processing, ASSP-35(3), pp. 400-401.

Kenser , R. and Ney, H., 1995, Improved backing-off for m-gram language modeling. In Proceedings of IEEE International Conference on Acoustic, Speech and Signal Processing, volume 1, pp.181-184.


356

Klein, S. and Simpson, R. A., 1963 Computational approach to grammatical coding of English words. JACM (10):344-337.

Kochen, M., 1983, Library science and information science. Broad or narrow? In Machlup, Fritz and Una Mansfield (editors), The Study of Information. John Wiley & Sons, Inc., New York, pp.371-377.

Korfhage R.R., 1997, Information Storage and Retrieval, Wiley, New York, NY.

Korkmaz, T., 1996, Sistemik-fonksiyonel gramer yakla� ımı ile türkçe metin üretimi. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 132 sayfa.

Kornai, A., 2002, How many words are there?, Glottometrics (4), pp.61-86.

Koskenniemi, K ., 1983, Two-level morphology: a general computational model for word-form recognition and production. In, Publications of the Department of General Linguistics, Vol.11. University of Helsinki, Helsinki .

Köksal A., 1979, Bilgi Eri � im Sorunu ve Bir Belge Dizinleme ve Er � im Dizgesi Tasarım ve Gerçekle� tirimi, Fen Bilimleri Enstitüsü, Bilgisayar Bilimleri Mühendisli � i Anabilim Dalı Doçentlik Tezi, Hacettepe Üniversitesi, Ankara.

Krovetz R., 1993, Viewing Morphology as an Inference Process, Proceeding 16th International Conference Research and Development in Information Retrieval, ACM, pp. 191-202.

Kupiec, J., 1992, Robust part-of-speech tagging using hidden markov models. Computer Speech and Language, pp.252-242.

Kupiek, J. M ., 1993, A robust linguistic approach for question answering using an on-line encyclopedia, Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 181-190.

Kut, A., Alpkoçak, A. and Özkarahan, E., 1995, Bilgi bulma sistemleri için otomatik Türkçe dizinleme yöntemi. Bili � im Bildirileri, Dokuz Eylül Üniversitesi, � zmir.


357

Lahtinen, T., 2000, Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods. Phd Thesis, Department of General Linguistics, University of Helsinki, Finland, ISBN 951-45-9639-0.

Lancester, F.W., 1968, Information Retrieval Systems: Characteristics, Testing and Evaluation, Wiley Ltd., New York.

Lancaster , F.W., 1991, Indexing and abstracting in theory and in practice. Library Association Publishing Ltd., London.

Levinger, M., Ornan U. and I tai, A., 1995 Learning morpho-lexical probabilities from an untagged corpus with and application to Hebrew, Computational Linguistics, 21(3):383-404.

Lewis, D.D., 1992, An evaluation of phrasal and clustered representations on a text categorization task, Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 37-50.

Lewis, D.D. and Spark-Jones, K ., 1996, Natural language processing for information retrieval, Communications of the ACM, Vol. 39, No. 1, pp. 92-101.

Lextek International Inc., 2004, Language Identifier, 1051 E. Fir Ave Provo, UT 84604 USA Tel: 801.375.8332. URL: http://www.languageidentifier.com/

Losee, R. M., 1996, How part-of-speech tags affect text retrieval and filtering performance, Computational Linguistics.

Lovins, J.B., 1968, Developing of a Stemming Algorithm. In: Mechanical Translation and Computational Linguistics, Vol. 11, pp22-31.

Liddy, E.D. and Myaeng, S.H., 1993, DR-LINK: A system update for TREC-2, In Merchant, R., (ed.), Proceedings of the TIPSTER Text Program Phase I, San Mateo, California. Morgan Kaufmann.

Liddy, E.D., 1998, Enhanced text retrieval using natural language processing, Bulletin of the American Society for Information Science, 24(4).

Lidstone, G.J., 1920, Note on the general case of the Bayes-Laplace formula for inductive or a posteriori probabilities. Transactions of the Faculty of Actuaries, 8, pp. 182-192.


358

Lins, D.R and Gonçalves, P, 2004, Automatic language identification of written texts, Proceedings of the 2004 ACM symposium on Applied computing, pp. 1128-1133.

Luhn, H.P., 1958, The automatic creation of literature abstracts. IBM Journal of Research and Development, 2, pp.159-165.

Luhn, H.P., 1960, Keyword-in-context index for technical literature (KWIC index), American Documentation 11:288-295.

Lyons, J., 1968, Introduction to Theoretical Linguistics, Cambridge University Press, Cambridge, Great Britain.

Lyons, J., 1977, Semantics 1, Cambridge University Press, Cambridge, Great Britain.

Manning, C.D. and Schütze, H., 2003, Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, London, England.

Mandelbrot, B., 1952, An information theory of the structure of the language based upon the theory of the statistical matching of messages and coding. In W. Jackson (ed.), Second Symposium on Information Theory, London.

Mandelbrot, B., 1961, On the theory of word frequencies and on related markovian models of discourse. In: R. Jackson (ed.), Structure of Language and its Mathematical Aspects, American Mathematical Society, pp.190-219.

Marshall, I ., 1987, Tag selection using probabilistic methods. In Roger Garside, Geoffery Sampson, and Geoffery Leech (eds.). The Computational Analysis of English: a copusbased approach, Longman, London, pp42-65.

Megyesi, B., 1999, Improving Brill’ s POS tagger for an agglutinative language. In Pascale Fung and Joe Zhou, (eds.), Proceedings of the Joint SIGDAT Conference on Emperical Methods in Natura� Language Processing and Very Large Corpora, Collage Park, Maryland, USA, pp275-284.

Mercer, R.L., 1993, Inflectional morphology needs to be authenticated by hand. In Working Notes of AAAI Spring Symposium on Building Lexicons for Machine Translation. Stanford, CA, AAAI Press, pp.91-99.

Miller , G.A., 1990, WordNet: An on-line lexical database, International Journal of Lexicography, 3(4).


359

Mikheev, A., 1997, Tagging sentence boundaries, Language Technology Group, University of Edinburgh.

Mitra, M., Buckley, C., Singhal, A. and Cardie, C., 1997, An analysis of statistical and syntactic phrases. In Proceedings of the RIAO’97, McGill University, Montreal, pp. 200–216.

Mizutani, S., (1989), Ohno’s lexical law: Its data adjustment by linear regression. In: S. Mizutani (ed.), Japanese Quantitiative Linguistics, Bachum: Brockmeyer, pp.1-13.

Ney, H., Essen, U. and Kneser, R., 1994, On structuring probabilistic dependencies in stochastic language modeling. Computer, Speech and Language, 8, pp.1-38.

Oard, D.W., 1997, Cross-language Bibliography, avalible at : http://citeseer.nj.nec.com/oard97crosslanguage.html.

Oflazer , K ., 1993, Two Level Description of Turkish Morphology. In: Proceedings of EACL’98. Utrecht, the Netherlands.

Oflazer , K . and Kuruöz, �., 1994, Tagging and morphological disambiguation of

Turkish text. In Proceedings of the fourth Applied Natural Language Processing Conference, ACL, pp144-149

Oflazer , K . and Tür , G., 1996, Combining hand-crafted rules and unsupervised learning in constrained-based morphological disambiguation, In Eric Brill and Kenneth Chuchh (eds.), Proceedings of the ACL-SIGDAT Conference on Emperical Methods in Natural Language Processing.

Oflazer , K . and Tür, G., 1997, Morphological disambiguation by voting constraints, In Proceedings of the thirty-fifth Annual Meeting of the Association for Computational Linguistics (ACL’97/EACL’97), Madrid, Spain.

Oflazer , K ., Say, B., Hakkani-Tür, D. and Tür, G., 2003, Building a Turkish Treebank, Chapter in Building and Using Parsed Corpora, Anne Abeillé (Ed.), Kluwer Academic Publishers.


360

Orgun M.A., 1985, Gömü-Dili: Çok Dilli Bilgi Eri � im Gömülerinin Bilgisayar Ortamında Etkile� imli Biçimde Geli � tirilmesini Destekleyecek Bir Yazılım Dizgesinin Tasarımı ve Gerçekle� tirimi, Fen Bilimleri Enstitüsü, Bilgisayar Bilimleri Mühendisli � i Anabilim Dalı Yüksek Mühendislik Tezi, Hacettepe Üniversitesi, Ankara.

Palmer, D.D. and Hearst, M.A., 1997, Adaptive multilingual sentence boundary disambiguation, Computational Linguistics.

Peshkin, L ., and Savova, V., 2004, Part-of-speech tagging with minimal lexicalization, V. Invited chapter in Current Issues in Linguistic Theory (CILT), Publisher: John Benjamins, Amsterdam, Philadelphia.

Popovic M. and Willett P., 1992, The Effectiveness of Stemming for Natural Language Access to Slovene Textual Data, Journal of The American Society for Information Science, Vol 43, pp. 384-390.

Porter, M.F., 1980 An Algorithm for Suffix Stripping. In: Program, Vol.14, No.3, 130-137.

Powers, D.M., 1998, Applications and explanations of Zipf’s laws. In: D. Powers (ed.), NEMLAP3/CONLL98, New methods in language processing and Computational natural language learning, pp.151-160.

Ratnaparki, A., 1996, A maximum entropy model for part-of-speech tagging. In Proceedings of EMNLP.

Resnik, P., 1999, Mining the Web for bilingual text, Proceedings of the 37th conference on Association for Computational Linguistics, ACM, College Park, Maryland, pp. 527-534.

Reynar, J.C. and Ratnaparkhi, A., 1997, A maximum entropy approach to identifying sentence boundaries, In Proceedings of the Fifth A CL Conference on Applied Natural Language Processing (ANLP'97), Washington, D.C.

Riley, M.D., 1989, Some applications of tree-based modeling to speech and language indexing, In Proceedings of the DARPA Speech and Natural Language Workshop, pages 339-352. Morgan Kaufman.


361

Riloff, E., 1995, Little words can make a big difference for text classification, Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 130-136.

Robertson, S.E. and Sparck Jones, K ., 1997, Simple, proven approaches to text-retrieval. Technical report 356, Computer Laboratory, University of Cambridge.

Robertson, S.E. and Walker , S., 2000, Okapi / Keenbow at TREC-8. In Proceedings of the eighth Text Retrieval Conference TREC-8, pp. 151–162, Gaithersburg, NIST Special Publications 500-246.

Salton, G., 1971, The SMART Retrieval System Experiments in Automatic Document Processing, Prentice Hall.

Salton, G. and Buckley, C., 1988, Term-weighting approaches in automatic text retrieval. Information Processing & Management, vol.24(5), pp.513-523.

Salton, G. and McGill, M.J., 1983, Introduction to Modern Information Retrieval, McGraw Hill Publishing Company, New York.

Sánchez León, F. and Nieto Serrano, A.F., 1995, Development of a Spanish version of the Xerox tagger, CRATER/WP6/FR1.

Samuelsson, C., 1996, Relating Turing’s Formula and Zipf’s Law. Proc. Forth Workshop on Very Large Corpora.

Sever , H., Karaka� , Ü., Akal, F., Olgun, B. ve Sezer , E., 1997, Ka� garlı Mahmut Bilgi Geri-Getirim Sistemi, Teknik Rapor, Devlet Planlama Te� kilatı Destek No: 97K121330, Hacettepe Üniversitesi, 157s, (yayınlanmamı� ).

Sever , H. and Bitir im, Y., 2003, The analysis and evaluation of stemming algorithms for Turkish, 10th International Symposium on String Processing and Information Retrieval (SPIRE'03), Manaus, Brazil, October 8-10. Lecture Notes in Computer Science (LNCS), Springer, 2857: 238-51.

Sezer E., 1999, Smart Bilgi Eri � im Sistemi'nin Türkçe yerelle� tirilmesi ve otomatik gömü üretimi. Yüksek Lisans. Hacettepe Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 1999, 124 sayfa.


362

Simon, H.A., 1955, On a class of skew distribution function. Biometrica 42, pp.425-440.

Sher idan, P. and Baller ini., J.P., 1996. Experiments in multilingual information retrieval using the SPIDER System, Proceedings of the 19th Annual International ACM SIGIR Conference on Research and development in Information Retrieval SIGIR 96: 58–65.

Shannon, C.E., 1949. The mathematical theory of communication. In Shannon, C.E. and Waver, W. (editor). The Mathematical Theory of Communication. The University of Illinois Press, Urbana, 3-91.

Schmid, H., 1994, Part-of-Speech Tagging with Neural Networks. Proceeding of COLING-94, pp172-176.

Sibun, P. and Spitz, A.L., 1994, Language determination: natural language processing from scanned document images, Proceedings of the fourth conference on Applied natural language processing, Morgan Kaufmann Publishers Inc., Stuttgart, Germany, pp.15-21.

Smeaton, A., 1992, Progress in the application of natural language processing to information retrieval tasks. The Computer Journal, 35(3).

Smeaton, A.F., O'Donnell, R. and Kelledy, F., 1995, Indexing structures derived from syntax in TREC-3: System description, In National Institute of Standards and Technology Special Publication on the The Third Text REtrieval Conference (TREC-3), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.

Soergel, D., 1985, Organizing Information: Principles of Database and Retrieval Systems. Orlando: Academic Press, 9-20.

Solak, A. and Can., F., 1994, Effects of stemming on Turkish text retrieval. Technical report BUCEIS-94-20, Bilkent University, Ankara.

Sparck Jones, K ., 1972, A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation, vol.28(1), pp.11-20.

Sparck Jones, K ., 1995, Reflections on TREC. Information Processing & Management, vol.31(3), pp.291-314


363

Stolz, W. S., Tannenbaum P. H. and Carstensen, F. V. A., 1965, stochastic approach to the grammatical coding of English. Communications of ACM (8): 399-405.

Strassel, S., Maxwell, M. and Cier i, C., 2003, Linguistic resource creation for research and technology development: A recent experiment, ACM Transactions on Asian Language Information Processing (TALIP), 2(2): 101-117.

Strzalkowski, T., 1995, Natural language information retrieval. Information Processing & Management 31 (3), 397–417.

Strzalkowski, T., Carballo, J.P. and Mar inescu, M., 1995, Natural Language information retrieval: TREC-3 report. In National Institute of Standards and Technology Special Publication on the The Third Text REtrieval Conference (TREC-3), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.

Strzalkowski, T., L in, F. and Perez-Carballo, J., 1998, Natural Language Information Retrieval TREC-6 Report. In Voorhees EllenM. and Donna K. Harman (editors). The Sixth Text REtrieval Conference (TREC-6). NIST Special Publication 500-240, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-366.

Suzuki, I ., Mikami, Y., Ohsato, A. and Chubachi, Y., 2002, A language and character set determination method based on N-gram statistics, ACM Transactions on Asian Language Information Processing (TALIP), pp. 269-278.

Tautanova, K . and Manning C., 2000, Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. In Proceedings of EMNLP/VLC.

Thagard, P., 1990. Information and concepts. In Hanson, Philip P. (editor). Information, language and cognition. The University of British Columbia Press, Vancouver, Canada, 168-174.

Turner, G.R., 1997, Relationship between vocabulary, text length and Zipf’s law. Avail at: http://www.btinternet.com/g.r.turner/ZipfDoc.htm.

Tür, G., 2000, A Statistical Information Extraction System. PhD Thesis, Bilkent University, Ankara, Turkey.


364

Türkiye Bili � im Derne� i, 2003, Bili � im Terimleri Sözlü� ü, URL: http://eski.tbd.org.tr/sozluk.html

Türk Dil Kurumu, 2003a, Bilgisayar Terimleri Kar � ılıklar Kılavuzu, URL: http://www.tdk.gov.tr/bilter im

Türk Dil Kurumu, 2003b, Güncel Türkçe Sözlük, URL: URL: http://www.tdk.gov.tr/sozluk.html

Van Rijsbergen, C.J., 1979, Information Retrieval (2nd ed.), Butterworths, London.

Viterbi, A.J., 1967, Error bounds for convolution codes and an asymptotically optimal decoding algorithm. IEEE Transaction on Information Theory, pp. 260-269.

Voorhees, E., Gupta, N.K. and Johnson-Laird, B., 1995, The collection fusion problem. In National Institute of Standards and Technology SpecialPublication on the The Third Text REtrieval Conference (TREC-3), pages 95-104, Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.

Voorhees E.M. and Harman, D.K., 1998. Overview of the Sixth Text Retrieval Conference (TREC-6). In Voorhees Ellen M. and Donna K. Harman (editors). The Sixth Text REtrieval Conference (TREC-6). NIST Special Publication 500-240, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.1-24.

Voorhees E.M. and Harman, D.K., 1998b. The seventh Text REtrieval Conference (TREC-7). NIST special publication, Galthersburg, Maryland, November 9-11. http ://trec.nist.gov/pubs.html.

Voutilainen, A., 1998, Does tagging help parsing? A case study on finite state parsing, Lauri Karttunen (ed), International Workshop on Finite State Methods in Natural Language Processing (FSMNLP'98), Association for Computational Linguistics, Somerset, New Jersey, pp.25-36.

Yao Y.Y., 1995, Measuring retrieval effectiveness based on user preference of documents, Journal of the American Society for Information Science, l 46:133-145.


365

Weaver, W., 1949, Recent contributions to the mathematical theory of communication. In Shannon, C. E. and Weaver, W. (editors). The Mathematical Theory of Communication. The University of Illinois Press, Urbana, 94-117.

Witten, I .H. and Bell, T.C., 1991, The zero-frequency problem: Estimating the probability of novel events in adaptive test compression. IEEE Transactions on Information Theory, 37(4), pp. 1085-1094.

Zhai, C., Tong, X., Miliçc-Frayling, N. and Evans., D.A., 1997, Evaluation of Syntactic Phrase Indexing - CLARIT NLP Track Report. In Voorhees Ellen M. and Donna K. Harman (editors). The Fifth Text REtrieval Conference (TREC-5). NIST Special Publication 500-238, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-358.

Ziegenhain, U., Arranz, V., Bisani, M., Bonafonte, A., Castell, C., Conejero, D., Hartikainen, E., Maltese, G., Oflazer, K ., Rabie, A., Razumikin, D., Shammass, S. and Zong C., 2003, The LC-STAR: Lexica and corpora for speech-to-speech translation technologies. Technical Report, IST-2001-32216, Siemens AG, CT IC 5, München, Germany. URL: http://www.lc-star.com

Zipf, G. K ., 1929, Relative frequency as a determination of phonetic change. Harvard Studies in Classical Philology, 40:1-95.

Zipf, G. K ., 1949, Human Behaviour and the Principles of Least Effort. Cambridge, MA, Addison-Wesley.


366


367

EKLER

EK-1 : BGG sahasında önceki çalı � malar.


368


369

EK-1

BGG Sahasında Yapılan Önceki Çalı � malar

BGG sahasında bu güne kadar onlarca uygulama sistemi, farklı

guruplar tarafından ticari ve akademik amaçlı geli � tirilmi � tir. Tanıtaca� ımız sistemlerden, ticari olanlar LEXIS/NEXIS, DIALOG,

Dow QR, INSPECT, STAIRS, MEDLARS ve GARALDI (Türkçe);

akademik olanlarsa SMART, INQUERY, DR-LINK, TÜRDER ve

KMBGG sistemleridir (Ka� garlı Mahmut Bilgi Geri-Getirim Sistemi).

LEXIS/NEXIS sistemi ticari bir geri-getirim sistemidir. Sistem

hukuk (LEXIS) ve gazete (NEXIS) yazıları geri-getirimi üzerine

yo � unla� mı � tır. Sorgu yöntemi olarak boole e� le� tirme yordamını esas

alır, yani geri-getirilen belgeler, sorguda yazılan kelimelerle bire-bir

e� le� enleri içerenlerdir. Sorgu olu� turmada iki joker-karakter

kullanımına izin vermektedir: “ * ” karakteri herhangi bir tek harfi

(örne� in “ bilg*” ile “ bilgi” , “bilgiç” , “bilim” ve “bilgin” kelimeleri

ama “bilimsel” de� il) ve “ !” karakteri herhangi bir kelimeye

getirilebilecek � ngilizce dilbilimsel eki (örne� in, “ transport!” kelimesi

“ transportation” , “ transporting” vb. kelimeleri). (“ * ” için verilen

örnekte, böyle basite indirgenmi � bir nevi gövde üretiminin Türkçe için

kullanımında ne tür sakıncaları olabilece� i de rahatlıkla

görülebilmektedir. Yöntem analitik diller için uygundur, ancak kelime

türetmek için ek sistemi kullanan dillere uygun de� ildir. “bilim” ve

“bilgin” ). En son sürümlerinde do� al dilde yazılan sorguları kullanma

e� ilimindedir. Bunun sebebi geri-getirim modeli olarak vektör uzayını

benimsemesidir. Belge temsilinde: durma kelimelerini ayıklama ve

kelime gurupları tespit alt adımlarını kullanır. Sorgu olu� turma ve


370

sonuç listesinde göz-atma (browsing) hizmeti Z39.50 standardına

uygundur.

DIALOG sistemi ticari bir sistemdir. Sistem i � dünyası, hukuk,

resmi, tıbbi, gazete, insan, bilim, sosyal bilimler ve teknoloj i

sahalarında belgeler üzerinde i � lem yapar. Sorgu olu� turma ve

e� le� tirme yöntemi boole yordamıdır. Sistem sorguda “?” joker-

karakter kullanımına izin verir. Böylece bir kelimenin farklı yazım

biçimlerinin, örne� in “bilgi” , “bilgiler” ve “bilgin” kelimeleri “ bilgi?”

� eklindeki tek bir biçimde temsil edilebilmektedir. E� -anlamlılar

sözlü� ü kullanımı yoktur. Kullanıcının sorgularını kaydetmesine izin

verilir ve e� er sistemin hedefindeki belge uzayına kayıtlı sorgu ile

alakalı yeni bir belge eklenirse, kullanıcı uyarılır (routing/filtering).

DOW JONES NEWS/RETRIEVAL (Dow QR) sistemi ticari bir

sistemdir. Sistem 1900 civarında haber kayna� ını taramaktadır. Di � er

ticari sistemlerde oldu� u gibi sorgu olu� turma ve e� le� tirme yöntemi

boole yordamıdır. Sorgu ayrıca, tarih, kategori ve konu ba� lı � ı, belge

kısımları ve belirli kaynaklar esasında kısıtlanabilmektedir.

TOPIC sistemi de ticari bir geri-getirim sistemidir. Sistemin

kullanıcıya sa� ladı � ı � ey, kendi BGG sistemini kurabilmesi için geri-

getirim hizmetleridir. TOPIC “ içerik” olarak adlandırılan bir

hiyerar � iye dayalıdır, yani sisteme indekslemesi için yüklenen belge

kümesindeki konu ba� lıkları, bir hiyerar � iye göre sistem tarafından

düzenlenir. Sistem, ba� lıkları düzenlerken de� eri 0 (sıfır) i le 1 (bir)

arasında de� i � en nicel bir ili � ki/alaka ölçütü kullanır. Sorgu ile alakalı

bulunan sonuç kümesi belgeleri, bu hesaplanan alaka de� erinin azalan

sırasında listelenir. TOPIC “gövdeleme” yordamı kullanır. Ayrıca

joker-karakter kullanımına da izin verir: “ ?” tek harf, “ *” herhangi bir


371

karakter dizisi ve “ [a-z]” iki kö � eli parantez içine alınmı � karakter

kümesi. Sorgu olu� tururken, kullanıcı sorguda kullandı � ı terimlere 0

(sıfır) ile 1 (bir) arasında a� ırlıklar vererek, e� le� tirme yordamını

yönlendirebilir.

INSPEC fizik, elektrik elektronik, bilgisayar ve kontrol, bilgi

teknolojileri alanında çıkan yayınların 1969’dan bu yana toplandı � ı bir

veritabanıdır. 1977 yılında seksen ülkenin faydalandı � ı bir sistem

haline gelmi � tir. INSPEC veritabanına Internet’ ten eri � mek ya da

veritabanının tamamını veya bir kısmını CDROM ortamına

kaydedilmi � � ekli i le almak mümkündür. � u an INSPEC bünyesinde

altı milyon civarında kayıt bulunup, yılda ortalama 300.000 kayıt ilave

edilmektedir.

STAIRS sistemi IBM tarafından geli � tiri lmi � ticari bir sistemdir.

Sayısal belge temsilinde: kelimeler ba� tan belirli bir sayıda harfi

içerecek � ekilde sondan kesilir. Belgeler ile terimler arasında alakaya

göre bir a� ırlık de� eri atanır. E� -anlamlılar sözlü� ü yardımı ile terimler

e� anlamlıları ile de� i � tirilir. Sorgu hazırlama boole kurgusuna uygun

yapılır. Ancak, yakalamada vektör uzayı modelini kullanır.

MEDLARS (Medical Literature Analysis and Retrieval System),

tıbbi konulara odaklanmı � bir sistemdir. MEDLARS sisteminin en

önemli özelli � i MESH (Medical Subject Heading) adı verilen, tıbbi

metinlerin indekslenmesinde kullanılan terimleri ve birbiri ile anlamsal

ili � kilerini içeren tıp konu ba� lıkları sözlü� üdür. MEDLARS

sisteminde, gelen belgelerin dizinlenmesi tıp alanında uzmanla� mı � ve

sistemi bilen ki � ilerce yapılmaktadır. Sistemden yararlanmak isteyen

kullanıcı ihtiyaç duydu� u bilgiyi elle bir kalıba i � ler. MEDLARS

bünyesinde çalı � an danı � manlar bu bilgileri çözümleyerek ve MESH


372

sözlü� ünü de dikkate alarak duyulan ihtiyacı sistemin öngördü� ü

biçimde yeniden ifade ederler ve sonuçlar kullanıcıya çevrim-dı � ı

sunulur.

GARALDI Türkiye’nin ilk ticari bilgi eri � im sistemidir, TTGV

destekli bir proje niteli � inde olan GARILDI (Gazete Ar � ivi ve � leti � im

Dizgesi), Aybim Bilgisayar Tic. Lim. tarafından gerçekle� tirilmi � tir. GARILDI sisteminin ilk sürümü Sabah gazetesinin Internet’ teki

adresine konmu� tur. � u an Sabah, Cumhuriyet gazetelerini ve Aktüel,

Gezi, Para, Topsante, Cosmopolitan, Gurme, Power, Otohaber,

PcMagazin, Baazar gibi birçok derginin ar � ivine eri � mek mümkündür.

SMART, Cornell üniversitesinde geli � tirilmi � akademik amaçlı

bir sistemdir ve tüm bilgi geri-getirim sistemlerinin atası olarak bilinir

(Salton, 1971; Salton and McGill, 1983). Sistem : 1-) tamamen

otomatik indeksleme kullanır. 2-) belgelerin otomatik kümelemesini ve

küme ortaçlarının (centroids) hesabını yapar. 3-) Sorgu ve belge

arasındaki alaka hesaplamalarını yapar, alakalı belgeleri, belgelerin

sorgu ile olan alaka derecelerine göre azalan sırada listeler. 4-)

Belgeleri ve sorguları, vektör uzayında a� ırlıklandırılmı � vektörler

olarak temsil eder. 5-) Sistemde, kullanıcıdan geri-bildirilecek

enformasyon sorgu inceltme amaçlı olarak kullanır. SMART sistemi,

ara� tırma sahasında çok yaygın bir � ekilde kullanılmaktadır ve di � er

geli � tirilen bilgi geri-getirim sistemlerinin ba� arım ölçümlerinde taban

çizgisidir.

INQUERY sistemi Massachusetts üniversitesinde geli � tirilmi � tir (Callan et al, 1992). Sistem, geri-getirim yöntemi olarak olasılık

kuramını esas alan yordamlar kullanmaktadır. ARPA sponsorlu� undaki

TIPSTER projesinin ilk aya� ında (TREC-I) çok büyük veri-


373

tabanlarının, olasılık kuramına dayalı geri-getirim yöntemlerin

denenmesi çalı � malarında kullanılmı � tır (Broglio et al., 1994).

Kullanılan veri-tabanının büyüklü� ü yakla� ık 3 gigabyte civarındadır.

INQUERY olasılık esaslı sonuç-çıkarma a� ı modelini (Inference

Network) esas almaktadır. Sistemde uygulanan bu olasılık esaslı

yöntem (aslen Bayes kuramı olarak anılan sonuç çıkarma yöntemidir),

elde edilen delillerin topluca kullanımını imkanlı kılar. Daha do� rusu,

INQUERY, de� i � ik metin temsilleri (kelimeler, kelime gurupları,

paragraflar veya elle belirlenmi � anahtar kelimeler) ve aynı sorguların

farklı uyarlamalarının (do � al dilde olu� turulanlar veya boole esaslılar)

tutarlı bir biçimde olasılık tabanında bir yapılanma içinde

birle� tirilmesini olanaklı kılmaktadır. INQUERY, dilbilimsel

özelliklerin de sınanabildi � i bir sistemdir. TREC-I kapsamında

özellikle gövdeleme ve kelime guruplarının kullanımı yo � un bir � ekilde

sınanmı � tır. Ancak geri-getirim ba� arımında sa� lanan geli � im ya kayda

de� er bir miktar olmamı � ya da uygulanmasının maliyetine kar � ın

yetersiz kalmı � tır. Sadece kelime guruplarının sorgu inceltme için

kullanımında, umut veren bir takım geli � imler sa� lanabilece� i

belirtilmi � tir.

DR-LINK (Document Retrieval through Linguistic Knowledge)

yine TIPSTER projesi kapsamında Syracuse Üniversitesi tarafından

geli � tirilmi � tir (Liddy and Myaeng, 1993). DR-LINK dilbilim

kuramlarını esas alarak � imdiye kadar geli � tiri lmi � tek sistemdir. Sistem

sayısal belge temsili için di � er bilinen tüm sistemlerden farklı olarak,

kelime/belge a� ırlıkları ile olu� turulan belge vektörü yerine,

kelimelerin “ içerik” belirteçleri ile olu� turulmu� vektörleri

kullanmaktadır. Ancak yapılan bu etraflı çalı � manın sonuçları da

di � erlerinden farklı olmamı � tır.


374

TÜRDER, 1979 yılında Aydın Köksal’ ın Doçentlik tezi

kapsamında Hacettepe üniversitesi Bilgisayar Mühendisli � i bölümü

bünyesinde gerçekle� tirilmi � , vektör uzayı modelinde kısmen geri-

bildirimli bir bilgi geri-getirim sistemidir (Köksal, 1979). TÜRDER

esas olarak tasarım boyutunda kalmı � , bir kısmı gerçekle� tirilmi � tir. Sistemin gerçekle� tiriminde bildiri, kitap, makale, konu� ma/konferans

yayınları, tez, rapor � eklindeki bilimsel yayınları güvenli bir � ekilde

saklamak ve etkin eri � im sa� lamak amaçlanmı � sa da asıl amaç A.

Köksal tarafında � u biçimde ifade edilmektedir:

” TÜRDER, Türkçe Belge Dizinleme ve Eri � im Dizgesi, bilgi eri � im dizgesi tasarımı, geli � tir im ve i � letimine ili � kin çok yönlü kavramsal ve uygulamalı sorun alanlarında deneyler yapılabilmesi için gerekli ö� elerden olu� an, deneysel bir bilgi eri � im dizgesidir.”

(Köksal, 1979)

TÜRDER sisteminde, kelimeler sondan kesilerek indeksleme

yapılmaktadır. En yüksek ba� arımın ba� tan 5 harf kalacak � ekilde

sondan kesme ile elde edildi � i bildirilmi � tir. Bu çalı � ma, Türkçe’de ilk

gövdeleme giri � imi olması sebebiyle dikkat çekicidir. Türkçe’de

gövdeleme ile BGG sistemlerinde geri-getirim ba� arımının

arttırılaca� ına deneysel bir kanıt olu� turmu� tur.

KMBGG sistemi (Ka� garlı Mahmut Bilgi Geri-Getirim Sistemi)

Hacettepe Üniversitesi tarafından yürütülmü� bir di � er projedir. Aslen,

Türkçe için SMART geri-getirim sistemi üzerinde geni � çaplı bir

uyarlanma çalı � masıdır (Sever vd., 1997). KMBGG sistemi dilbilimsel

yöntemler olarak e� -anlamlılar sözlü� ü (Thesaurus) ve kelime-

da� arcı � ına dayalı kural tabanlı gövdeleme kullanmaktadır. Ayrıca

Türkçe için, SMART üzerinde ek uyarlama çalı � maları da

gerçekle� tirilmi � tir. Bu çalı � ma, Türkçe’nin kendine has dilbilimsel


375

özelliklerinin BGG sahasında kullanımına ilk örnek olması açısından

büyük önem ta� ımaktadır. Örne� in, dilbilimsel gövdeleme i � leminin

BGG cemiyetinde yaygın olan kanının aksine, geri-getirim ba� arımını

arttırdı � ı, ilk bu çalı � mada uygulamalı olarak görülmü� tür.

Sistem seviyesinde yukarıda verdiklerimizin dı � ında ayrıca

TIPSTER projesi altında ve ba� ka platformlarda bir çok toplantı

yapılmı � ve çok de� i � ik çalı � ma gurupları analitik diller ve orta-Avrupa

dilleri için BGG sistemlerinde hesaplamalı dilbilim kullanımı

konusunda geni � ara� tırmalar yürütmü� lerdir. Alınan sonuçlar anlamlı

düzeylerde ba� arım artırımı ortaya koyamamı � tır. Dolayısı ile, BGG

cemiyeti içerisinde kanaatin de� i � mesine yardımcı olmamı � sa da,

çalı � maların incelenmesi uygulanan dilbilim yöntemlerinin hangi

dilbilim çözümleme seviyelerinde gerçekle� ti � inin belirlenmesine

yardımcı olacaktır.

Tanıtaca� ımız çalı � ma guruplarından ilki New York

üniversitesidir (Strzalkowski et al., 1995). Gurubun çalı � maları

hesaplamalı dilbilim yöntemlerinin, geleneksel istatistik esaslı BGG

sistemlerinde destekleme � eklinde kullanımı ile ba� arımın arttırılması

yönündedir. Toplam 2 gigabyte metnin tam söz-dizimsel

çözümlemesini yapmı � lardır. Bunu yaparken “ içeri � i” ta� ıyan

kelimelerin tespit edilmesine ve bu kelimeler arasındaki ili � kilerin

belirlenmesine u� ra� mı � lardır. Daha sonra elde ettikleri enformasyonu

sorguların geni � letilmesi ve inceltilmesi u� ra� larında kullanmı � lardır.

Kullandıkları süreçler tamamen otomatiktir ve verilen u� ra� ın büyük

bir kısmını, kullanılan dil-bilimsel yöntemlerin hızlı ve verimli

çalı � masına harcamı � lardır.


376

�kinci gurup “General Electric” firmasının ara� tırma ve geli � tirme

gurubudur (Jacobs, 1994). Hesaplamalı dilbilim yöntemleri ile bir

alı � tırma derleminden, enformasyon özetleme u� ra� ı sergilemi � lerdir.

Daha sonra elde edilen enformasyon, TREC çalı � malarının

yönlendirme (routing) etabında elle olu� turulan süzgeçler (filters) için

kullanılmı � tır.

TREC içindeki di � er bir gurup CLARITECH’dir (Evans and

Lefferts, 1994). Gurup CLARIT adını verdikleri istatistik esaslı bir

BGG sistemi tasarlamı � tır. Tasarımın dilbilimsel yönleri, sadece kelime

gurubu olarak “ isim tamlamalarını” kullanması ve otomatik bir e� -anlamlılar sözlü� ü olu� turmasıdır. Daha sonra isim tamlamaları sorgu

geni � letmek için kullanılmı � tır.

Dublin City Üniversitesinden bir gurupsa, belgeleri söz-dizimsel

çözümlemeden geçirerek, a� aç yapısı içerisinde temsil etmi � lerdir. Bu

gurubun yakla� ımı ile geri-getirim sonuç kümesini olu� turmak için

kullanılan e� le� tirme i � lemi, a� aç yapısında arama yapma � ekline

dönü� mektedir (Smeaton et al, 1995).

Siemens � irketinden bir gurup da WordNet24 (Miller, 1990)

kelime a� ını kullanarak sorgu geni � letme çalı � maları yapmı � tır (Voorhees et al., 1995).

Özellikle, Avrupa’da çok dilli bilgi geri-getirim önemli

meselelerin ba� ında gelmektedir. Bu yüzden “Avrupa Birli � i Ara� tırma

ve Mühendislik alt programı” hesaplamalı dilbilim yöntemleri

kullanımının geli � tirildi � i projeleri desteklemektedir. Desteklenen

24 WordNet kelimelerin sözlük anlamları arasında ili � kilerin betimlendi � i bir a� dır, yani kelime-a� ıdır.


377

çalı � malar içerisinde CRISTAL, Fransızca gazetelerdeki makalelerde

çok dilli geri-getirim yapılmasını sa� layan bir sistemdir. RENO benzer

� ekilde yazılı Fransızca resmi belgeler üzerinde çalı � an bir sistemdir.

SIMPR kelime guruplarını indekslemek için biçim-bilimsel

özelliklerden yararlanan bir di � er projedir. Orta-Avrupa dillerinde

yapılan çalı � maların özetleri için, Smeaton (1992) tarafından yapılan

ara� tırma güzel bir saha çalı � masıdır. Ayrıca özel olarak 7 (yedi) orta-

Avrupa dilli için sözcük türü belirleme çalı � malarının bir saha

ara� tırması da Dermatas and Kokkinakis’ in (1995) makalesinde

bulunmaktadır.


378


379

ÖZGEÇM ��

Yazar, 1970 yılında � zmir’de do� mu � tur. � lk, orta ve lise

ö� renimini Eski � ehir’de tamamladıktan sonra, 1988 yılında, yüksek

ö� renim görmek üzere Ankara’ya, Ortado� u Teknik Üniversitesine

gitmi � tir. 1994 yılında, � statistik bölümünden mezun olan yazar,

Ankara’da yüksek ö� reniminin son yılı da dahil olmak üzere üç yıl

boyunca özel sektörde sivil havacılık, dı � ticaret ve bili � im teknolojileri

sahalarında çalı � mı � tır. 1996 yılında, Mu� la Üniversitesinde � statistik

ve Bilgisayar bölümünde göreve ba� lamı � tır ve hala Mu� la

Üniversitesinde çalı � maktadır.

1996-1998 yılları arasında yüksek lisansını “Web Robotları”

konusunda, Sinan Neftçi ile Mu� la Üniversitesinde tamamlayan yazar,

1998 yılında Ege Üniversitesi, Uluslararası Bilgisayar Enstitüsünde

doktora çalı � masına ba� lamı � tır.

Mu� la Üniversitesinde 1996-2001 yılları arasında, ba� ta � statistik

ve Bilgisayar bölümü olmak üzere, de� i � ik bölümlerin lisans

programlarında “Tanımlayıcı � statistik” , “Matematiksel � statistik” ,

“Parametrik Olmayan � statistik” , “Çok De� i � kenli � statistik” , “Karar

Kuramı” , “Bilgi Teknolojileri” ve çe� itli bilgisayar programlama

derslerini vermi � tir.

Mu� la Üniversitesinde çe� itli görevlerde bulunan yazar,

Üniversitenin bilgi teknolojilerine geçi � ini sa� layan “Sayısal

Üniversite” projesinin mimarı ve yazarıdır. Halen yazılım ve a�

teknolojileri konusunda yeti � tirdi � i çalı � ma takımlarının yöneticili � ini

sürdürmektedir.

Documents

EGE ÜN VERS TES FEN B L MLER ENST TÜSÜ …yunus.hacettepe.edu.tr/~tonta/courses/spring2011/bby704/B...EGE ÜN VERS TES FEN B L MLER ENST TÜSÜ (DOKTORA TEZ) TÜRKÇE Ç N STAT