43
Türkçe’nin Bağlılık Ayrıştırması Gülşen Cebiroğlu Eryiğit

Türkçe Nedir

Embed Size (px)

DESCRIPTION

Türkçe Nedir

Citation preview

Page 1: Türkçe Nedir

Türkçe’nin Bağlılık Ayrıştırması

Gülşen Cebiroğlu Eryiğit

Page 2: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 2/45

Bağlılık AyrıştırmasıDoğal Dil İşleme ve Bölümleri

Page 3: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 3/45

Bağlılık Ayrıştırması• Sözcükler arasındaki ikili bağlılık ilişkilerinin

ayrıştırma başarımındaki önemli etkisinin anlaşılması,

• Bağlılık Ayrıştırması yönteminin, tümce içi sözcük dizilişleri serbest diller üzerindeki yetenekleri,

• Üst düzey uygulamalar için anlamlı bilgi üretmesi,

bu yöntemin son yıllarda sıkça kullanılır hale gelmesini sağlamıştır.

Page 4: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 4/45

Bağlılık Ayrıştırması• Güncel bağlılık grameri kuramının, Tesnière'in

1959'daki çalışmasına dayandığı söylenebilir. • Tesnière'e göre ``Tümce, kendisini oluşturan öğeleri

sözcükler olan düzenli bir topluluktur'‘• ``Zihin, tümceyi oluşturan sözcükler ve komşuları

arasında ilişkileri bulur ve bu ilişkilerin bütünütümcenin iskeletini oluşturur. Her bir ilişki bir alt terimi bir üst terime bağlamaktadır.''

• Günümüzde DDA alanında kullanılan bağlılıkgramerlerinde bu ilişki uydu (alt terim) - iye (üstterim) ilişkisi olarak tanımlanmaktadır. Bağlılıkgrameri tabanlı metin ayrıştırmasının amacı metiniçerisinde geçen her tümce için tümceyi oluşturansözcükler arasındaki uydu-iye ilişkilerini bulmaktır.

Page 5: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 5/45

Bağlılık Ayrıştırması

Page 6: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 6/45

Bağlılık Ayrıştırması

Uydu İye

Page 7: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 7/45

Türkçe

Tümce içi öğe dizilişleri serbest– Genelde ÖNY veya NÖY kalıpları

Page 8: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 8/45

Türkçe

Çok zengin bitişken biçimbirimsel yapı– Eklerin sona eklenmesiyle yüzlerce farklı

yeni sözcük

gidiyorumgidiyorsungideceğimgideceksingidebilirimgitmekteyim..........

Page 9: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 9/45

Türkçe

Çok zengin bitişken biçimbirimsel yapı– Eklerin sona eklenmesiyle yüzlerce farklı

yeni sözcük– Sözcük çeşitliliğindeki zenginlik– Sözcük etiketlerinin durum, kişi, sayı,

cinsiyet gibi birçok bilgiyi taşımaları ve bu nedenle çok sayıda etiket oluşması

Page 10: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 10/45

Türkçe

Zengin türetim yapısı

Veda – laş – ma

Oku – t – ul – an

Page 11: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 11/45

TürkçeÇekim Kümeleri

sağlamlaştırdığımızdaki

Page 12: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 12/45

Türkçe - Çekim Kümeleri

sağlamlaştırdığımızdaki

Page 13: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 13/45

Türkçe - Çekim Kümeleri

sağlamlaştırdığımızdaki

Türetim Sınırı

Çekim Kümesi

Sözcük başına ortalama 1.26 ÇK

Page 14: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 14/45

Türkçe

• Çoğunlukla sağa bağımlı türde bağlılıklar

.

Page 15: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 15/45

Türkçe

Page 16: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 16/45

Bağlılıklar ÇK’ler arasında kurulur

küçük odadayım

Türkçe - Bağlılık Yapısı

İsim + 3.tekil kişi eki + İyelik eki yok + ismin de hali ekiEylem + şimdiki zaman + 1. tekil kişi eki

Page 17: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 17/45

Türkçe - Bağlılık Yapısı

Bağlılıklar ÇK’ler arasında kurulur

Page 18: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 18/45

Türkçe Ağaç Yapılı Derlem

ODTÜ-Sabancı Türkçe Ağaç Yapılı Derlem– 5635 tümce – yetkin biçimbirimsel etiketler– etiketli bağlılıklar– bağlılıkların %95’i sağa bağımlı bağlılıklar– XML biçiminde– ÇK’ler arası bağlılıklar

Page 19: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 19/45

Derlem

Page 20: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 20/45

Derlem

Page 21: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 21/45

Derlem

Page 22: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 22/45

Derlem

Page 23: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 23/45

Sınıflandırıcı Tabanlı Ayrıştırıcı

• Bağlılık grafiğini oluşturmak için kullanılangerekirci bir ayrıştırma algoritması,(Kudo ve Matsumoto, 2002; Yamada ve Matsumoto, 2003; Nivre,2003 )

• Ayrıştırıcının bir sonraki hareketini belirlemeküzere kullanılan geçmişe dayalı ayrıştırma modeli(Black ve diğ., 1992; Magerman, 1995; Collins, 1999)

• Geçmişte olan olayları ayrıştırıcının hareketleri ileilişkilendirmek üzere kullanılan ayırdedicisınıflandırıcı (Veenstra ve Daelemans, 2000; Kudo ve Matsumoto,2002; Nivre ve diğ., 2004) (KDM: karar destek makineleri)

Page 24: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 24/45

Geçmişe dayalı özellik modeliHedef birimler ve bunlarla ilişkili birimler için

özellik vektöründe kullanılabilecek özellikler:

• Görünüm bilgisi (tümü veya gövdesi)

• Sözcük sınıfı (ana sınıf veya alt sınıf)

• Biçimbirimsel özellikler

• Bağlılık türü (Eğer bağlanmışsa)

Page 25: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 25/45

Tasarım Modelleri

• Birim Seçim Modelleri– Sözcük Tabanlı Model– ÇK Tabanlı Model– ÇK Tabanlı Belirlenimci Model

• Biçimbirimsel Özelliklerin Kullanımı ile ilgili Modeller– ÇK tabanlı (INF birleşik) model– ÇK tabanlı (INF parçalı) model

Page 26: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 26/45

Birim Seçim ModelleriSözcük Tabanlı Model

Page 27: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 27/45

Birim Seçim ModelleriSözcük Tabanlı Model

+Noun +Loc+P2pl +Verb

(Eryiğit and Oflazer (2006)’e benzer şekilde)

Page 28: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 28/45

Birim Seçim ModelleriSözcük Tabanlı Model

+Noun +Loc+P2pl +Verb

Page 29: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 29/45

Birim Seçim ModelleriSözcük Tabanlı Model

+Noun +Loc+P2pl +Verbaraba

LEX POS

Page 30: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 30/45

• Ayrıştırma Birimi : ÇK’ler• Sözcük İçi bağlılıklar, gerçek bağlılıklar gibi

KDM tarafından belirlenirler.

Birim Seçim ModelleriÇK Tabanlı Model

Page 31: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 31/45

• Ayrıştırma Birimi : ÇK’ler• Sözcük İçi bağlılıklar, gerçek bağlılıklar gibi

KDM tarafından belirlenirler.

Birim Seçim ModelleriÇK Tabanlı Model

ÇK Tabanlı Belirlenimci Model• Sözcük İçi bağlılıklar, KDM’ye başvurulmadan

belirlenimci bir şekilde işlenirler.

Page 32: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 32/45

Birim Seçim Modelleri

Page 33: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 33/45

Biçimbirimsel Özelliklerin KullanımıÇK tabanlı (INF birleşik) model• Biçimbirimsel özellikler üzerinde indirgeme

yok

• Tüm biçimbirimsel özellikler kullanımda– Ana sözcük sınıfına ek olarak ve– Özellik modelinde ayrı bir özellik olarak

Noun +A3sg+P2pl+LocPOS INF

Page 34: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 34/45

Biçimbirimsel Özelliklerin Kullanımı

ÇK tabanlı (INF birleşik)+A3sg+P2pl+Loc

ÇK tabanlı (INF parçalı): her bir parçacık ayrı bir özellik olarak kullanılır.

+A3sg +P2pl +Loc

Page 35: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 35/45

Sınıflandırıcı Tabanlı AyrıştırıcıDeney Sonuçları – Tüm Derlem

Page 36: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 36/45

Özellik KalıbıEn yüksek başarımların elde edildiği özellik kalıbı:

Aday uydu Aday İye Yığın1

Uydunun sağındaki birim Kuyruk1

Uydunun en sol uydusu

Uydunun en sağuydusu

İyenin en sol uydusu

Page 37: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 37/45

Ayrıştırıcı Başarımları

SB TB

Page 38: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 38/45

CoNLL-X Ortak Çalışması• CoNLL-X (Conference on Natural Language Learning)

Shared Task on Multi-lingual Dependency Parsing, Haziran 2006, New York

• 17 araştırma grubu• 14 farklı dil

Arapça, Çince, Çekçe, Danca, Macarca, Felemenkçe, Almanca, Japonca, Portekizce, Slovakça, İspanyolca, İsveççe, Türkçe, Bulgarca

• CoNLL-X veri biçimi, derlem dönüşümleri• Başarım ölçütü ÇKBE• Türkçe için en yüksek başarım

Page 39: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 39/45

CoNLL-X Ortak Çalışması• Türkçe derlem, ortak çalışmanın en zor

derlemi olarak gösterilmiştir. (Buchholz ve Marsi, 2006)

• Sekiz farklı türden metin, 25 farklı bağlılık türü

• Sınama verisinde yeni sözcük görülme oranı en yüksek dil

• Başarımlar %37.8 - %65.7 arasında

Page 40: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 40/45

CoNLL-X Ortak ÇalışmasıTürkçe Bölümü

Page 41: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 41/45

Sonuçlar• Türkçe’nin bağlılık ayrıştırması konusundaliteratürdeki en yüksek sonuçlar elde edilmiştir.• Ayrıştırmada ana birim olarak sözcükler yerine

ÇK’lerin kullanılmasının başarımı arttırdığı,• Biçimbirimsel özelliklerin kullanılmasının

Türkçe’nin ayrıştırmasında vazgeçilemez bir yere sahip olduğu gösterilmiştir.

• Görünüm bilgisi özelliklerini kullanmanın, Türkçe'nin bağlılık ayrıştırması başarımındaönemli artışa neden olduğu gösterilmiştir.

Page 42: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 42/45

Araçlar• Türkçe Derlem, Kemal Oflazer, Bilge Say, Nart Atalay• Biçimbirimsel Çözümleyici, Kemal Oflazer• Sözcük Etiketleyici, Deniz Yüret• Maltparser sınıflandırıcı tabanlı ayrıştırıcı platformu,

Joakim Nivre ve ekibi• LibSVM, C.W. Hsu, C.C. Chang, C.J. Lin

Page 43: Türkçe Nedir

Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 43/45

Referanslar• Nivre, J., Hall, J., Nilsson, J., Chanev, A., Eryiğit, G., Kübler, S.,

Marinov, S., and Marsi, E., 2007. MaltParser: A Language-Independent System for Data-Driven Dependency Parsing, Natural Language Engineering Journal 13(1), 1-41 Cambridge Press.

• Eryiğit, G., and Oflazer, K., 2006. Statistical dependency parsing of Turkish. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, Trento, Italy, April.

• Nivre, J., Hall, J., Nilsson, J., Eryiğit, G. and Marinov, S., 2006. Labeled Pseudo-Projective Dependency Parsing with Support Vector Machines. Proceedings of the Tenth Conference on Computational Natural Language Learning, New York, USA, June.

• Eryiğit, G., Adalı, E. and Oflazer, K., 2006. Türkçe Cümlelerin KuralTabanlı Bağlılık Analizi. In Proceedings of the 15th Turkish Symposium on Artificial Intelligence and Neural Networks, Muğla, Turkey, June.

• Eryiğit, G., Nivre, J. and Oflazer, K., 2006. The incremental use of morphological information and lexicalization in data-driven dependency parsing, Proceedings of the 21st International Conference on the Computer Processing of Oriental Languages, Sentosa, Singapore, December.