4
Ki¸ sisel Görüntü Kümelerinin ˙ Içsel Özellikler Kullanılarak Özetlenmesi Summarizing Personal Image Collections with Intrinsic Properties Göksu Erdo˘ gan, Bora Çelikkale, Aykut Erdem, Erkut Erdem Bilgisayar Mühendisli˘ gi Bölümü, Hacettepe Üniversitesi, Ankara, Türkiye {goksuerdogan, ibcelikkale, aykut, erkut}@cs.hacettepe.edu.tr Özetçe —Görsel özetleme problemleri do˘ gası gere˘ gi kar- ma¸ sıktır. Zira özetin tanımı bir miktar belirsizlik ta¸ sımaktadır ve tek bir do˘ grudan söz edilemez. ˙ Iyi bir özet, genellikle ¸ su iki temel özelli˘ ge ba˘ glı olarak belirlenir: (i) kapsam ve (ii) çe¸ sitlilik. Bir özetin iyi olması için kapsamının geni¸ s olması gerekir. Ba¸ ska bir deyi¸ sle, özet verilen kümedeki kilit olayları ve kavramları içermelidir. Aynı zamanda iyi bir özetin çe¸ sitlili˘ ginin de iyi olması gerekir yani aynı veya benzer olay ve kavram- lar özette tekrarlanmamalıdır. Sosyal medya uygulamalarının yaygınla¸ sması ile kapsam ve çe¸ sitlili˘ ge ek olarak görüntülerin kalite, duygu uyandırma, popülerlik gibi içsel özellikleri de önem kazanmı¸ stır. Çalı¸ smamızda ki¸ sisel görüntü kümelerini otomatik özetleme i¸ slemi için, bir özetin sahip olması gereken iki temel özelli˘ gin yanısıra görüntünün içsel özelliklerini de hesaba katan bir yöntem önerilmi¸ stir. Geli¸ stirilen bu yöntem çe¸ sitli ki¸ sisel görüntü kümelerinin kitle kaynaklı toplanan özetleri ile kıyaslan- mı¸ s ve içsel özelliklerin dikkate alınmasının elde edilen özetleri iyile¸ stirdi˘ gi gözlemlenmi¸ stir. Anahtar KelimelerGörüntü Kümesi Özetleme, ˙ Içsel Özellikler. Abstract—Visual summarization problems are complex intrin- sically. Because definition of a summary have some ambiguity and only one correct summary does not exist. A good summary consists of two main properties in general which are (i) coverage and (ii) diversity. A good summary should have high coverage. On the other words summary should consist of key events and concepts for given set. At the same time a good summary should also be diverse, i.e it should not consist of similar events and concepts. In addition to these two main properties, intrinsic properties such as quality, emotions, popularity of images increase in importance depending on prevalence of social media applica- tions. We proposed an automatic summarization method which considers intrinsic properties of images in addition to coverage and diversity for personal image collection summarization. This developed method is compared with summaries of different personal image collections which are collected by crowdsourcing and it is observed that the taking intrinsic properties into account improves the summaries. KeywordsImage Set Summarization, Intrinsic Properties. Bu çalı¸ sma kısmen TÜB ˙ ITAK 113E497 nolu proje tarafından desteklen- mi¸ stir. I. G ˙ IR ˙ S Günümüzde ya¸ sanan teknolojik geli¸ smeler, akıllı telefonları hayatımızın önemli bir parçası haline getirmi¸ stir. Bu geli¸ smeler telefonların öncelikli i¸ slevi olan ileti¸ simi sa˘ glama özelli˘ ginin yanında kamera olarak kullanılabilmesine olanak sa˘ glamı¸ stır. Bunlara ek olarak sosyal medya uygulamalarının özendirici rolü görüntü verisinin her geçen gün büyük bir hızla art- masına sebep olmaktadır. Elde edilen son verilere göre her gün sadece Flickr, Facebook, Instagram ve Snapchat üzerinden 500 milyon resim payla¸ sılmaktadır [9]. Do˘ gum günümüzü kutlamak için büyük bir parti ayarladı˘ gımızı varsayalım. Her anımızı foto˘ graflarla ölümsüzle¸ stirmek isteriz ve buna ba˘ glı olarak birçok foto˘ graf çekeriz. Sonrasında etkinli˘ gin basılı bir albümünü olu¸ sturmak istedi˘ gimizde ya da sosyal medya hesabımıza yüklemek istedi˘ gimizde farklı ki¸ silerle, farklı an- larda çekilmi¸ s güzel foto˘ graflardan olu¸ san bir küme seçmeye özen gösteririz. Bunun için, bu bir yı˘ gın foto˘ grafı tek tek elden geçirmenin yanısıra hangisinin daha güzel oldu˘ guna karar vermeye çalı¸ smak hem zaman alıcı hem de yorucudur. Son zamanlarda görüntülerden bazı içsel özellikler çıkar- maya dayanan yöntemler sıkça çalı¸ sılmaya ba¸ slamı¸ stır. Sosyal medya hesabımıza yükledi˘ gimiz görüntülerin çok be˘ geni al- masını ya da albümümüze koymak istedi˘ gimiz görüntülerin içimizde güzel duygular uyandırmasını isteyebiliriz. Bu du- rumda görüntülerden çıkaraca˘ gımız içsel özellikler, ki¸ sisel ter- cihlerimizi çıkarılacak özete yansıtabilmemize olanak sa˘ glar. Örne˘ gin, Gygli vd. görüntülerin insanlar için ne kadar ilginç oldu˘ gunu bulmaya çalı¸ smı¸ stır [10]. Bir görüntünün ilginçli˘ gini görüntünün estetikli˘ giyle ve nadirli˘ giyle ili¸ skilendirmi¸ slerdir. Khosla vd. ise çalı¸ smasında [3] bir görüntünün popüler olma ihtimalini tahmin etmeye çalı¸ smı¸ stır. Borth vd. tek bir özelli˘ gi bulmak yerine görüntünün insanda uyandırdı˘ gı birçok his ve duyguyu ölçmeye çalı¸ smı¸ stır [4]. Bir ba¸ ska çalı¸ smada [11] ise resimlerin akılda kalıcık (ing. memorability) de˘ gerleri hesa- planmaya çalı¸ sılmı¸ stır. Çalı¸ smamızda görüntülerden çıkarılan içsel özellikler görüntü kümelerini özetleme yöntemini iy- ile¸ stirmek için önerilmi¸ stir. ˙ Içsel özelliklerin etkisi determi- nantsal nokta süreçleri (ing. determinantal point processes) (DPP) [2] ve çe¸ sitlilik sıralama (ing. diversity ranking) [7] 978-1-5090-1679-2/16/$31.00 c 2016 IEEE

Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak …aykut/papers/siu2016_3.pdf · 2016-08-03 · Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak …aykut/papers/siu2016_3.pdf · 2016-08-03 · Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak

Kisisel Görüntü Kümelerinin Içsel ÖzelliklerKullanılarak Özetlenmesi

Summarizing Personal Image Collections withIntrinsic Properties

Göksu Erdogan, Bora Çelikkale, Aykut Erdem, Erkut Erdem

Bilgisayar Mühendisligi Bölümü, Hacettepe Üniversitesi, Ankara, Türkiye{goksuerdogan, ibcelikkale, aykut, erkut}@cs.hacettepe.edu.tr

Özetçe —Görsel özetleme problemleri dogası geregi kar-masıktır. Zira özetin tanımı bir miktar belirsizlik tasımaktadırve tek bir dogrudan söz edilemez. Iyi bir özet, genellikle suiki temel özellige baglı olarak belirlenir: (i) kapsam ve (ii)çesitlilik. Bir özetin iyi olması için kapsamının genis olmasıgerekir. Baska bir deyisle, özet verilen kümedeki kilit olayları vekavramları içermelidir. Aynı zamanda iyi bir özetin çesitliligininde iyi olması gerekir yani aynı veya benzer olay ve kavram-lar özette tekrarlanmamalıdır. Sosyal medya uygulamalarınınyaygınlasması ile kapsam ve çesitlilige ek olarak görüntülerinkalite, duygu uyandırma, popülerlik gibi içsel özellikleri de önemkazanmıstır. Çalısmamızda kisisel görüntü kümelerini otomatiközetleme islemi için, bir özetin sahip olması gereken iki temelözelligin yanısıra görüntünün içsel özelliklerini de hesaba katanbir yöntem önerilmistir. Gelistirilen bu yöntem çesitli kisiselgörüntü kümelerinin kitle kaynaklı toplanan özetleri ile kıyaslan-mıs ve içsel özelliklerin dikkate alınmasının elde edilen özetleriiyilestirdigi gözlemlenmistir.

Anahtar Kelimeler—Görüntü Kümesi Özetleme, Içsel Özellikler.

Abstract—Visual summarization problems are complex intrin-sically. Because definition of a summary have some ambiguityand only one correct summary does not exist. A good summaryconsists of two main properties in general which are (i) coverageand (ii) diversity. A good summary should have high coverage.On the other words summary should consist of key events andconcepts for given set. At the same time a good summary shouldalso be diverse, i.e it should not consist of similar events andconcepts. In addition to these two main properties, intrinsicproperties such as quality, emotions, popularity of images increasein importance depending on prevalence of social media applica-tions. We proposed an automatic summarization method whichconsiders intrinsic properties of images in addition to coverageand diversity for personal image collection summarization. Thisdeveloped method is compared with summaries of differentpersonal image collections which are collected by crowdsourcingand it is observed that the taking intrinsic properties into accountimproves the summaries.

Keywords—Image Set Summarization, Intrinsic Properties.

Bu çalısma kısmen TÜBITAK 113E497 nolu proje tarafından desteklen-mistir.

I. GIRIS

Günümüzde yasanan teknolojik gelismeler, akıllı telefonlarıhayatımızın önemli bir parçası haline getirmistir. Bu gelismelertelefonların öncelikli islevi olan iletisimi saglama özelligininyanında kamera olarak kullanılabilmesine olanak saglamıstır.Bunlara ek olarak sosyal medya uygulamalarının özendiricirolü görüntü verisinin her geçen gün büyük bir hızla art-masına sebep olmaktadır. Elde edilen son verilere göre hergün sadece Flickr, Facebook, Instagram ve Snapchat üzerinden500 milyon resim paylasılmaktadır [9]. Dogum günümüzükutlamak için büyük bir parti ayarladıgımızı varsayalım. Heranımızı fotograflarla ölümsüzlestirmek isteriz ve buna baglıolarak birçok fotograf çekeriz. Sonrasında etkinligin basılıbir albümünü olusturmak istedigimizde ya da sosyal medyahesabımıza yüklemek istedigimizde farklı kisilerle, farklı an-larda çekilmis güzel fotograflardan olusan bir küme seçmeyeözen gösteririz. Bunun için, bu bir yıgın fotografı tek tekelden geçirmenin yanısıra hangisinin daha güzel oldugunakarar vermeye çalısmak hem zaman alıcı hem de yorucudur.

Son zamanlarda görüntülerden bazı içsel özellikler çıkar-maya dayanan yöntemler sıkça çalısılmaya baslamıstır. Sosyalmedya hesabımıza yükledigimiz görüntülerin çok begeni al-masını ya da albümümüze koymak istedigimiz görüntüleriniçimizde güzel duygular uyandırmasını isteyebiliriz. Bu du-rumda görüntülerden çıkaracagımız içsel özellikler, kisisel ter-cihlerimizi çıkarılacak özete yansıtabilmemize olanak saglar.Örnegin, Gygli vd. görüntülerin insanlar için ne kadar ilginçoldugunu bulmaya çalısmıstır [10]. Bir görüntünün ilginçliginigörüntünün estetikligiyle ve nadirligiyle iliskilendirmislerdir.Khosla vd. ise çalısmasında [3] bir görüntünün popüler olmaihtimalini tahmin etmeye çalısmıstır. Borth vd. tek bir özelligibulmak yerine görüntünün insanda uyandırdıgı birçok his veduyguyu ölçmeye çalısmıstır [4]. Bir baska çalısmada [11] iseresimlerin akılda kalıcık (ing. memorability) degerleri hesa-planmaya çalısılmıstır. Çalısmamızda görüntülerden çıkarılaniçsel özellikler görüntü kümelerini özetleme yöntemini iy-ilestirmek için önerilmistir. Içsel özelliklerin etkisi determi-nantsal nokta süreçleri (ing. determinantal point processes)(DPP) [2] ve çesitlilik sıralama (ing. diversity ranking) [7]

978-1-5090-1679-2/16/$31.00 c©2016 IEEE

Page 2: Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak …aykut/papers/siu2016_3.pdf · 2016-08-03 · Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak

yöntemleri ile çıkarılan özetler üzerinde gösterilmistir.

Bu çalısmadaki katkılarımız su sekilde özetlenebilir:

1) Kisisel görüntü kümesi özetleme problemi için kul-lanıma açık etiketli bir veri kümesi bulunmadıgından,veri kümesi toplama yoluna gidilmistir. Veri kümesin-deki her kisisel görüntü kümesi için, dayanak olarakkullanmak üzere kitle kaynaklı (ing. crowdsourcing)olarak kullanıcılardan özetler toplanmıstır.

2) Kisisel görüntü kümesi özetlerken görüntünün içer-iginin yanısıra görüntünün içsel özelliklerinin kul-lanılmasının çıkarılan özetlerin basarısına etkisi gös-terilmistir.

Bildirinin geri kalanı su sekilde düzenlenmistir:Bölüm II’de öncelikle kullanılan yöntemin detaylarındanbahsedilmistir. Daha sonra Bölüm III’te nicel ölçümlerinsonuçlarına, karsılık geldikleri görsel özetlere yer verilmis vesonuçlar detaylı olarak yorumlanmıstır.

II. YÖNTEM

Çalısmada önerilen yöntem dört bölümde anlatılmıstır.Öznitelik Çıkarma bölümünde görüntülerden öznitelik çıkarmaislemi ve çıkarılan özniteliklerin hangi bilgileri tasıdıklarıdetaylandırılmıstır. Devamındaki Içsel Özellikler bölümündegörüntülerden çıkarılan mantıksal özelliklerden ve nasılçıkarıldıklarından bahsedilmistir. Son iki bölümde ise çıkarılantüm özelliklerin iki farklı yöntemle özetleme islemine nasıldahil edildigi anlatılmıstır.

A. Öznitelik Çıkarma

Görüntülerden her biri görüntüye dair farklı bilgileritasıyan üç öznitelik çıkarılmıstır. Bu üç öznitelik, her görüntüiçin tek bir öznitelik vektörü elde etmek amacıyla arka arkayaeklenmistir. Öznitelik çıkarma islemi sözlük ögrenme gerek-tirdiginden her bir görüntü kümesi için ayrı ayrı tekrarlan-mıstır.

1) Renk bilgisi: Bu öznitelik, görüntünün genelindeki renkbilgisini ifade etmek için kullanılmıstır. Ancak genel olarakkullanılan histogram yaklasımı yerine görüntülerin gerçek hay-atta sıkça kullanılan 11 renkten (siyah, mavi, kahverengi, gri,yesil, turuncu, pembe, mor, kırmızı, beyaz, sarı) hangisine denkgeldigi bulunmustur [5]. Görüntüden öncelikle 10x10 piksellikparçalar çıkarılmıstır. Daha sonra her bir parça, içinde en sıkgeçen renk ile ifade edilmistir. Her görüntü için bu renklerinhistogramları çıkarılmıs ve L1 uzaklıgı ile normalize edilmistir.

2) Süper piksel bilgisi: Bu öznitelik, görüntünün için-deki benzer küçük parçaların iliskisini ifade etmek için kul-lanılmıstır. Öncelikle görüntü kümesindeki tüm görüntülerdenyogun SIFT öznitelikleri çıkarılmıs ve k-ortalama (ing. k-means) algoritması ile 200 kelimelik görsel sözlük olusturul-mustur. Daha sonra süper piksel’ler çıkarılmıs ve her bir süperpiksel alanının içinde kalan görsel kelimelerden bir histogramhesaplanmıstır. Böylelikle her görüntü süper piksel alanlarınıniçinde kalan görsel kelimeler cinsinden histogramlar olarakifade edilmistir. Bu histogramların sonuna yine aynı süperpiksel alanından çıkarılmıs kırmızı, yesil, mavi (ing. RGB)renk histogramları eklenerek ara öznitelikler olusturulmustur.Bu ara özniteliklerin üzerinden ikinci kez k-ortalama ile 200

kelimelik görsel sözlük olusturulmus ve vektörler küme merke-zlerine göre kodlanmıstır. Son olarak her görüntü için bugörsel kelimelerin histogramları çıkarılmıs ve L1 uzaklıgı ilenormalize edilmistir.

3) Konvolüsyonal derin aglar (ing. Convolutional neuralnetworks)(CNN) öznitelikleri: Bu yüksek seviye özniteliksahne bilgisi ve nesnelere ait bilgileri tasır. Görüntü 0.5örtüsme ile 10x10 parçaya bölünmüstür.Her bir parçadanönceden ögrenilmis CNN sınıflandırıcılarının [6] ‘fc7’ kat-manındaki degerleri alınmıs ve bu degerler ara özniteliklerolarak kullanılmıstır. Daha sonra bu ara öznitelikler k-ortalamaalgoritması ile 300 kümeye ayrılmıs ve çekirdek kodlaması(kernel codebook encoding) [12] yöntemi ile yumusak atamayapılarak küme merkezlerine göre kodlanmıstır. Son olarak hergörüntü için bu görsel kelimelerin histogramları çıkarılmıs veL1 uzaklıgı ile normalize edilmistir.

B. Içsel Özellikler

Görüntülerden içsel özellik olarak görüntünün popüler-ligini ve insanda yarattıgı duyguları ifade eden özelliklerçıkarılmıstır.

1) Görüntünün Popülerligi: Görüntü popülerligini ölçmekiçin Khosla vd.’nin [3] çalısmasından faydalanılmıstır. Görün-tünün içeriginin görüntünün popülerligine etkisini su özellik-leri kullanarak hesaplamıstır.

• Renk bilgisi ve basit özellikleri. Örnegin, HSV renkuzayında ortalama renk degeri, renk histogramları vb.

• Düsük seviyeli görsel özellikler. Örnegin, Gist, doku,egim, renk parçaları, CNN

• Yüksek seviye görsel özellikler. Örnegin, görüntüdekinesneleri çıkarmak için bizim yaptıgımız gibi CNNöznitelikleri kullanılmıstır.

2) Duyguların Bulunması ve Ölçülmesi: Görüntülerdekiduyguları ölçmek için Borth vd.’nin [4] çalısmasından fay-dalanılmıstır. Borth vd. bu çalısmasında Flickr ve Youtube’dangetirilen görüntüler ve etiketlerden yola çıkarak 3000 kavram-dan olusan bir ontoloji insa etmistir. Seçilen kavramlar, güçlühis uyandıran, duygulara baglantısı olan, sık kullanılan vebulunma olasılıgı yüksek olanlar arasından seçilmistir. Bukriterleri saglamak için isim sıfat ikililerinden (ISI) faydalan-mıstır. Böylece tek basına isim veya sıfat kullandıgında olusantarafsız durumları elemistir. Örnegin, ‘kelebek’ tek basınaduygu uyandırmazken ‘renkli kelebek’ dendiginde güçlü birduygu uyandırmaktadır. Bu ontolojinin üzerine 1200 tane isim-sıfat ikilisinin görüntülerdeki bulunma durumlarını tespit edenögrenilmis kavram algılayıcılar gelistirilmistir. Her kelimeye-1 (negatif) ile +1 (pozitif) aralıgında degisen his degerleriverilmistir. Isim sıfat ikililerinin his degerleri ise ‘s’ fonksiyonuile hesaplanmıstır:

s(ISI) = s(sıfat) + s(isim) (1)

Çalısmamızda bu kavram algılayıcı kütüphane aracılıgıylagörüntülerin içerdigi hisler ve bunların bulunma yanıtları hesa-planmıstır. Böylece her görüntü için 1200 uzunlugunda vektör-ler elde edilmistir. Bu özelligin özetleme islemine katılabilmesiancak bir tamsayı deger olarak ifade edildiginde mümkünoldugu için bu vektörden anlamlı bir deger çıkarma yoluna

Page 3: Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak …aykut/papers/siu2016_3.pdf · 2016-08-03 · Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak

gidilmistir. Bunun için de Denklem 2’de verilen formül kul-lanılmıstır. Algılayıcı yanıtlarının vektörü σ elde edildiktenve s degeri Denklem 1 ile hesaplandıktan sonra, görüntününduygu degeri q asagıdaki formüle göre hesaplanmıstır:

q =

1200∑i=1

σi × si (2)

Bu formüle göre insanda olumsuz duygu uyandıran görüntüler,olumlu duygu uyandıran görüntülere göre daha düsük duygudegerine sahip olacaktır.

C. Determinantsal Nokta Süreçleri(DPP)

N elemandan olusan bir Y kümesi düsünelim: Y ={1, 2, 3, . . . , N}. Y kümesinin alt kümeleri 2Y ile gösterilsin.Y kümesinde DPP, herhangi bir Y ⊆ Y için olasılık ölçümünedenk gelir ve P ile gösterilir [2]. L matrisi DPP kernelinintamamını LY ise DPP kernelinin Y ’deki indisler için indirgen-mis reel simetrik NxN’lik benzerlikleri içeren alt matrisiniifade eder ve Y olasılıgı

P(Y ⊆ Y) = det(LY ) (3)

iliskisiyle de ifade edilebilir. DPP’nin baska bir gösterim sekliise marjinal kernel K’dır. K ve L kernelleri arasındaki geçiskolaylıkla saglanır: K = (L + I)−1L. DPP’nin benzerliklerinasıl modelledigini anlatmak için K kerneli daha uygundurçünkü bu kernel herhangi bir Y alt kümesinin olasılıgınıhesaplamak için gerekli tüm bilgileri içerir.

P(i, j ∈ Y) =∣∣∣∣Kii Kij

Kji Kjj

∣∣∣∣= KiiKjj −KijKji

= P(i ∈ Y)P(j ∈ Y)−K2ij

(4)

Örnegin, eger Y = {i} ise P(i ∈ Y) = Kii dir. Kösegen-deki degerler elemanların bireysel olarak dahil olma olasılıgınıgösterir. Bu degerin 1’e yakın olması o elemanın nerdeyse herzaman DPP tarafından seçilecegini gösterir. Örnegi biraz dahagenisletmek adına Y = {i, j} oldugunu yani Y kümesinin2 elemanlı oldugunu düsünelim. Bu durumda, Denklem 4’tegörüldügü üzere, kösegen üzerinde bulunmayan elemanlar,ikililer arasındaki negatif iliskiyi tanımlar. Kij ne kadar büyükolursa i ve j elemanlarının beraber bulunma olasılıgı azalır.Denklemdeki Kij ifadesi DPP’nin ayrık kümeler seçmesinisaglar. K matrisinin Y’nin elemanları arası benzerligin ölçümüoldugunu düsünürsek benzer elemanlar daha az birlikte bu-lunma egilimindedir. Eger Kij =

√Kii.Kjj ise i ve j

elementleri son derece benzerdir. Dolayısıyla nerdeyse eminbir sekilde beraber bulunamayacaklarını söyleyebiliriz.

Buraya kadar DPP’nin öncelikli islevi olan ayrıklıgı sagla-mayı elemanlar arası benzerlik ölçümlerini içeren bir kernelkullanarak gerçeklestirdiginden bahsettik. Bu kernel Gram ma-trisi olarak da gösterilebilmektedir: L = BTB. ÇalısmamızdaB matrisinin sütunları görüntülerden çıkarılmıs özniteliklerekarsılık gelmektedir. Ancak bu gösterim sadece ayrıklıklıklarıele almaktadır. Hem ayrıklıkları hemde içsel özellikleri hesabakatmak için Denklem 5 kullanılmaktadır.Bu denklemdeki qiiçsel özelliklerden gelen kalite degeri, φi ise ayrıklık özellik-leridir.

Li,j = qiφTi φjqj (5)

Son olarak DPP’den sonuç çıkarabilmek için üstel zamangerektiren normalizasyon ve örnekleme islemlerinin gerçek-lestirilmesi gerekir ve bu amaçla Kulezsa ve Taskar tarafındanönerilen polinomsal zamanlı örnekleme algoritması [8] kul-lanılmıstır.

D. Çesitlilik Sıralama

Çesitlilik sıralama yöntemi [7] temelinde altbirimsel birfonksiyonu eniyilemeye çalısır. Altbirimsel fonksiyonlar ’aza-lan getiriler’ özelligini saglayan fonksiyonlardır. Bu özel-lige göre A ⊆ B ⊆ V − v iliskisi bulunan bir kümedef(A∪ v)− f(A) ≥ f(B ∪ v)− f(B) esitsizligi saglanmalıdır.Bu esitsizligin arkasında yatan mantık küçük kümeye yenibir eleman ekledigimizde saglanan kazanç, büyük kümeyeaynı elemanı ekledigimizde saglanan kazançtan büyük olmak-tadır. Bu fonksiyonların en önemli özelligi açgözlü yaklasımkullanılarak en uygun sonuca yakın sonuçların bulunmasınıgarantilemesidir.

Çesitlilik sıralama adından da anlasılacagı gibi görün-tülerde tekrar eden bilgileri azaltarak çesitli elemanlardanolusan bir alt küme seçmeye çalısır. En uygun dagılım bir-birinden uzak ve esit büyüklükte elemana sahip 10 tanemerkezin bulundugu durumdur. Bu yöntem seçme sırasındamerkeziligi korumaya çalısır. Merkeziligi saglaması benzerelemanların bir araya toplanması açısından önemlidir. Ancakbu görüntülerin tüm kümeyi kapsaması için merkezlerin bir-birlerinden uzak olmaları gerekmektedir. Öznitelik vektörleriarasındaki iliskiyi Gauss benzerligi kullanarak ifade eder.

dxy =

{exp(−β||g(x)− g(y)||2), eger (x, y) ∈ ε0 diger

(6)

Seçme islemini ise asagıdaki altbirimsel fonksiyonu eniyiley-erek gerçeklestirir.

max∑x∈V

u(x)

ax =∑

(x,y)∈ε

dyx + zx ise u(x) =1

ax

∑(x,y)∈ε

dyxu(y)

s ∈ S ⊂ V, |S| ≤ K için u(g) = 0, u(s) = 1

(7)

u(g) hiçbir eleman seçili degilken fonksiyonun degerininsıfır oldugu gösterir. u(s) ise bir eleman seçildiginde onundegerinin 1 oldugunu gösterir. K tane eleman seçme hakkımızoldugunu düsünürsek, seçtigimiz K tane eleman için u enerjifonksiyonunun en yüksek degerini alması saglanmaya çalısıl-maktadır. Enerji fonksiyonu karmasık gözükmesine ragmenbasitçe bir noktadaki enerjiyi komsu noktalardaki enerjilerinagırlıklı bir toplamı cinsinden ifade etmektedir. Ayrıca zparametresi merkezilik ve çesitlilik arasındaki dengeyi sagla-mak için kullanılır. Bu parametre enerji kaybını gösterir veaynı zamanda komsuluk çerçevesini belirler. z parametresininbüyük olması komsuluk çerçevesini daraltarak benzer nokta-ların ayrıkmıs gibi ele alınmasına sebep olur. Dolayısıyla zparametresi bu durum göz önünde bulundurularak seçilmelidir.Bu çalısmada z parametresi ortalamaya baglı olarak seçilmistir.

Çesitlilik sıralamada içsel özelliklerden gelen kalite deger-leri agırlık noktaları kullanılarak hesaba katılmıstır. Böylecekalite degerleri büyük olanlar daha büyük agırlıga küçükolanlar ise daha küçük agırlıga sahip olmustur.

Page 4: Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak …aykut/papers/siu2016_3.pdf · 2016-08-03 · Kisisel¸ Görüntü Kümelerinin ˙Içsel Özellikler Kullanılarak

Sekil 1: Özetler:Birörnek (üst sol), K-ortalama (üst sag), DPP (alt sol), Çesitlilik Sıralama (alt sag).

Sekil 2: Burning Man görüntü kümesi.

III. DENEYLER

Kisisel görüntü kümelerini özetlemek için herkesin er-isimine açık ve dayanak özetleri toplanmıs bir veri kümesi bu-lunmadıgı için kendi veri kümemizi toplamaya yöneldik. Verikümemiz Flickr’dan Ingilizce sorgular (Burning Man, Istan-bul trip . . . ) ile çekilen görüntülerden olusmaktadır. Sorgularbelirlenirken belli bir etkinlik çerçevesinde olmalarına dikkatedilmistir. Her biri 100 görüntüden olusan 8 ayrı veri kümesitoplanmıstır (Sekil 2). Insanlardan dayanak olarak kullanmaküzere veri toplamak için kendi web sitemizi gerçeklestirdik1.Kullanıcılardan gördükleri görüntü kümesini en iyi temsil eden10 görüntüyü seçmeleri istenmistir. Kullanıcılara görüntülerzaman etiketlerine göre sıralı bir sekilde gösterilmektedir.Ayrıca iyi bir özetin iki temel özelligi olan kapsam ve çesitlilikbirer cümleyle tanımlanarak kullanıcı bilgilendirilmistir.

Özetleme problemlerinin bir diger zorlugu özetinbasarısının nicel olarak ölçülmesidir. Bu çalısmadaTschiatschek vd. [1] tarafından önerilen, dokümanlardakullanılan Rouge metriginin görsel veriler için bir uyarlamasıolan Görsel Rouge (Visual Rouge) (V-Rouge) ile basarım nicelolarak ölçülmüstür. Bu metrik insan algısıyla ilintili olduguiçin tercih edilmistir. Sadece insanlar tarafından çıkarılmısdayanak özetler bulundugunda ölçülebilir. Her görüntü kümesiiçin toplanan kullanıcı özetlerinden en yüksek Görsel Rougedegerine sahip olan 20 kullanıcı özeti seçilmistir. Bu sayedeözetler arası tutarlılık saglanmaya çalısılmıstır.

Öncelikle Bölüm II’de bahsedilen DPP ve çesitliliksıralama yöntemleri ile görüntülerden çıkarılan içsel özel-liklerin getirdigi kalite bilgisi de hesaba katılarak özetlerçıkarılmıstır. Tüm özetlerin basarısı karsılık geldikleri V-Rouge degeriyle ölçülmüstür. Tablo I’de özetler ortalama V-rouge degerine göre kıyaslanmıstır ve görüldügü üzere bir tekdurum hariç (DPP-popülerlik ikilisi) bütün durumlarda içselözellikler, kullanılmadıgı duruma göre sonuçları iyilestirmistir.Daha sonra bu özetler, iki dayanak yöntemle çıkarılan özetlerile karsılastırılmıstır. Birörnekleme ile seçilen özetler (ing.uniform) zaman etiketlerine göre sıralanmıs görüntülerden esitaralıklarla 10 görüntünün seçilmesiyle olusturulmustur. K-ortalama yönteminde görüntü kümeleri k-ortalama algoritmasıile 10 kümeye bölünmüs ve merkezlere en yakın görüntülerseçilmistir. Önerdigimiz yöntemler Tablo II’de görüldügü gibidayanak yöntemleri geçmistir. Tablo II’de verilen sonuçlar

1vissum.cs.hacettepe.edu.tr

Tablo I’de en iyi sonuçları üreten ayarlar kullanılarak hesaplan-mıstır. Ayrıca Tablo II’de ortalama V-Rouge degerinin yanısırayöntemlerin ortalama V-rouge degerlerine göre sıralanmasınabaglı olan Ortalama Sıra degeri gösterilmistir. Sonuçlar gös-teriyor ki insanların özetleme sırasında seçtikleri görüntülerduygu uyandırma kapasitesi ve popüler olma ihtimali yüksekolan görüntüleri de içeriyor. Çıkarılan özetleri niteliksel olarakörneklemek adına Burning Man görüntü kümesi için bütünyöntemlerlerle çıkarılan özetler Sekil 1’de gösterilmistir.

Tablo I: Içsel özelliklerin etkisi.Içsel Özellikler DPP Çesitlilik Sıralama- 0.747 0.761Popülerlik 0.747 0.770Duygu 0.751 0.768Popülerlik & Duygu 0.753 0.764

Tablo II: Dayanak çalısmalarla karsılastırma.Görüntü Kümesi Adı Birörnek K-ortalama DPP Çesitlilik SıralamaA Trip to New York 0.759 0.750 0.732 0.779A Visit to Italy 0.745 0.759 0.781 0.790An Istanbul Tour 0.696 0.713 0.693 0.770Birthday Party 0.809 0.812 0.821 0.772Burning Man 0.662 0.731 0.727 0.733London Olympics 0.667 0.735 0.720 0.748St. Patrick’s Day 0.775 0.750 0.792 0.752World Cup 0.745 0.747 0.762 0.816Ortalama Sıra 3.250 2.625 2.500 1.625Ortalama V-rouge 0.732 0.750 0.753 0.770

KAYNAKLAR

[1] S. Tschiatschek, R. Iyer, H. Wei, J. Bilmes, “Learning Mixtures ofSubmodular Functions for Image Collection Summarization", NIPS,2014.

[2] A. Kulesza, B. Taskar, “k-DPPs: Fixed-Size Determinantal Point Pro-cesses", ICML, 2011.

[3] A. Khosla, A. Das Sarma, R. Hamid, “ What Makes an Image Popular?",WWW, 2014.

[4] D. Borth, R. Ji, T. Chen, T. Breuel, SF. Chang, “ Large-scale Visual Sen-timent Ontology and Detectors using Adjective Noun Pairs", ACMMM,2013.

[5] J. van de Weijer, C. Schmid, J.J. Verbeek, “ Learning Color Names fromReal-World Images", CVPR, 2007.

[6] K. Simonyan, A. Zisserman, “ Very Deep Convolutional Networks forLarge-Scale Image Recognition", ICLR, 2015.

[7] G. Kim, E. P. Xing, L. Fei-Fei, T. Kanade, “ Distributed Cosegmentationvia Submodular Optimization on Anisotropic Diffusion", ICCV, 2011.

[8] A. Kulesza, B. Taskar, “ Determinantal Point Processes for MachineLearning", Foundations and Trends in Machine Learning, 2012.

[9] M. Meeker, L. Wu, “Internet trends: Technical report", Perkins CaufieldByers, 2013.

[10] M. Gygli, H. Grabner, H. Riemenschneider, F. Nater, L. V. Gool, “TheInterestingness Of Images", ICCV, 2013.

[11] A. Khosla, A. S. Raju, A. Torralba, A. Oliva, “Understanding andPredicting Image Memorability at a Large Scale", ICCV, 2015.

[12] K. Chatfield, V. Lemtexpitsky, A. Vedaldi, A. Zisserman, “The devil isin the details: an evaluation of recent feature encoding methods", BMVC,2011.