15
Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018 Büyük boyutun laneti (Curse of Dimensionality) p Veri boyutu arttıkça örnekler (noktalar) uzay içinde çok fazla dağınık hale gelir. p Noktaların yoğunluğu ya da aralarındaki uzaklık bir çok problem için çok önemlidir. Veri boyutu büyüdükçe yoğunluk ve uzaklık bilgisi anlamsızlaşır ve bu algoritmaların performansını etkiler. 1 •Rastgele 500 nokta üretelim •Birbirine en uzak ve en yakın noktalar arası uzaklıkları ele alalım

Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Büyük boyutun laneti (Curse of Dimensionality)p Veri boyutu arttıkça

örnekler (noktalar) uzay içinde çok fazla dağınık hale gelir.

p Noktaların yoğunluğu ya da aralarındaki uzaklık bir çok problem için çok önemlidir. Veri boyutu büyüdükçe yoğunluk ve uzaklık bilgisi anlamsızlaşır ve bu algoritmaların performansını etkiler.

1

•Rastgele 500 nokta üretelim

•Birbirine en uzak ve en yakın noktalar arası uzaklıkları ele alalım

Page 2: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Veri KüçültmeBoyut Küçültmep Amaç:

n Zaman ve hafıza gereksinimlerini azaltmakn Kolay görselleştirmen Alakasız öznitelikleri atmak ya da gürültü

azaltmak

p Yöntemlern Temel Bileşen Analizi

p Principle Component Analysis (PCA)n Çok Boyutlu Ölçekleme

p Multidimensional scaling (MDS)n Diğerleri: eğiticili yöntemler

2

Page 3: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeTemel Bileşen Analizip TBA tanımlayıcı bir yöntemdir

n En eski yöntemlerden biridirp Amaç

n Büyük sayıda değişkenle ifade edilen örneklerin daha küçük uzayda temsili

p Veri küçültmen Toplam varyansı en iyi açıklayan değişkenlerin tespiti

p Yorumlama

p TBA sonuçları diğer algoritmalara girdi olabilirn regresyonn kümelemen Sınıflandırma ve diğerleri

3

Page 4: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeTemel Bileşen Analizi

4

n

p

A n

k

X

Öyle bir dönüşüm yapalım ki verideki varyansı en iyi şekilde saklayabilelim

Page 5: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeTemel Bileşen Analizip Varyansın en yüksek olduğu birbirine dik

eksenleri bulmakn PC1 yönü verinin daha çok değiştiği yönlerden

biri

5

Page 6: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeTemel Bileşen Analizip Geometrik yorum

6

İyi Daha İyi

Page 7: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeTemel Bileşen Analizip Gaus dağılım

geometrisin Çok değişkenli

Normal dağılım eliptik dağılımlara bir örnek oluşturur.

n Elipslerin temel eksenlerinin (principal axes) yönleri kovaryansmatrisinin, Σ, eigenvektörleridir.

7

Page 8: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeTemel Bileşen Analizip R kodları

8

Page 9: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Bir uygulama“Genes mirror geography within Europe”http://www.nature.com/nature/journal/v456/n7218/full/nature07331.html

9

The PC axes are rotated to emphasize the similarity to the geographic map of Europe. AL, Albania; AT, Austria; BA, Bosnia-Herzegovina; BE, Belgium; BG, Bulgaria; CH, Switzerland; CY, Cyprus; CZ, Czech Republic; DE, Germany; DK, Denmark; ES, Spain; FI, Finland; FR, France; GB, United Kingdom; GR, Greece; HR, Croatia; HU, Hungary; IE, Ireland; IT, Italy; KS, Kosovo; LV, Latvia; MK, Macedonia; NO, Norway; NL, Netherlands; PL, Poland; PT, Portugal; RO, Romania; RS, Serbia and

Page 10: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeTemel Bileşen Analizip Avantajları

n Çok basittir, parametresi neredeyse yokturp Kaç bileşen tutulacağı dışında

n Veriyi aralarında korelasyon bulunmaya daha küçük sayıda öznitelik ile ifade eder

p Veri sıkıştırma

p Dezavantajların Numerik veri ve Normal (Gaus) dağılımn Değişkenler arası ilişkilerin doğrusal (lineer)

olduğunu varsayarn Eğer ilişkiler doğrusal değilse

p Bulunan temel eksenler anlamsızdır.§ Kernel PCA denen yöntemler ile doğrusal olmayan TBA

yapılabilir.

10

Page 11: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeÇok Boyutlu Ölçekleme (MDS)p MDS ve kümeleme analizi alakalıdır.

n Genellikle parametrik olmayan, altında model barındırmayan, tanımlayıcı bir yöntemdir.

n ~ doğrusal olmayan temel bileşen analizi de denebilirp Veriyi daha küçük bir uzayda öyle bir şekilde ifade

edelim ki asıl uzaydaki benzerlik bilgisi en iyi şekilde korunsun.n Çoğunlukla görselleştirme için kullanılır.

p Tukey: “A picture is worth a thousand words”

11

Page 12: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeÇok Boyutlu Ölçeklemep Örnek çıktı

12

-0.5 0.0 0.5

Dimension 1

-0.75

-0.50

-0.25

0.00

0.25

0.50

0.75

Dim

ensi

on 2

LondonParis

Rome

Madrid

Athens

Berlin

Stockholm

Bruxelles

Amsterdam

Common Space

• Anket sonucu her kişi şehirleri sıralar.

• Sıralama cinsinden benzerlikler hesaplanır (Londra Atina’ya kıyasla Berlin’e daha çok benzer).

•Eğer bulunan yeni boyutlar yorumlanabiliyorsa, algılanan farklılıklar tespit edilebilir.

İklim olarak düşünülebilir

Yoru

m:

Tren

d ol

mas

ı

Page 13: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeÇok Boyutlu Ölçeklemep Fransız şehirleri arası tren zamanları

p Bu bilgi ile Fransa haritası üzerinde şehirler işaretlenebilir mi?

13

Page 14: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeÇok Boyutlu Ölçeklemep Cevap: Evet

14

Gerçek Harita

MDSHarita

Page 15: Büyük boyutun laneti (Curse of Dimensionality) · 2018-03-06 · Boyut Küçültme Çok Boyutlu Ölçekleme p Örnek çıktı 12-0.5 0.0 0.5 Dimension 1-0.75-0.50-0.25 0.00 0.25

Veri küçültme, Akademik Bilişim Konferansı – Karabük Üniversitesi, 27.01.2018

Boyut KüçültmeÇok Boyutlu Ölçeklemep R kodları

15