View
339
Download
27
Category
Preview:
DESCRIPTION
h
Citation preview
İleri İstatistik Teknikleri
? Neden “ileri” teknikler?Amaç: Eldeki “veriyi” “bilgiye” dönüştürebilmek
- Veri vs. Bilgi
İstatistiksel Yöntemler
• Betimleyici (Descriptive) YöntemlerVerili herhangi bir dağılımı bir ya da birden
çok katsayıda anlatabilmek- Örn: şirkettekilerin yaş ortalaması
• Açıklayıcı (Explanatory) YöntemlerBir veri setinde olası ilişkileri sergilemek
- Örn: Şirkettekilerin ayakkabı numaralarıyla aldıkları maaş arasındaki ilişki
Betimleyici Yöntemler
• Amaç: Eldeki dağılımı en iyi şekilde temsil etmek
• Araçlar:– Ortalama:– Medyan: – Mod:
X
Betimleyici Yöntemler
• Veeee....• Varyans/Standart Sapma:
nxxs
22 )(
• Neden:
İki Dağılımın Hikayesi
Dağılım:6,6,6
Ortalama: 6Medyan: 6Mod: 6
Std. Sapma: 0
Dağılım:0,6,12
Ortalama: 6Medyan: 6Mod: 6
Std: Sapma: 6
Amaç: Görünenin Ötesine Bakabilmek
Açıklayıcı Analizler
• Amaç: Verili bir sette olası ilişkileri keşfetmek ya da öngörülen hipotezleri test etmek
Görünen....
Genel
0
10
20
30
40
50
60
70
10 20 30 40 50 60 70 80 90 100
Genel
Görünenin Arkası....
0
10
20
30
40
50
60
70
10 20 30 40 50 60 70 80 90 100
Kadınlar
Erkekler
Genel
Genel Ortalama: 51, Std. Sapma: 22Kadınlar Ortalama: 46, Std. Sapma: 23Erkekler Ortalama: 46, Std. Sapma: 21
Örnek: Internet Kullanımı
Total hours spent on line last week-Hours
57,552,5
47,542,5
37,532,5
27,522,5
17,512,5
7,52,5
500
400
300
200
100
0
Std. Dev = 14,30
Mean = 9,1
N = 761,00
Ve Görünenin Arkası...
Total hours spent on line last week-Hours
57,552,5
47,542,5
37,532,5
27,522,5
17,512,5
7,52,5
100
80
60
40
20
0
Std. Dev = 8,36
Mean = 6,3
N = 158,00
Erkekler Kadınlar
Total hours spent on line last week-Hours
57,552,5
47,542,5
37,532,5
27,522,5
17,512,5
7,52,5
400
300
200
100
0
Std. Dev = 15,42
Mean = 9,8
N = 602,00
Açıklayıcı Analizler
• Amaç: İlk bakışta görül(e)meyen ilişkileri sergileyip ilişkisel açıklamalar getirmek
• Y= f(x)ie: İnternet kullanımı= f(cinsiyet)ie: Yaşam biçimi= f(gelir)ie: Tüketim kalıpları= f(yaşam biçimi)
Örnek: Gelişmişlik ve Yaşam Kalitesi
• BM verilerinden elde edilen bir tablo... • Araştırma sorusu: Gelişmişlik ve Yaşam
Kalitesi arasındaki ilişki• İşlemleştirme:
– Gelişmişlik: Kişi Başına Düşen GSMH– Yaşam Kalitesi: Çocuk ölümleri
Gruplanmış Veri
•
GMSH GruplanmışEn düşük Düşük Orta Yüksek En Yüksek
Çocuk Ölüm Oranı En düşük 3,23 44,44 53,85 82,76Düşük 12,90 25,00 33,33 7,69 6,90Yüksek 16,13 25,00 22,22 30,77 6,90En yüksek 67,74 50,00 7,69 3,45
Scatterplot
GNP pc
400003000020000100000
Infa
nt D
eath
s
200
100
0
Sorular
• Grafiği ne kadar temsil ediyor?• Ne gibi çıkarımlar yapabiliyoruz?• “Forecasting” yapılabiliyor mu?• İlişkinin “boyutu” ve “yönü” ölçülebiliyor
mu?
Ne Kadar Yeterli?
Amaç: Daha iyi analiz, daha iyi veri
• Covariance (kovaryans)
))((1),cov( yyxxn
yx ii
• Correlation Coefficient (korelasyon)
22
22
)(1
)(1
),cov(),(
yyn
xxn
yxyxcorr
iy
ix
yx
Sonuçlar
• Covariance:2115,318
• Correlation:-0,60165
Çıkarılacak Sonuç Ne?
Amaç: Nedensel İlişkileri Göstermek
• Y= f(x)• X, Y’nin belirleyicisi mi?• X, Y’yi ne kadar belirliyor?• X, Y’yi ne yönde belirliyor?
Regresyon Analizi
• Y= f(x)• Y= a+bx• Regresyon Denklemi:
iii uxy
Scatterplot
GNP pc
400003000020000100000
Infa
nt D
eath
s
200
100
0 Rsq = 0,3620
Regresyon Katsayılarının Hesaplanması
xy
xxn
yx
ix
xxy
ˆ
)(1
),cov(ˆ
22
Regresyon Analizi Sonuçları
CoefficientsUnstandardized Coefficients Standardized Coefficients t Sig.
Model B Std. Error Beta1 (Constant) 75,04 4,79 15,67 0,00
GNP pc 0,00 0,00 -0,60 -7,11 0,00a Dependent Variable: Infant Deaths
iii uxy 0034.004.75
Regresyon Analizinin Açılımları
• Çoklu Regresyon
iiiii uxxxy 332211
• Kukla Değişkenli Regresyon (Dummy Variable)iiiiii uxDDxy 33211
•Binomial/Multinomial Regression
Regresyon Analizinin dezavantajları
• Arkasında çok ciddi üç varsayım vardır.• Regresyon analizi sadece “interval” ya da
“ratio” ölçümleme düzeyinde yapılır• “Do not use any mathematical model
without understanding it”
Kümeleme ve Birleştirme Analizleri
• Bütün olgular birbiriyle ilişkilidir. Aradaki ilişkinin 0 olduğu yerde bile...
• Birleştirme analizlerinin amacı olguların birbirleriyle olan ilişkilerinden yola çıkarak işimizi kolaylaştırmaktır
• 1. Değişken sayısını azaltabilirler• 2. Vaka sayısını azaltabilirler• 3. Boyut sayısını azaltabilirler
Faktör Analizi: Değişken Sayısını Azaltmak
• Analize tabi bütün değişkenler birbiriyle ilişkili.
• Bu değişkenlerin bazıları birbirleriyle daha kuvvetli ilişki sahibi.
• Kuvvetli ilişki sahibi değişkenleri birleştirerek aza indirmek mümkün.
• Değişkenlerarası korelasyon matrisi kullanılarak “faktör”ler inşa ediliyor
Faktör AnaliziTotal Variance Explained
4,258 85,166 85,166 4,258 85,166 85,166,549 10,990 96,156,121 2,412 98,568
5,825E-02 1,165 99,7331,335E-02 ,267 100,000
Component12345
Total% of
VarianceCumulativ
e % Total% of
VarianceCumulativ
e %
Initial EigenvaluesExtraction Sums of Squared
Loadings
Extraction Method: Principal Component Analysis.
Component Matrixa
-,988-,985,962,900,759
F Life ExpectancyM Life ExpectancyInfant DeathsLýve Birth RateDeath Rate
1
Component
Extraction Method: Principal Component Analysis.1 components extracted.a.
“Case” Sayısı Azaltmak: Clustering
• Verili değişkenler bazında analize alınan “case”ler birbirlerine benzerler
• Bu benzerlik bir ya da daha fazla boyutta olabilir
• Benzerliklerden yola çıkarak “clusters” oluşturmak mümkün
• Benzerlikler metric mesafelerle ölçülüyor
Cluster Analysis I
Final Cluster Centers
45,47 43,21 36,20 16,5819,24 13,53 9,33 8,76
140,78 102,85 61,40 14,1744,22 51,75 60,49 69,5246,57 54,63 64,39 75,80
Lýve Birth RateDeath RateInfant DeathsM Life ExpectancyF Life Expectancy
1 2 3 4Cluster
Cluster Analysis IICase NumberName Cluster Distance
1 Albania 4 18,82 Bulgaria 4 5,43 Czechoslovakia 4 6,04 Former_E,_Germany4 8,85 Hungary 4 8,26 Poland 4 4,07 Romania 4 14,08 Yugoslavia 4 6,89 USSR 4 10,4
10 Byelorussian_SSR 4 3,711 Ukrainian_SSR 4 5,512 Argentina 4 13,313 Bolivia 2 10,014 Brazil 3 8,715 Chile 4 8,116 Columbia 3 24,017 Ecuador 3 6,018 Guyana 3 9,919 Paraguay 3 20,420 Peru 2 18,7
Cluster Analysis III
Number of Cases in each Cluster
11,00015,00026,00045,00097,000
,000
1234
Cluster
ValidMissing
Boyut Sayısını Azaltmak: MDS
• Analizde gözönünde tuttuğumuz her değişken bir “boyut” sayılabilir.
• İki-üç boyuttan fazlasını “visualize” etmek kolay değil.
• Değişkenler arasındaki uzaklıktan yola çıkılarak bu boyut sayısı azaltılabilir.
• Değişkenler arasındaki uzaklıklar metric olarak ölçülebilir
MDSMDS
Peru
Paraguay
Guyana
Ecuador
Columbia
Chile
Brazil
Bolivia
Argentina
Ukrainian_SSR
Byelorussian_SSRUSSR
Yugoslavia
Romania
Poland
Hungary
Former_E,_GermanyCzechoslovakiaBulgaria
Albania
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
0,5
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2
X
Y
• “İstatistiksel araçlarınız ne kadar güçlü, ne kadar gelişmiş olursa olsun, unutmamanız gereken tek şey var:
• Bu verileri okuma yazması olmayan demiryolu bekçileri topladı”
Sir John Maynard Keynes
Kaynaklar:
İrfan Yolcubal – 1. İstatistik ve Olasılık Ders Notları, Kocaeli Üniversitesi, Jeoloji Müh. Bölümü
mf.kou.edu.tr/jeoloji/yolcubal/ istatistik/istatistik_giris.pdf
İrfan Erdoğan - Ampirik tasarım ve istatistik yöntem semineri
www.anatoliajournal.com/akademik/birinciseminer.ppt
Recommended