Istatistik-Ders Notları Power Point

İleri İstatistik Teknikleri

? Neden “ileri” teknikler?Amaç: Eldeki “veriyi” “bilgiye” dönüştürebilmek

- Veri vs. Bilgi

İstatistiksel Yöntemler

• Betimleyici (Descriptive) YöntemlerVerili herhangi bir dağılımı bir ya da birden

çok katsayıda anlatabilmek- Örn: şirkettekilerin yaş ortalaması

• Açıklayıcı (Explanatory) YöntemlerBir veri setinde olası ilişkileri sergilemek

- Örn: Şirkettekilerin ayakkabı numaralarıyla aldıkları maaş arasındaki ilişki

Betimleyici Yöntemler

• Amaç: Eldeki dağılımı en iyi şekilde temsil etmek

• Araçlar:– Ortalama:– Medyan: – Mod:

Betimleyici Yöntemler

• Veeee....• Varyans/Standart Sapma:

• Neden:

İki Dağılımın Hikayesi

Dağılım:6,6,6

Ortalama: 6Medyan: 6Mod: 6

Std. Sapma: 0

Dağılım:0,6,12

Ortalama: 6Medyan: 6Mod: 6

Std: Sapma: 6

Amaç: Görünenin Ötesine Bakabilmek

Açıklayıcı Analizler

• Amaç: Verili bir sette olası ilişkileri keşfetmek ya da öngörülen hipotezleri test etmek

Görünen....

10 20 30 40 50 60 70 80 90 100

Görünenin Arkası....

10 20 30 40 50 60 70 80 90 100

Kadınlar

Erkekler

Genel Ortalama: 51, Std. Sapma: 22Kadınlar Ortalama: 46, Std. Sapma: 23Erkekler Ortalama: 46, Std. Sapma: 21

Örnek: Internet Kullanımı

Total hours spent on line last week-Hours

57,552,5

47,542,5

37,532,5

27,522,5

17,512,5

7,52,5

Std. Dev = 14,30

Mean = 9,1

N = 761,00

Ve Görünenin Arkası...

57,552,5

47,542,5

37,532,5

27,522,5

17,512,5

7,52,5

Std. Dev = 8,36

Mean = 6,3

N = 158,00

Erkekler Kadınlar

57,552,5

47,542,5

37,532,5

27,522,5

17,512,5

7,52,5

Std. Dev = 15,42

Mean = 9,8

N = 602,00

Açıklayıcı Analizler

• Amaç: İlk bakışta görül(e)meyen ilişkileri sergileyip ilişkisel açıklamalar getirmek

• Y= f(x)ie: İnternet kullanımı= f(cinsiyet)ie: Yaşam biçimi= f(gelir)ie: Tüketim kalıpları= f(yaşam biçimi)

Örnek: Gelişmişlik ve Yaşam Kalitesi

• BM verilerinden elde edilen bir tablo... • Araştırma sorusu: Gelişmişlik ve Yaşam

Kalitesi arasındaki ilişki• İşlemleştirme:

– Gelişmişlik: Kişi Başına Düşen GSMH– Yaşam Kalitesi: Çocuk ölümleri

Gruplanmış Veri

GMSH GruplanmışEn düşük Düşük Orta Yüksek En Yüksek

Çocuk Ölüm Oranı En düşük 3,23 44,44 53,85 82,76Düşük 12,90 25,00 33,33 7,69 6,90Yüksek 16,13 25,00 22,22 30,77 6,90En yüksek 67,74 50,00 7,69 3,45

Scatterplot

GNP pc

400003000020000100000

Sorular

• Grafiği ne kadar temsil ediyor?• Ne gibi çıkarımlar yapabiliyoruz?• “Forecasting” yapılabiliyor mu?• İlişkinin “boyutu” ve “yönü” ölçülebiliyor

Ne Kadar Yeterli?

Amaç: Daha iyi analiz, daha iyi veri

• Covariance (kovaryans)

))((1),cov( yyxxn

• Correlation Coefficient (korelasyon)

),cov(),(

yxyxcorr

Sonuçlar

• Covariance:2115,318

• Correlation:-0,60165

Çıkarılacak Sonuç Ne?

Amaç: Nedensel İlişkileri Göstermek

• Y= f(x)• X, Y’nin belirleyicisi mi?• X, Y’yi ne kadar belirliyor?• X, Y’yi ne yönde belirliyor?

Regresyon Analizi

• Y= f(x)• Y= a+bx• Regresyon Denklemi:

iii uxy

Scatterplot

GNP pc

400003000020000100000

0 Rsq = 0,3620

Regresyon Katsayılarının Hesaplanması

),cov(ˆ

Regresyon Analizi Sonuçları

CoefficientsUnstandardized Coefficients Standardized Coefficients t Sig.

Model B Std. Error Beta1 (Constant) 75,04 4,79 15,67 0,00

GNP pc 0,00 0,00 -0,60 -7,11 0,00a Dependent Variable: Infant Deaths

iii uxy 0034.004.75

Regresyon Analizinin Açılımları

• Çoklu Regresyon

iiiii uxxxy 332211

• Kukla Değişkenli Regresyon (Dummy Variable)iiiiii uxDDxy 33211

•Binomial/Multinomial Regression

Regresyon Analizinin dezavantajları

• Arkasında çok ciddi üç varsayım vardır.• Regresyon analizi sadece “interval” ya da

“ratio” ölçümleme düzeyinde yapılır• “Do not use any mathematical model

without understanding it”

Kümeleme ve Birleştirme Analizleri

• Bütün olgular birbiriyle ilişkilidir. Aradaki ilişkinin 0 olduğu yerde bile...

• Birleştirme analizlerinin amacı olguların birbirleriyle olan ilişkilerinden yola çıkarak işimizi kolaylaştırmaktır

• 1. Değişken sayısını azaltabilirler• 2. Vaka sayısını azaltabilirler• 3. Boyut sayısını azaltabilirler

Faktör Analizi: Değişken Sayısını Azaltmak

• Analize tabi bütün değişkenler birbiriyle ilişkili.

• Bu değişkenlerin bazıları birbirleriyle daha kuvvetli ilişki sahibi.

• Kuvvetli ilişki sahibi değişkenleri birleştirerek aza indirmek mümkün.

• Değişkenlerarası korelasyon matrisi kullanılarak “faktör”ler inşa ediliyor

Faktör AnaliziTotal Variance Explained

4,258 85,166 85,166 4,258 85,166 85,166,549 10,990 96,156,121 2,412 98,568

5,825E-02 1,165 99,7331,335E-02 ,267 100,000

Component12345

Total% of

VarianceCumulativ

e % Total% of

VarianceCumulativ

Initial EigenvaluesExtraction Sums of Squared

Loadings

Extraction Method: Principal Component Analysis.

Component Matrixa

-,988-,985,962,900,759

F Life ExpectancyM Life ExpectancyInfant DeathsLýve Birth RateDeath Rate

Component

Extraction Method: Principal Component Analysis.1 components extracted.a.

“Case” Sayısı Azaltmak: Clustering

• Verili değişkenler bazında analize alınan “case”ler birbirlerine benzerler

• Bu benzerlik bir ya da daha fazla boyutta olabilir

• Benzerliklerden yola çıkarak “clusters” oluşturmak mümkün

• Benzerlikler metric mesafelerle ölçülüyor

Cluster Analysis I

Final Cluster Centers

45,47 43,21 36,20 16,5819,24 13,53 9,33 8,76

140,78 102,85 61,40 14,1744,22 51,75 60,49 69,5246,57 54,63 64,39 75,80

Lýve Birth RateDeath RateInfant DeathsM Life ExpectancyF Life Expectancy

1 2 3 4Cluster

Cluster Analysis IICase NumberName Cluster Distance

1 Albania 4 18,82 Bulgaria 4 5,43 Czechoslovakia 4 6,04 Former_E,_Germany4 8,85 Hungary 4 8,26 Poland 4 4,07 Romania 4 14,08 Yugoslavia 4 6,89 USSR 4 10,4

10 Byelorussian_SSR 4 3,711 Ukrainian_SSR 4 5,512 Argentina 4 13,313 Bolivia 2 10,014 Brazil 3 8,715 Chile 4 8,116 Columbia 3 24,017 Ecuador 3 6,018 Guyana 3 9,919 Paraguay 3 20,420 Peru 2 18,7

Cluster Analysis III

Number of Cases in each Cluster

11,00015,00026,00045,00097,000

Cluster

ValidMissing

Boyut Sayısını Azaltmak: MDS

• Analizde gözönünde tuttuğumuz her değişken bir “boyut” sayılabilir.

• İki-üç boyuttan fazlasını “visualize” etmek kolay değil.

• Değişkenler arasındaki uzaklıktan yola çıkılarak bu boyut sayısı azaltılabilir.

• Değişkenler arasındaki uzaklıklar metric olarak ölçülebilir

MDSMDS

Paraguay

Guyana

Ecuador

Columbia

Brazil

Bolivia

Argentina

Ukrainian_SSR

Byelorussian_SSRUSSR

Yugoslavia

Romania

Poland

Hungary

Former_E,_GermanyCzechoslovakiaBulgaria

Albania

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2

• “İstatistiksel araçlarınız ne kadar güçlü, ne kadar gelişmiş olursa olsun, unutmamanız gereken tek şey var:

• Bu verileri okuma yazması olmayan demiryolu bekçileri topladı”

Sir John Maynard Keynes

Kaynaklar:

İrfan Yolcubal – 1. İstatistik ve Olasılık Ders Notları, Kocaeli Üniversitesi, Jeoloji Müh. Bölümü

mf.kou.edu.tr/jeoloji/yolcubal/ istatistik/istatistik_giris.pdf

İrfan Erdoğan - Ampirik tasarım ve istatistik yöntem semineri

www.anatoliajournal.com/akademik/birinciseminer.ppt

Istatistik-Ders Notları Power Point

Documents

Istatistik Ders

Optimizasyon Ders Notları

Sırpça Ders Notları

Finale-Ders Notları

Ders Notları Toplu

Cnc ders notları

Makina Ders Notları

proton ders notları

Girişimcilik Ders Notları

mukavemet ders notları

Olasılık Ve İstatistik - Ankara Üniversitesi Ders Notları

KALİTE Ders Notları

Sap2000 Ders Notları

kpss ders notları

Istatistik Ders Anlatımı

kemometri ders notları

Sedimentoloji Ders Notları

Role ders notları

Kalite Ders Notları

Photoshop ders notları