22
Ders 8: Verilerin Düzenlenmesi ve Analizi 15.04.2014

Ders 8: Verilerin Düzenlenmesi ve Analizimimoza.marmara.edu.tr/~murat.bilsel/IST254 2014/İST254 Ders 8 Sunum.pdf · Dağılım Ölçüleri ... En yaygın olarak kullanılan merkezi

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Ders 8: Verilerin Düzenlenmesi ve Analizi

15.04.2014

Betimsel İstatistik

Merkezsel Eğilim Ölçüleri

Dağılım Ölçüleri

Grafiksel Gösterimler

15.04.2014

Bir kitlenin tamamını, ya da kitleden alınan bir örneklemi özetlemekle (betimlemekle) ilgilenen istatistik dalına betimsel istatistik denir.

Örneklemden elde edilen verileri kullanarak kitlenin tamamı hakkında öngörüde bulunmayı amaçlayan istatistik dalına ise tümevarımsal amaçlı istatistik denir.

15.04.2014

Kagetorik (özellik belirten) değişkenler: Nitel özellikleri belirten değişkenlerdir. Örnek: medeni durum, meslek

Sıralama değişkenleri: Büyüklükleri itibariyle sıralanabilen, ancak toplama-çıkarma gibi işlemlerin anlamsız olduğu değişkenlerdir. Örnek: Eğitim durumu, inşaat sınıfı (lüks, 1. sınıf, ...)

Sayısal değişkenler: Sürekli ya da kesikli olarak belli bir aralıktaki sayısal değerleri alan değişkenler

15.04.2014

Bir kitleyi oluşturan tüm bireylerin ölçülerek verilerinin kaydedilmesine tamsayım denir.

Bir kitlenin sadece bazı elemanlarının seçilerek ölçülmesine örnekleme, seçilmiş olan alt kümeye örneklem denir.

Kitlenin tanımlayıcı sayısal ölçütlerine parametre, örneklemin tanımlayıcı sayısal ölçütlerine örneklem istatistiği denir.

Parametrenin tesbiti için tamsayım gerekir, örneklem kullanılarak parametreler tahmin edilebilir.

15.04.2014

Aritmetik Ortalama: Gözlemnenen değerlerin toplamının gözlem sayısına bölümü ile elde edilir.

𝑥 =𝑥1+𝑥2+⋯+𝑥𝑛

𝑛

En yaygın olarak kullanılan merkezi eğilim ölçütüdür, ancak sapan (aşırı) değerlerden etkilenir.

15.04.2014

Büyüklüklerine göre sıralanmış gözlemler grubunun merkezi değerine medyan denir.

𝑀 =

𝑥 𝑛+12

𝑛 𝑡𝑒𝑘 𝑖𝑠𝑒

𝑥𝑛2 +𝑥 𝑛

2 +1

2𝑛 ç𝑖𝑓𝑡 𝑖𝑠𝑒

Sapan (aşırı) değerlerden etkilenmez.

15.04.2014

Veri kümesinde en çok tekrarlanan değere mod (tepe değer) denir.

Kategorik değişkenlerin ortalama ve mod hesabı yapılamadığı için kullanılır.

Sürekli rastgele değişkenler incelenirken aynı değer birden fazla kez gözlemlenmez, dolayısıyla gözlemler sınıflara ayrılır.

15.04.2014

25 parça pamuk lifi alınmış ve su emicilikleri ölçülerek aşağıdaki değerler bulunmuştur

a) Örneklemin ortalamasını ve ortancasını hesaplayınız

b) Örneklemi 5 eşit aralığa bölüp modunu bulunuz

18,82 19,87 18,44 20,47 18,01 19,17 21,67 18,60 21,74 20,67 22,98 21,76 19,06 22,61 20,21 22,02 21,12 18,15 22,20 21,18 20,77 19,23 18,02 18,15 19,59

15.04.2014

𝑥 =1

25 𝑥𝑖 ≅ 20,18

25

𝑖=1

𝑀 = 𝑥13 = 20,21 𝑀𝑜𝑑 = (18,00; 18,99)

Aralık 18,00-18,99

19,00-19,99

20,00-20,99

21,00-21,99

22,00-22,99

Gözlem Sayısı 7 5 4 5 5

Gözlemler 18,01 19,06 20,21 21,12 22,02

18,02 19,17 20,47 21,18 22,2

18,15 19,23 20,67 21,67 22,61

18,15 19,59 20,77 21,74 22,98

18,44 19,87 21,76

18,6

18,82

15.04.2014

𝐺.𝑂.= 𝑥1𝑥2…𝑥𝑛𝑛

log 𝐺. 𝑂. =1

𝑛log 𝑥1 + log 𝑥2 +…+ log 𝑥𝑛

𝐻.𝑂.=𝑛

1

𝑥1+

1

𝑥2+⋯

1

𝑥𝑛

𝐻.𝑂.≤ 𝐺. 𝑂.≤ 𝐴. 𝑂.

15.04.2014

Ortalama değere uzaklığın karesinin ortalamasına varyans denir.

Kitle için:

𝜎2 =𝑥1 − 𝜇 2 + 𝑥2 − 𝜇 2 +⋯ 𝑥𝑁 − 𝜇 2

𝑁

Örneklem için:

𝑠2 =𝑥1 − 𝑥 2 + 𝑥2 − 𝑥 2 +⋯ 𝑥𝑛 − 𝑥 2

𝑛 − 1

15.04.2014

Varyansın kareköküne standart sapma denir.

𝜎 = 𝜎2 𝑠 = 𝑠2

Ölçülen değer ile aynı birimde olduğu için tercih edilir.

15.04.2014

Standart sapmanın ortalamaya bölümüne değişim katsayısı denir

𝐷.𝐾.=𝜎𝑥𝜇𝑥

100%

Standart sapmanın birimi değişkenin birimi ile aynıdır.

Varyansın birimi değişkenin biriminin karesidir.

Birimleri ya da büyüklükleri farklı olan değişkenlerin dağılımlarını karşılaştırmak için birimsiz olan değişim katsayısı kullanılır.

15.04.2014

Örneklemi eşit sayıda gözlemi bulunan 4 sınıfa bölen çeyrek değerlerine 𝑄1, 𝑄2 = 𝑀 ve 𝑄3 denir.

𝑝𝑟 ile gösterilen 𝑟’inci yüzdelik, gözlemlerin %𝑟’sinden büyük olan değerdir.

15.04.2014

Çeyrekler arası değişim: 𝑑 = 𝑄1 −𝑄3

Ortalama Mutlak Sapma:

𝑂𝑀𝑆 = 𝑥𝑖 − 𝜇𝑛𝑖=1

𝑛

Aralık: 𝑟 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

15.04.2014

25 parça pamuk lifi alınmış ve su emicilikleri ölçülerek aşağıdaki değerler bulunmuştur

Örneklemin varyansını, standart sapmasını, değişim yüzdesini, aralığını ve çeyrekler arası değişimini bulunuz.

18,82 19,87 18,44 20,47 18,01 19,17 21,67 18,60 21,74 20,67 22,98 21,76 19,06 22,61 20,21 22,02 21,12 18,15 22,20 21,18 20,77 19,23 18,02 18,15 19,59

15.04.2014

𝑠2 = 𝑥𝑖 − 𝑥 2𝑛𝑖=1

𝑛 − 1≅ 2,48

𝑠 = 𝑠2 = 2,48 ≅ 1,57

𝐷.𝐾 =𝑠

𝑥 =

1,57

20,18×%100 ≅ %7,8

𝑟 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 22,98 − 18,01 = 4,97

𝑄1 = 18,82 𝑄3 = 21,67 𝑑 = 𝑄3 − 𝑄1 = 2,85

15.04.2014

Birden fazla öğenin nisbi değerlerini göstermekte iyidir. Dikek eksen, yatay eksenden yaklaşık %15 kısa olmalıdır. Tüm sütunlar aynı genişlikte olmalı, sütunlar arası genişlik

sütun genişliğinin yarısı kadar olmalı. Başlangıç mümkünse sıfır değerinde olmalı, aksi durumda

açıkça gösterilmeli. Sütunlar mantıklı bir sırada dizilmeli

15.04.2014

0

5 000

10 000

15 000

20 000

25 000

2011 Ocak ayında trafiğe yeni kaydolan binek araçların üretiye göre ayrılması

Kaynak: www.tuik.gov.tr

Değerlerin zaman içinde değişimini göstermeye uygundur

4’ten fazla çizginin takibi zordur Başlangıç değeri sıfır olmaldır, değilse açıkça

belirtilmelidir.

15.04.2014

0

1 000 000

2 000 000

3 000 000

4 000 000

5 000 000

6 000 000

7 000 000

8 000 000

Automobile

Tractor

Motorcycle

Trafiğe yeni kaydolan motorlu taşıtların yıllara göre değişimi

Kaynak: www.tuik.gov.tr

Bir bütünün parçalarının birbirlerine göre büyüklüklerini göstermede kullanılır

7’den fazla dilim kullanıldığında anlaşılması zor olur 3 boyutlu pastalarda öndeki dilimler olduklarından büyük

gözükürler Dilimlerin isimleri yatay ve mümkünse dilimin içine yazılmaldır Bir dilimi vurgulamak için diğerlerinden ayrık gösterilebilir.

15.04.2014

Sığır

%79

Koyun

%17

Keçi

%3

Manda

%1

2010 Türkiye’de 2010 kırmızı et

üretimi

Kaynak: www.tuik.gov.tr

Gözlem sıklıklarını bitişik sütunlar halinde gösterir

Sınıf sayısı 𝑛’den az olmalıdır

012345678

Histogram

15.04.2014