32
Sosyal Bilimlerde Veri Madenciliği Prof. Dr. Necati CEMALOĞLU Ayhan DUYKULUOĞLU

Sosyal Bilimlerde Veri Madenciliği...Prof. Dr. Necati CEMALOĞLU - Ayhan DUYKULUOĞLU SOSYAL BİLİMLERDE VERİ MADENCİLİĞİ ISBN 978-605-037-010-2 DOI 10.14527/9786050370102 Kitap

  • Upload
    others

  • View
    23

  • Download
    0

Embed Size (px)

Citation preview

Sosyal Bilimlerde Veri MadenciliğiProf. Dr. Necati CEMALOĞLUAyhan DUYKULUOĞLU

Prof. Dr. Necati CEMALOĞLU - Ayhan DUYKULUOĞLU

SOSYAL BİLİMLERDE VERİ MADENCİLİĞİ

ISBN 978-605-037-010-2DOI 10.14527/9786050370102

Kitap içeriğinin tüm sorumluluğu yazarlarına aittir.

© 2020, PEGEM AKADEMİ

Bu kitabın basım, yayım ve satış hakları Pegem Akademi Yay. Eğt. Dan. Hizm. Tic. AŞ'ye aittir. Anılan kuruluşun izni alınmadan kitabın tümü ya da bölümleri, kapak tasarımı; mekanik, elektronik, fotokopi, manyetik kayıt ya da başka yöntemlerle çoğaltılamaz, basılamaz, dağıtılamaz. Bu kitap T.C. Kültür ve Turizm Bakanlığı bandrolü ile satılmaktadır. Okuyucularımızın bandrolü olmayan kitaplar hakkında yayınevimize bilgi vermesini ve bandrolsüz yayınları satın almamasını diliyoruz.

Pegem Akademi Yayıncılık, 1998 yılından bugüne uluslararası düzeyde düzenli faaliyet yürüten uluslararası akademik bir yayınevidir. Yayımladığı kitaplar; Yükseköğretim Kurulunca tanınan yükseköğretim kurumlarının kataloglarında yer almaktadır. Dünyadaki en büyük çevrimiçi kamu erişim kataloğu olan WorldCat ve ayrıca Türkiye’de kurulan Turcademy.com ve Pegemindeks.net tarafından yayınları taranmaktadır, indekslenmektedir. Aynı alanda farklı yazarlara ait 1000’in üzerinde yayını bulunmaktadır. Pegem Akademi Yayınları ile ilgili detaylı bilgilere http://pegem.net adresinden ulaşılabilmektedir.

1. Baskı: Ocak 2020, Ankara

Yayın-Proje: Şehriban TürlüdürDizgi-Grafik Tasarım: Ayşe Nur Yıldırım

Kapak Tasarım: Pegem Akademi

Ay-bay Kırtasiye İnşaat Gıda Pazarlama ve Ticaret Limited ŞirketiÇetinemeç Bulvarı 1314.Cadde No:37A-B

0312 472 58 55

Yayıncı Sertifika No: 36306Matbaa Sertifika No: 33365

İletişim

Karanfil 2 Sokak No: 45 Kızılay / ANKARAYayınevi: 0312 430 67 50 - 430 67 51Dağıtım: 0312 434 54 24 - 434 54 08

Hazırlık Kursları: 0312 419 05 60İnternet: www.pegem.netE-ileti: [email protected]

WhatsApp Hattı: 0538 594 92 40

ÖN SÖZ

Dünya’da hızlı bir değişme, gelişme ve yenileşme yaşanmakta, hızlı bir bi-çimde bilgi üretilmekte, üretilen bilgi teknolojiye dönüştürülmekte, aynı şekilde üretilen bilgi eskimekte, yerini yeni bilgi ve yeni bilim alanları almaktadır. Bu baş döndürücü değişimler öğrenme-öğretme süreçlerini etkilemekte, bilgiye ulaşma, onu öğrenme, hayata transfer etme ve bir sorunun çözümünde kullanma yöntem ve teknikleri değişime uğramaktadır. Her şeyi bilen ve her şeyi öğrenen bireyden çok, öğrenmeyi öğrenen ve bilgiyi kullanabilen, bilgiyi etkili yönetebilen birey-ler, daha fazla ön plana çıkmaktadır. Bilgi yönetimi alanında yeterlik ve yetkinlik düzeyi arttıkça, her şeyi bilen bireyden çok, keşfedici bilgiye daha fazla ihtiyaç duyulmaktadır.

İnternete bağlı bilgisayarınızda “Google” sayfasını açıp “empati” sözcüğünü yazdığınızda 0,47 saniyede yaklaşık 9.010.000 sonuç bulmak mümkündür. Bilgi çağı ya da veri çağı olarak adlandırabileceğimiz günümüzde veriye ulaşmak ko-lay iken, işe vuruk, kullanılabilir veriye ulaşmak oldukça zordur. Sadece “empati” kavramıyla ilgili olarak dokuz milyon bilgiye ulaşmak büyük bir olanak olarak görülebilir. Dokuz milyon bilgiyi incelemek aylar hatta yıllar alabilir. İhtiyaç du-yulan bilgiye ulaşmak ise ayrı bir bilgelik ve ustalık ister. Bu sebeple dokuz milyon bilginin hangisinden yararlanacağını bilmeyen bir kişi ile onlarca sebze ve meyve toplayıp hangisinin yenilebilir hangisinin zehirli olduğunu bilmediği için karnını doyuramayan ve açlıktan ölen ilkel insandan hiçbir farkı bulunmamaktadır.

Çağımızın insanının veriye ulaşmak gibi bir sorunu olmamasına rağmen, ve-rinin içerisindeki cevheri, madeni, elması bulma ve onu ortaya çıkarma sorunu vardır. 1990’lı yıllardan itibaren veri madenciliği alanı ortaya çıkmış ve mevcut veri tabanının analizi ile bilgiyi keşfetme yoluna gidilmiştir. Bu kitap da, alanda veri madenciliği konusu çalışma alanı olarak kabul edilmiş ve veri madenciliğin gelişimi, süreçleri, ilkeleri, örnekleri, yöntemleri, SPSS uygulamaları ve bazı ista-tistikî yöntemler açıklanmıştır.

Veri madenciliği ile ilgili uluslararası literatür oldukça zengin olmasına rağ-men ulusal kaynaklarda sınırlılık vardır ve yeterli kaynak bulma sorunu söz ko-nusudur. Uluslararası şirketler, bankalar, fabrikalar veri madenciliğinden yarar-lanmakta, üretimi ve verimliliği artırmak, insan gücünden maksimum düzeyde yararlanmak, pazar araştırmalarının verilerini kullanarak, beklenenin üzerinde farklı bilgilere ulaşmak, verilerde yazmayanı okumak, satır aralarını irdelemek amacıyla işe koşulmaktadır.

Bir okul yöneticisinin liderlik kodlarını saptamak amacıyla yapılan bir araş-tırmada, gözlem, görüşme, anket ya da ölçekten yararlanılabilir. Toplanan veri-

iv Sosyal Bilimlerde Veri Madenciliği

lerden hareket ederek okul yöneticilerinin liderlik kodları yüzeysel olarak ortaya koyulabilir. Ancak, veri madenciliği ile yüzeysel toplanan ya da yüzeysel olarak tanımlanan durumların ötesinde, farklı okul yöneticisi kodları saptanabilir ve ta-nımlanabilir.

Verilerin çokluğu, verilerin farklı kaynaklardan güvenilir yöntemlerle seçil-miş olmasının ötesinde, veriler aslında söylemek istediği çok özel bilgileri içinde bulunduruyor olabilir. Bu durumu ortaya çıkaracak, işe yarar bilgiyi yönetimin hizmetine sunacak tekniği kullanmak önemlidir. Karar süreçlerinde veriye dayalı kararlar verebilmenin yolu da, güvenilir veriye ulaşmak ve analiz etmekten geçer. Bu sebeple veri madenciliği veriyi değişik analiz teknikleri ile irdeleyip işe yarar bilgiyi ortaya çıkarır ve karar süreçlerine destek olur.

Yöneticiler, liderler ve karar ekipleri sağlıklı, doğru karar alabilmek ve uygula-yabilmek için veri madenciliğini kullanması ve söylenmeyeni bulması kastedileni anlaması gerekir. Genellikle Türk kültüründe bireylerin söyledikleri ile söylemek istedikleri, kastettikleri birbirinden farklıdır. Veri madenciliği bu konuda bilgiyi keşfedici özelliğe sahip olduğu için araştırmacılara üst düzeyde bilgi sunmaktadır.

Sosyal Bilimlerde Veri Madenciliği kitabı bu kaygıların ve beklentilerin so-nucunda ortaya çıkmış bir eserdir. Bu eserin oluşumunda büyük katkısı olan öğ-rencim Ayhan Duykuluoğlu’na, kitabın dizilmesi, düzenlenmesinde destek olan oğlum Taha Gökhan Cemaloğlu’na, Pegem çalışanlarına, bizlerin bu aşamaya gel-mesinde emeği olan tüm eğitim çalışanlarına teşekkürlerim içtendir.

Prof. Dr. Necati Cemaloğlu

Ayhan Duykuluoğlu

Ocak, 2020

İÇİNDEKİLERÖn Söz .................................................................................................................................. iii

1. BÖLÜM

VERİ MADENCİLİĞİ

Giriş ........................................................................................................................................1Veri Madenciliği ............................................................................................................2Veri Madenciliğinin Tarihsel Gelişimi ........................................................................3Hangi Veriler Veri Madenciliğine Uygundur? ...........................................................5Veri Madenciliğinin İlişkili Olduğu Disiplinler .........................................................6

İstatistik .....................................................................................................................7Makine Öğrenme .....................................................................................................8Veri Tabanı Sistemleri ...........................................................................................10

Veri Tabanları ..................................................................................................10Veri Ambarları .................................................................................................17

Veri Görselleştirme ................................................................................................23Bilgi Teknolojileri ...................................................................................................24Diğer Disiplinler.....................................................................................................24

Veri Madenciliği Süreci ...............................................................................................25Hedeflerin Belirlenmesi ........................................................................................31Veriyi Anlama .........................................................................................................32Veriyi Hazırlama ....................................................................................................33

Veri Tiplerinin Dönüştürülmesi ...................................................................34Kesintisiz Sütun Dönüşümleri .......................................................................34Gruplandırma...................................................................................................35Veri Bütünleştirme ..........................................................................................35Veri Madenciliğinde Veri Azaltma ...............................................................35

2. BÖLÜM

VERİ MADENCİLİĞİ YÖNTEMLERİ: BETİMLEYİCİ YÖNTEMLER

Giriş ......................................................................................................................................97Veri Madenciliği Yöntemleri .......................................................................................97

Veri Madenciliğinde Betimleyici Analiz Yöntemleri .........................................99Betimsel İstatistikler .......................................................................................99

vi Sosyal Bilimlerde Veri Madenciliği

Uç Değerler Analizi .......................................................................................117Kayıp Verilerin Ele Alınması ........................................................................125Kümeleme Analizi .........................................................................................136Birliktelik Kuralları Analizi (Association Rules Mining) .........................199Sıralı Dizin Analizi (Sequence Analysis) ....................................................224

3. BÖLÜM

TAHMİN EDİCİ VERİ MADENCİLİĞİ REGRESYON ANALİZİ YÖNTEMLERİ

Regresyon Analizi .............................................................................................................239Regresyon Analizinin Varsayımları .........................................................................242Çoklu Doğrusal Bağlantı Sorunu .............................................................................251

Çoklu Bağlantı Sorunu Örnek Uygulama .........................................................254Regresyon Analizi Çeşitleri ......................................................................................257

Eğrisel (Non-linear) Regresyon Analizi ............................................................258Basit Doğrusal Regresyon Analizi (Simple Linear Regression Analysis) .....263Çoklu Doğrusal Regresyon (Multiple Linear Regression) .............................277Lojistik Regresyon Analizi ..................................................................................321

4. BÖLÜM

TAHMİN EDİCİ VERİ MADENCİLİĞİ SINIFLANDIRMA YÖNTEMLERİ

Giriş ...................................................................................................................................379Sınıflandırma Analizi .................................................................................................379

Veri Madenciliğinde Sınıflandırma Yöntemleri ...............................................382Karar Ağaçları (Decision Trees) ...................................................................383Bayes Sınıflandırıcısı ve Bayes Ağları ..........................................................425Genetik Algoritmalar ....................................................................................450Destek Vektör Makineleri (Support Vector Machines) ............................475k--En Yakın Komşu Sınıflandırıcısı (k-NN, k--Nearest Neighbour Classifier) ........................................................................................................483Yapay Sinir Ağları ..........................................................................................497Geri Yayma Yöntemi (Backpropagation) ....................................................544Zaman Serisi Analizi .....................................................................................557Diğer Veri Madenciliği Yöntemleri .............................................................616

İçindekiler vii

5. BÖLÜM

VERİ MADENCİLİĞİNİN KULLANILDIĞI ALANLAR, SOSYAL BİLİMLERDE VERİ MADENCİLİĞİ VE VERİ

MADENCİLİĞİNDE KARŞILAŞILAN SORUNLAR

Giriş ....................................................................................................................................619Veri Madenciliğinin Kullanıldığı Alanlar ...............................................................620

Bilgi İşletim Sistemleri ........................................................................................620Ticari ve Finansal Örgütlerde Veri Madenciliği...............................................620Tıp Alanında Veri Madenciliği ...........................................................................625Veri Güvenliği Alanında Veri Madenciliği .......................................................626Sigortacılık Alanında Veri Madenciliği .............................................................627Haberleşme Alanında Veri Madenciliği ............................................................629Üretim Alanında Veri Madenciliği ....................................................................629Biyoloji ve Biyoenformatik Alanlarında Veri Madenciliği .............................630Eğitim Alanında Veri Madenciliği .....................................................................631Sosyal Bilimlerde Veri Madenciliği ...................................................................632

Veri Madenciliği Sürecinde Karşılaşılan Sorunlar .................................................634Sonuç............................................................................................................................636

Kaynakça............................................................................................................................637

EKLER

Ek 1: Aşağıdan yukarıya Kümeleme Örneği (Kümeleme Öğrencilerin Bir Sınavdan 100 Tam Puan Üzerinden Aldıkları Puanlamayı Esas Alarak Yapılmıştır). ...661

Ek 2: Yukarıdan Aşağıya Kümeleme Örneği (Kümeleme Ankara Üniversitesi Lisansüstü Öğrencileri Üzerine Yapılmıştır). ......................................................662

Ek 3: Sınıflandırma Ağacı Örneği ..................................................................................662Ek 4: Bayes Ağı Örneği ...................................................................................................663Ek 5: Bayes Ağları Olasılık Tanımlama Tablosu Örneği ............................................664Ek 6: k-en Yakın Komşu Sınıflandırma Algoritması Örneği (KNN).........................664Ek 7: Doğrusal Regresyon Saçılma Diyagramı Örneği................................................665Ek 8. Eğrisel Regresyon Saçılma Diyagramı Örneği ....................................................665Ek 9: Kay-Kare Dağılım Çizelgesi ..................................................................................666Ek 10: Veri Madenciliği Kavramları Sözlüğü ................................................................667

ÇİZELGELER LİSTESİÇizelge 1.1. İlişkisel Veri Tabanı İçeriği Örneği .............................................................14Çizelge 1.2. Faktör Yük Değerlerinin Anlamlılık Eşik Değerinin Örneklem

Sayısı ile İlişkisi ..............................................................................................40Çizelge 1.3 Döndürme Öncesi ve Sonrası Faktör Yük Değerlerinde Meydana

Gelen Değişiklikler .........................................................................................44Çizelge 1.4 Alfa Güvenirlik Katsayısı SPPS Çıktısı Çizelgesi ........................................51Çizelge 1.5 Temel Bileşenler Analizi Örnek Uygulama için KMO ve Barlett’s

Testi Sonuçları .................................................................................................53Çizelge 1.6 Örnek Temel Bileşenler Analizi Ortak Varyanslar Çizelgesi ....................60Çizelge 1.7 Temel Bileşenler Analizi Örnek Uygulama Açıklanan Toplam

Varyans Çizelgesi ............................................................................................62Çizelge 1.8 Temel Bileşenler Analizi Örnek Uygulamaya İlişkin “Component

Matrix” Çizelgesi ............................................................................................65Çizelge 1.9 Temel Bileşenler Analizi Örnek Uygulamaya İlişkin “Dağılım Matrisi”

Çizelgesi ...........................................................................................................67Çizelge 1.10 Temel Bileşenler Analizi Örnek Uygulamaya İlişkin “Yapı Matrisi”

Çizelgesi .........................................................................................................70Çizelge 1.11 Temel Bileşenler Analizi Örnek Uygulamaya İlişkin “Faktör

Korelasyon Matrisi” (Component Correlation Matrix) Çizelgesi ..........72Çizelge 1.12 Temel Bileşenler Analizi Örnek Uygulamaya İlişkin Cronbach Alpha

Güvenirlik Katsayısı .....................................................................................73Çizelge 1.12 İleriye Doğru Aşamalı Seçme Ve Geriye Doğru Aşamalı Eleme

Yöntemleri Örnek Uygulama ......................................................................80Çizelge 1.13. Öğretmenlerin Mesleki Motivasyon Düzeyi Puanları ............................91Çizelge 1.14. Veri Küpü Birleştirme Yöntemi ile Veri Azaltma ....................................92Çizelge 2.1. Bir Elektronik Şirketinde Satılan Ürünlerin Birim Fiyatlarına ve

Satış Rakamlarına İlişkin Veriler ...............................................................110Çizelge 2.2. Örnek Veri Tabanı Çizelgesi ......................................................................127Çizelge 2.3. Liste Boyunca Silme İşlemi Sonrası Değerleri Gösteren Çizelge ..........127Çizelge 2.4 Eşlerin Silinmesi İşlemi Öncesi Veri Setleri ..............................................128Çizelge 2.5. Eşlerin Silinmesi Sonrası Veri Setleri ........................................................128Çizelge 2.6. Son Gözlemin Taşınması Öncesi Kayıp Veri İçeren Veri Setlerini

Gösterir Çizelge ...........................................................................................132Çizelge 2.7. Son Gözlemin Taşınması Sonrası Kayıp Veri İçeren Veri Setlerini

Gösterir Çizelge ...........................................................................................132Çizelge 2.8. Hot Deck Yöntemi ile Kayıp Veri Atamaya Bir Örnek ...........................134Çizelge 2.9. Ölçek Düzeylerine Göre Farklı Korelasyon Teknikleri ..........................142Çizelge 2.10. Aralarında İlişki Aranacak X ve Y Değişkenlerine İlişkin Değerler ...143

ixÇizelgeler Listesi

Çizelge 2.11. Örnek Analiz SPSS Korelasyon Çıktı Sayfası .........................................154Çizelge 2.12. Öğretmenlerin İşyeri Arkadaşlığı Algıları Toplam Puanları ile

Çatışma Yönetimi Stilleri Arasındaki İlişkiye Dönük Pearson Korelasyon Katsayısı Sonuçları ................................................................155

Çizelge 2.13. Üç Farklı Özelliğe İlişkin Gözlenen Değerler ........................................158Çizelge 2.14. Manhattan Uzaklığına Göre Benzerlik Matrisi .....................................159Çizelge 2.15. Minkowski Uzaklığına Göre Benzerlik Matrisi .....................................160Çizelge 2.16. Nominal Ölçeğe Sahip Verilerde Kontenjans Tablosu ..........................161Çizelge 2.17. Nominal Veriler için Birliktelik Değerleri Hesaplamaları ve

Formülleri ...................................................................................................161Çizelge 2.18. Doğal Gruplamaların Bilinmediği Evrenden n Sayıda Alınan Birim

için P Değişkenine Göre Alınan Değerlerini Gösteren Çizelge ..........162Çizelge 2.19. Benzerlik/Farklılık Matrisi .......................................................................163Çizelge 2.20. Ward’s Bağlantı Yöntemi ile Birleştirme Çizelgesi ................................189Çizelge 2.21. Küme Üyeliklerini Gösteren Çizelge ......................................................190Çizelge 2.22. Ward Bağlantı Yöntemi (En Küçük Varyans) Birleştirme Sonuçları ..193Çizelge 2.23. Ward Bağlantı Yöntemi (En Küçük Varyans) ile Elde Edilen Küme

Üyelikleri ....................................................................................................194Çizelge 2.24. Destek Değerlerinin Hesaplanması.........................................................201Çizelge 2.25. Güven Değerinin Hesaplanmasını Gösteren Çizelge ...........................202Çizelge 2.26. Bir Grup Müşterinin Alışveriş Davranışlarına İlişkin Veriler .............212Çizelge 2.27. Tekil Birlikteliklerin Destek Değerleri ....................................................213Çizelge 2.28. Minimum Destek Değerini Sağlayan Ürünler .......................................214Çizelge 2.29. İkili Birliktelikler ve Destek Değerleri ....................................................214Çizelge 2.30 İkili Birlikteliklerden Destek Değerini Sağlayan Veri Setleri ...............215Çizelge 2.31. Üçlü Birliktelikler ve Destek Değerleri ...................................................215Çizelge 2.32. Üçlü Birlikteliklerden Eşik Destek Değerini Aşan Ürün Setleri .........216Çizelge 2.33. Üçlü Birlikteliklerden Çıkan Birliktelik Kuralları .................................217Çizelge 2.24. Yatay ve Dikey Formatta Veri Tabanı Örnekleri ...................................220Çizelge 2.25. Fp-Growth Algoritması için Örnek Veri Tabanı ...................................222Çizelge 2.26. Sıralı Dizin Veri Tabanında Verilerin Sunumu .....................................231Çizelge 2.27. Yatay Veri Setlerinin Dikey Olarak Gösterimi ......................................231Çizelge 2.28. Öğrencilerin Yıl Boyunca Aldıkları Puanların Dizini ..........................232Çizelge 2.29. Öğrencilerin Pefformanslarını Gösteren Kodlar ...................................233Çizelge 2.30. Düzenli Kurallara İlişkin Örnekler .........................................................236Çizelge 3.1. Puanların Dağılımının Normalliği Örnek Uygulama “Case

Processing Summary” Çizelgesi ................................................................245

x Sosyal Bilimlerde Veri Madenciliği

Çizelge 3.2. Puanların Dağılımının Normalliği Örnek Uygulama “Descriptives” Çizelgesi ........................................................................................................246

Çizelge 3.3. Puanların Dağılımının Normalliğine İlişkin Örnek Uygulama Normallik Testleri Sonuçları ......................................................................249

Çizelge 3.4. Çoklu Doğrusal Bağlantı Sorunu Örnek Analiz “Model Summary” Çizelgesi ........................................................................................................256

Çizelge 3.5. Çoklu Doğrusal Bağlantı Sorunu Örnek Analiz “Katsayılar” Çizelgesi ........................................................................................................256

Çizelge 3.6. Çoklu Doğrusal Bağlantı Sorunu Örnek Analiz “Doğrusallık Göstergeleri” Çizelgesi ................................................................................257

Çizelge 3.7. Bireylerin Yaşları ve Kaldırabildikleri Ağırlıkların Kilogram Cinsinden Değerleri ....................................................................................258

Çizelge 3.8. Dummy Değişken Kodlaması ....................................................................265Çizelge 3.9. Basit Doğrusal Regresyona İlişkin Veri Seti Örneği ...............................266Çizelge 3.10. Bir Ürünün Belirli Zaman Dilimlerinde Satış Oranlarını Gösterir

Çizelge .........................................................................................................267Çizelge 3.11. Bir Grup Yetişkinin Yaşları ve Bir Sınavdan Aldıkları Puanlar ...........267Çizelge 3.12. Öğrencilerin Bir Derse İlişkin Katıldıkları Ders Saati Sayısı ve

Değerlendirme Sınavı Puanları ...............................................................269Çizelge 3.13. Deneklerin Yıllık Narenciye Tüketim Miktarı ile Gribe Yakalanma

Sayılarına İlişkin Veriler ...........................................................................270Çizelge 3.14. Öğretmenlerin Mesleki Kıdem Yılları ve Mesleki Güdülenmişlik

Testinden Aldıkları Puanlar .....................................................................272Çizelge 3.15. Basit Doğrusal Regresyon Analizi Örnek Uygulamaya İlişkin

“Model Summary” Çizelgesi ....................................................................275Çizelge 3.16. Basit Doğrusal Regresyon Analizi Örnek Uygulamaya İlişkin

“ANOVA” Çizelgesi ....................................................................................275Çizelge 3.17. Basit Doğrusal Regresyon Analizi Örnek Uygulamaya İlişkin

“Coefficients” Çizelgesi .............................................................................276Çizelge 3.18. Farklı Değişken Türleri için İkili Korelasyon Yöntemleri ....................281Çizelge 3.19. Standart Çoklu Doğrusal Regresyon Örnek Uygulama Veri Seti .......284Çizelge 3.20. Standart Çoklu Doğrusal Resresyon Analizi Sonucu Betimsel

İstatistikler Çizelgesi .................................................................................294Çizelge 3.21. Standart Çoklu Doğrusal Resresyon Analizi Sonucu Korelasyonlar

Çizelgesi ......................................................................................................295Çizelge 3.22. Standart Çoklu Doğrusal Resresyon Analizi Sonucu Analize Dâhil

Edilen ve Analizden Çıkartılan Değişkenler Çizelgesi .........................295Çizelge 3.23. Standart Çoklu Doğrusal Resresyon Analizi Sonucu Model Özeti

Çizelgesi ......................................................................................................296

xiÇizelgeler Listesi

Çizelge 3.24. Standart Çoklu Doğrusal Resresyon Analizi Sonucu ANOVA Çizelgesi ......................................................................................................296

Çizelge 3.25. Standart Çoklu Doğrusal Resresyon Analizi Sonucu Katsayılar Çizelgesi ......................................................................................................297

Çizelge 3.26. Standart Çoklu Doğrusal Resresyon Analizi Sonucu Doğrusal Bağlantı İstatistikleri Çizelgesi .................................................................298

Çizelge 3.27. Standart Çoklu Doğrusal Resresyon Analizi Sonucu Atık Değerlere İlişkin İstatistikler Çizelgesi .....................................................................299

Çizelge 3.28. Öğretmenlerin Örgütsel Bağlılık Düzeyinin “Denetim Puanı”, “Güdülenme Puanı” ve “İş Doyumu Puanı” Değişkenleri ile Yordanmasına İlişkin Standart Çoklu Doğrusal Regresyon Analizi Çizelgesi ......................................................................................................299

Çizelge 3.29. Hiyerarşik Çoklu Doğrusal Regresyon Analizi Örnek Uygulama Betimsel İstatistikler Çizelgesi .................................................................304

Çizelge 3.30. Hiyerarşik Çoklu Doğrusal Regresyon Analizi Örnek Uygulama Korelasyonlar Çizelgesi .............................................................................305

Çizelge 3.31. Hiyerarşik Çoklu Doğrusal Regresyon Analizi Örnek Uygulama Analize Alınan/Analizden Çıkartılan Değişkenler Çizelgesi ..............306

Çizelge 3.32. Hiyerarşik Çoklu Doğrusal Regresyon Analizi Örnek Uygulama Model Özeti Çizelgesi ...............................................................................306

Çizelge 3.33. Hiyerarşik Çoklu Doğrusal Regresyon Analizi Örnek Uygulama ANOVA Çizelgesi ......................................................................................333

Çizelge 3.34. Hiyerarşik Çoklu Doğrusal Regresyon Analizi Örnek Uygulama Katsayılar Çizelgesi....................................................................................308

Çizelge 3.35. Hiyerarşik Çoklu Doğrusal Regresyon Analizi Örnek Uygulama Çıkartılan Değişkenler Çizelgesi .............................................................309

Çizelge 3.36. Hiyerarşik Çoklu Doğrusal Regresyon Analizi Örnek Uygulama Doğrusal Bağlantı Göstergeleri Çizelgesi ...............................................310

Çizelge 3.37. Örgütsel Bağlılık Puanı Değişkeninin, Denetim Puanı, Güdülenme Puanı ve İş Doyumu Puanı Değişkenleri ile Yordanmasına İlişkin Hiyerarşik Çoklu Doğrusal Regresyon Analizi Sonuçları ....................310

Çizelge 3.38. Aşamalı Regresyon Analizi Örnek Uygulama Betimsel İstatistikler Çizelgesi ......................................................................................................314

Çizelge 3.39. Aşamalı Regresyon Analizi Örnek Uygulama Korelasyonlar Çizelgesi ......................................................................................................315

Çizelge 3.40. Aşamalı Regresyon Analizi Örnek Uygulama Analize Alınan/ Analizden Çıkartılan Değişkenler Çizelgesi ..........................................316

Çizelge 3.41. Aşamalı Regresyon Analizi Örnek Uygulama Model Özeti Çizelgesi ......................................................................................................316

Çizelge 3.42. Aşamalı Regresyon Analizi Örnek Uygulama ANOVA Çizelgesi ......317

xii Sosyal Bilimlerde Veri Madenciliği

Çizelge 3.43. Aşamalı Regresyon Analizi Örnek Uygulama Katsayılar Çizelgesi ....318Çizelge 3.44. Aşamalı Regresyon Analizi Örnek Uygulama Analizden Çıkartılan

Değişkenler Çizelgesi ................................................................................319Çizelge 3.45. Aşamalı Regresyon Analizi Örnek Uygulama Doğrusal Bağlantı

Göstergeleri Çizelgesi................................................................................320Çizelge 3.46. Örgütsel Bağlılık Değişkeninin, Denetim Puanı, Güdülenme Puanı ve

İş Doyumu Puanı Değişkenleriiİle Yordanmasına İlişkin Aşamalı Çoklu Doğrusal Regresyon Analizi Özet Çizelgesi ...............................321

Çizelge 3.47. Bazı Olasılık Değerlerine Karşılık Gelen Odds ve Logit Değerleri .....331Çizelge 3.48. Çoklu Doğrusal Regresyon ve Lojistik Regresyon Analizlerinde

Model Uyumunda Başvurulan Katsayı ve Testler .................................342Çizelge 3.49. İkili Lojistik Regresyon Analizi Örnek Uygulamaya İlişkin Bağımsız

Değişkenler Veri Seti .................................................................................346Çizelge 3.50. Analizde Yer Alan Katılımcılara İlişkin Özet Bilgi İçeren Çizelge ......351Çizelge 3.51. Bağımlı Değişkene İlişkin Kodlama Çizelgesi .......................................352Çizelge 3.52. Başlangıç Modeli için Yineleme Geçmişi Çizelgesi ..............................352Çizelge 3.53. Lojistik Regresyonda Başlangıç Modeli Sınıflandırma Çizelgesi ........353Çizelge 3.54. Başlangıç Modelinde Lojistik Regresyon Eşitliğinde Yer Alan

Değişkenler Çizelgesi ................................................................................354Çizelge 3.55. Başlangıç Modelinde Eşitlikte Yer Almayan Değişkenler ....................355Çizelge 3.56. Örnek Analizde Amaçlanan Modele İlişkin Yineleme Geçmişi

Çizelgesi ......................................................................................................356Çizelge 3.57. Model Katsayılarına İlişkin Omnibus Testi Sonuçları ..........................357Çizelge 3.58. Amaçlanan Modele İlişkin Model Özeti Çizelgesi ................................358Çizelge 3.59. Lojistik Regresyon Analizi Örnek Analize İlişkin Hosmer ve

Lemeshow Testi Çizelgesi .........................................................................359Çizelge 3.60. Hosmer ve Lemeshow Testi için Olasılık Çizelgesi ...............................360Çizelge 3.61. Lojistik Regresyon Modeli Sonucu Elde Edilen Sınıflandırma

Çizelgesi ......................................................................................................361Çizelge 3.62. Amaçlanan Modelde Yer Alan Değişkenler ve Katsayılar....................362Çizelge 3.63. Lojistik Katsayılar ve Dönüştürülmüş Lojistik Katsayılar ....................363Çizelge 3.64. Belirli Üssel Katsayılar için Bağımsız Değişkende Meydana Gelen

Bir Birimlik Değişimin Olasılık Değeri Üzerine Etkileri .....................366Çizelge 3.65. Başlangıç Modeli Yineleme Geçmişi Çizelgesi ......................................368Çizelge 3.66. Başlangıç Modeli için Verilen İlk Sınıflandırma Çizelgesi ...................369Çizelge 3.67. Başlangıç Modelinde Yer Alan Değişkenler Çizelgesi ..........................369Çizelge 3.68. Başlangıç Modelinde Eşitlikte Yer Almayan Değişkenler Çizelgesi....370Çizelge 3.69. Amaçlanan Modelde Yineleme Geçmişi Çizelgesi ................................371

xiiiÇizelgeler Listesi

Çizelge 3.70. Amaçlanan Model Katsayılarına İlişkin Omnibus Testi Sonuçları Çizelgesi ......................................................................................................371

Çizelge 3.71. Amaçlanan Modelin Özeti Çizelgesi.......................................................372Çizelge 3.72. Örnek Lojistik Regresyon Analizine İlişkin Hosmer ve Lemeshow

Testi Sonucu Çizelgesi...............................................................................372Çizelge 3.73. Lojistik Regresyon Modeli Sonucu Elde Edilen Sınıflandırma

Çizelgesi ......................................................................................................373Çizelge 3.74. Amaçlanan Modelde Yer Alan Değişkenlerin Katsayı Tahminleri

Çizelgesi ......................................................................................................374Çizelge 4.1. “Eğer- O Zaman” Kuralına Dayalı Olarak Gerçekleştirilen

Sınıflandırma Analizi ..................................................................................381Çizelge 4.2. Karar Ağacı ile Doğru Sınıflandırılamayan Veri Seti Örneği ................386Çizelge 4.3. Karar Ağacı İçin Eğitim Seti .......................................................................388Çizelge 4.4. Karar Ağacı Test Veri Seti ...........................................................................391Çizelge 4.5. Bir Deneyin Olası Sonuçlarını Gösterir Çizelge ......................................394Çizelge 4.6. Entropi Değeri Hesaplanması için Örnek Veri Seti ................................396Çizelge 4.7. S1 ve S2 Alt Kategorilerine İlişkin Veri Setleri .........................................397Çizelge 4.8. Bilgi Kazanımı için Örnek Veri Seti ..........................................................398Çizelge 4.9. Hava Sıcaklığına Göre Oyun Oynayıp Oynamamaya Karar Vermeye

Dönük Veriler ..............................................................................................401Çizelge 4.10. Nicel Veriler Üzerinden Sınıf Histogramı ile Sınıflandırma Eğitim

Veri Seti .......................................................................................................402Çizelge 4.11. Çizelge 4.10’da Yer Alan Veriler için Sınıf Histogramı .........................403Çizelge 4.12. Gini İndeksi Hesaplanacak Veriler ..........................................................403Çizelge 4.13. Kategorik Verilerle Sayım Matrisi için Eğitim Veri Seti .......................403Çizelge 4.14. Çizelge 4.13’te Yer Alan Veriler İçin Sayım Matrisi ..............................404Çizelge 4.15. Kredi Riski Açısından Müşterilerin Sınıflandırıldığı Kayıtlar için

Eğitim Veri Seti ..........................................................................................407Çizelge 4.16. t Kök Boğumu İçin Muhtemel Bölünmeler ...........................................408Çizelge 4.17. Kök Boğumu için Her Bir Aday Bölünmede Öğelere İlişkin En

Yüksek Φ(s/t) Değerleri ............................................................................408Çizelge 4.18. Karar Boğumu A için Her Bir Aday Bölünmede Öğelerin

Maksimum Φ(s|t) Değerleri ....................................................................410Çizelge 4.19. Nicel Sürekli Veriler ile C4.5 Algortimasında Karar Ağacı

Oluşturmak için Örnek Eğitim Veri Seti ................................................415Çizelge 4.20 Nicel Verilerin Kategorik Değişkenler Haline Getirilmesi ...................416Çizelge 4.21. “≤83” Değeri İçin Özellik 2 ve Sınıf Nitelikleri .....................................417Çizelge 4.22. “>83” Değeri İçin Özellik 2 ve Sınıf Nitelikleri .....................................417

xiv Sosyal Bilimlerde Veri Madenciliği

Çizelge 4.23. Kayıp Değerlerin Yer Aldığı Kategorik Verilerin C4.5 Algoritması ile Sınıflandırılmasına İlişkin Örnek Eğitim Veri Seti ...............................419

Çizelge 4.24. Sınıflandırma Örneğine İlişkin Eğitim Veri Seti ...................................435Çizelge 4.25. Akciğer Kanseri Örneğine İlişkin Öncel Olarak Belirlenen Boğum

Seçenekleri..................................................................................................448Çizelge 4.26. Akciğer Kanseri Örneğinde Boğumlara İlişkin Olasılık Değerleri .....449Çizelge 4.27. Genetik Algoritmaların Biyolojik Evrimden Aldığı Terimler .............452Çizelge 4.28. Rulet Çarkı Yöntemine Göre Örnek Kromozom Seti ...........................455Çizelge 4.29. Kromozomların Maliyet Uyum Değerleri..............................................456Çizelge 4.30. Yavru Kromozomların Çaprazlama Yöntemi ile Oluşturulması .........459Çizelge 4.31. Uniform Çaprazlama Yöntemi .................................................................460Çizelge 4.32. İkili Dizinde Mutasyon Operatörü .........................................................464Çizelge 4.33. Genetik Algoritma Örnek Uygulama Uygunluk Değerlerinin

Gösterildiği Çizelge ...................................................................................473Çizelge 4.34. Rulet Çarkı Degerleri ve Değerlere İlişkin Çizelge ...............................474Çizelge 4.35. Genetik Algoritma Örnek Uygulama Çaprazlama Operatörü ............475Çizelge 4.36. Genetik Algoritma Örnek Uygulama Yeni Populasyon .......................475Çizelge 4.37. k-En Yakın Komşu Sınıflandırıcısı Örnek Eğitim Veri Seti .................490Çizelge 4.38. k-En Yakın Komşu Sınıflandırıcısı Örnek Test Veri Seti Yeni Nesne

Bilgileri ........................................................................................................490Çizelge 4.39. k-En Yakın Komşu Örnek Uygulama Eğitim Veri Seti Gözlem

Değerleri .....................................................................................................493Çizelge 4.40. Gözlem Değerlerinin (8,4) Noktasına Uzaklıkları ................................494Çizelge 4.41. Uzaklık Değerlerinin Göz Önüne Alınarak k=4 En Yakın

Komşuların Belirlenmesi ..........................................................................495Çizelge 4.42. Uzaklık Değerlerinin Göz Önüne Alınarak k=4 En Yakın

Komşuların Belirlenmesi ..........................................................................496Çizelge 4.43. Yapay Sinir Ağları ve Bilgisayarların Çalışma Sistemleri Atasındaki

Farklar .........................................................................................................504Çizelge 4.44. Örnek Yapay Sinir Ağı Uygulamasına İlişkin Veri Seti ........................525Çizelge 4.45. Örnek Yapay Sinir Ağları Uygulaması “Case Procesing Summary”

Çizelgesi ......................................................................................................534Çizelge 4.46. Örnek Yapay Sinir Ağları Uygulaması Sonucu Elde Edilen Ağ

Bilgisi Çizelgesi ..........................................................................................535Çizelge 4.47. Örnek Yapay Sinir Ağları Uygulaması Sonucu Elde Edilen Model

Özeti (Model Summary) Çizelgesi ..........................................................538Çizelge 4.48. Örnek Yapay Sinir Ağları Uygulaması Sonucu Elde Edilen

“Parametre Tahminleri” (Parameter Estimates) Çizelgesi ...................539

xvÇizelgeler Listesi - Şekiller Listesi

Çizelge 4.49. Yapay Sinir Ağları Örnek Analiz Sonucu Elde Edilen Bağımsız Değişkenlerin Önem Düzeyi (Independent Variable Importance) Çizelgesi ......................................................................................................542

Çizelge 4.50. ABD’de İtalyan Peyniri Üretim Rekoltesinin Yıllara Göre Dağılımı ...561Çizelge 4.51. Bir Ülkede Okuma Yazma Bilmeyenlerin Genel Nüfusa Oranına

Dönük Yıllara Göre Dağılım ....................................................................562Çizelge 4.52. Bir Ülkede Aylara Göre Dondurma Satışlarına İlişkin Değerler ........563Çizelge 4.53. Zaman Serisi Analizi Örnek Veri Seti .....................................................578Çizelge 4.54. Örnek Zaman Analizi Otokorelasyon “Model Tanımlama”

Çizelgesi ......................................................................................................602Çizelge 4.55. Otokorelasyon Analizi Örnek İşlem Özeti (Case Processing

Summary) Çizelgesi ..................................................................................603Çizelge 4.56. Örnek Analize İlişkin Otokorelasyonlar Çizelgesi ................................603Çizelge 4.57. Örnek Analize İlişkin Kısmî Otokorelasyon Sonuçlarına İlişkin

Çizelge .........................................................................................................605Çizelge 4.58. Örnek Zaman Serisi Analizi Model Tanımlama Çizelgesi ...................613Çizelge 4.59. Örnek Zaman Serisi Analizi Model Uyumu Çizelgesi .........................613Çizelge 4.60. Örnek Zaman Serisi Analizi Model İstatistikleri (Model Statistics)

Çizelgesi ......................................................................................................614Çizelge 4.61. ARIMA Model Parametreleri Çizelgesi ..................................................615

ŞEKİLLER LİSTESİŞekil 1.1. Veri Madenciliğinin Tarihsel Gelişimi ..............................................................5Şekil 1.2. Veri Madenciliği ile İlişkili Alanlar ...................................................................7Şekil 1.3. Hiyerarşik Tanım Ağacı Örneği .......................................................................13Şekil 1.4. Veri Ambarı Sistemleri ve Veri Ambarlarının Gelişim Süreci .....................18Şekil 1.5. Bilgi Keşfi Süreci Olarak Veri Madenciliği .....................................................25Şekil 1.6. Veri İşleme Biçimleri .........................................................................................29Şekil 1.7. CRISP-DM Modeline Göre Veri Madenciliği Süreci ....................................30Şekil 1.8. Yamaç Grafiği Örneği........................................................................................41Şekil 1.9. Eğik Faktör Döndürme Yöntemi .....................................................................43Şekil 1.10. Dik Faktör Döndürme Yöntemi.....................................................................44Şekil 1.11. “Direct Oblimin” Döndürme Yönteminde “Delta” Değerinin Girilmesi .46Şekil 1.12. Cronbach Alfa Katsayısının SPSS 20 Programı ile Hesaplanmasında

Güvenirlik Katsayısı Penceresinin Açılması ................................................51Şekil 1.13. Crobnach Alfa Katsayısı İmleci .....................................................................51Şekil 1.14. Kaiser-Meyer Olkin (KMO) ve Barlett’s Küresellik Testleri İçin İlk

Komut Penceresi ..............................................................................................52

xvi Sosyal Bilimlerde Veri Madenciliği

Şekil 1.15. Kaiser-Meyer Olkin (KMO) ve Barlett’s Küresellik Testleri İçin İkinci Komut Penceresi ..............................................................................................52

Şekil 1.16. Kaiser-Meyer Olkin (KMO) ve Barlett’s Küresellik Testleri İçin Son Komut Penceresi ..............................................................................................53

Şekil 1.17. Temel Bileşenler Analizi İçin İlk Komut Penceresi .....................................54Şekil 1.18. Temel Bileşenler Analizi İçin İkinci Komut Penceresi ...............................54Şekil 1.19. Temel Bileşenler Analizi İçin Üçüncü Komut Penceresi ............................55Şekil 1.20. Temel Bileşenler Analizi İçin Dördüncü Komut Penceresi........................55Şekil 1.21. Temel Bileşenler Analizi İçin Beşinci Komut Penceresi .............................56Şekil 1.22. Temel Bileşenler Analizi İçin Altıncı Komut Penceresi ..............................56Şekil 1.23. Temel Bileşenler Analizi İçin Yedinci Komut Penceresi (Faktör Sayısı

Belirleme) .........................................................................................................57Şekil 1.24. Temel Bileşenler Analizi İçin Sekizinci Komut Penceresi (Faktör

Döndürme İmleci) ...........................................................................................58Şekil 1.25. Temel Bileşenler Analizi İçin Dokuzuncu Komut Penceresi

(Döndürme Yöntemine Karar Verilmesi) .....................................................58Şekil 1.26. Temel Bileşenler Analizi İçin Dokuzuncu Komut Penceresi .....................59Şekil 1.27. Temel Bileşenler Analizi Örnek Analize İlişkin Yamaç Grafiği.................65Şekil 1.28. Filtreleme Yöntemi ile Değişken Seçimi Süreci ...........................................75Şekil 1.29. Filtreleme Yöntemi ile Değişken Seçimi Süreci ...........................................75Şekil 1.30. Bazı Dalgacık Dönüşüm Yöntemleri .............................................................77Şekil 1.31. Karar Ağacı Tümevarım Yöntemi ile Değişken Alt Küme Seçimi ............80Şekil 1.32. Veri Madenciliğinde Histogramların Veri Azaltma Yöntemi Olarak

Kullanılması......................................................................................................83Şekil 1.33. Veri Madenciliğinde Bar Grafiklerinin Veri Azaltma Yöntemi Olarak

Kullanılması......................................................................................................83Şekil 1.34. Verilerin Birleştirilmesi Sonucu Ortaya Çıkan Yeni Veri Setine İlişkin

Histogram .........................................................................................................84Şekil 1.35. Bir Boyutsal Örnekleme Örneği ....................................................................91Şekil 1.36. Veri Küpü Örneği ............................................................................................92Şekil 1.37. Yaş Değişkeninin Kategorik Biçime Dönüştürülmesi.................................93Şekil 2.1. Veri Madenciliğinde Başvurulan Veri Analizi Yöntemleri ...........................98Şekil 2.2. Verilerin Görselleştirilmesinde Kutu Grafiği Kullanımı ............................104Şekil 2.3. Puanların Dağılımın İlişkin Histogram ........................................................104Şekil 2.4. Pozitif Yönlü İlişki Ortaya Koyan Saçılma Diyagramı ................................105Şekil 2.5. Negatif Yönlü İlişki Ortaya Koyan Saçılma Diyagramı ..............................106Şekil 2.6. Veri Setinde Değerler Arasında İlişki Olmadığını Ortaya Koyan

Saçılma Diyagramı ...........................................................................................106

xviiŞekiller Listesi

Şekil 2.7. Öğrencilerin Notlarının Dağılımına İlişkin Daire Grafiği .........................107Şekil 2.8. Pasta Grafiği Örneği ........................................................................................107Şekil 2.9. Değişkenlerin Daire Grafiğine Yerleştirilmesi .............................................108Şekil 2.10. Yıldız Gösterim Tekniği Örneği ...................................................................109Şekil 2.11. Q-Q Plot Örneği ..............................................................................................11Şekil 2.12. Bir Elektronik Şirketi Müşterilerinin Dört Farklı Değişkene Göre

Dağılımı ..........................................................................................................111Şekil 2.13. İki ya da Daha Fazla Boyutlu Verilerin Saçılma Diyagramı Kullanılarak

Geometrik Gösterim Yöntemi ile Görselleştirilmesi ................................112Şekil 2.14. Verilerin Üç Boyutlu Saçılma Diyagramı Kullanılarak

Görselleştirilmesi ...........................................................................................113Şekil 2.15. Paralel Koordinatlar Tekniği ile Verilerin Görselleştirilmesi...................114Şekil 2.16. Altı Boyutlu Uzayın n-vision ile Görselleştirilmesi ..................................115Şekil 2.17. Hareket Grafiği Örneği .................................................................................115Şekil 2.18. Sözcük Bulutu Grafiği Örneği .....................................................................116Şekil 2.19. Bütüncül Uç Değerleri Gösteren Diyagram ...............................................118Şekil 2.20. Veri Madenciliğinde Uç Değerlerin Ele Alınması Süreci .........................119Şekil 2.21. Veri Madenciliğinde Uç Değerleri Tespit Etme Yöntemleri .....................119Şekil 2.22. Veri Setinde Uç Değerleri Gösteren Saçılma Diyagramı ..........................120Şekil 2.23. Uç Değerlerin Kutu Grafiği ile Gösterilmesi .............................................121Şekil 2.24. Uç Değerlerin Histogram Grafiği ile Gösterilmesi ...................................122Şekil 2.25. Uç Değerlerin Küçük Kümeler Yöntemi ile Gösterilmesi ........................123Şekil 2.26. Uç Değerlerin En Yakın Komşu Yöntemi ile Görselleştirilmesi ..............125Şekil 2.27. Bir Veri Setinde Bir Değerin Diğerine Olan Uzaklığına En Aza İndiren

Çizgiyi Bulmaya Yarayan Doğrusal Regresyon Analizi Doğrusu ...........130Şekil 2.28. Çizelge 2.10’da Yer Alan Verilere İlişkin Saçılma Diyagramı ...................143Şekil 2.29. Farklı Korelasyon Güçlerini Gösteren Saçılma Diyagramları .................145Şekil 2.30. Pozitif ve Negatif Doğrusal İlişkiler ............................................................146Şekil 2. 31. U ve Ters U Şekilli Eğrisel İlişkilerin Saçılma Diyagramı ile

Gösterimi .......................................................................................................147Şekil 2.32. Pozitif İlişki Ortaya Koyan Saçılma Diyagramı .........................................148Şekil 2.33. Negatif İlişki Ortaya Koyan Saçılma Diyagramı ........................................148Şekil 2.34. SPSS 20’de Saçılma Diyagramı Penceresine Giriş ......................................151Şekil 2.35. SPSS 20’de Uygun Saçılma Diyagramının Seçilmesi .................................151Şekil 2.36. SPSS 20’de Analize Ait Değişkenlerin Seçilerek Saçılma Diyagramı

Komutu Verilmesi ..........................................................................................152Şekil 2.37. İş Yeri Arkadaşlık Algısı ve Bütünleştirme Alt Boyutu Arasındaki

İlişkiye Dönük Saçılma Diyagramı ..............................................................152

xviii Sosyal Bilimlerde Veri Madenciliği

Şekil 2.38. SPSS 20’de Pearson Korelasyon Katsayısı Penceresine Erişim İçin Gerekli Komutlar ...........................................................................................153

Şekil 2.39. SPSS 20’de Pearson Korelasyon Katsayısı Çıktılarına Erişim İçin Gerekli Komutlar ...........................................................................................154

Şekil 2.40. Öklid Uzaklığının Hesaplanışı .....................................................................157Şekil 2.41. Tek Bağlantı Yönteminde İki Kümenin Birbirine Olan Uzaklığı ............167Şekil 2.42. Tam Bağlantı Yönteminde İki Kümenin Birbirine Olan Uzaklığı ...........168Şekil 2.43. Ortalama Kümeleme Yöntemleri .................................................................169Şekil 2.44. Ward Bağlantı Kümeleme Yöntemi .............................................................170Şekil 2.45. Ayırıcı Hiyerarşik Kümeleme Örneği .........................................................171Şekil 2.46. Yoğunluk Esaslı Kümeleme Yöntemi ..........................................................173Şekil 2.47. k-means Algoritması ile Kümeleme Yöntemi ............................................174Şekil 2.48. Nesnelerin Rastsal (Random) Dağılımı ......................................................179Şekil 2.49. Çekirdek-Uzaklık Değeri ve Ulaşılabilirlik Mesafesi, MinPts=4 için

r = (p1, 0), r= (p2, 0) ......................................................................................180Şekil 2.50. OPTICS Algoritmasına Kümeleme Sıralaması ..........................................181Şekil 2.51. SPPS 20 Programında Kümeleme Analizi Penceresine Ulaşmak İçin

Gerekli Komutlar ...........................................................................................184Şekil 2.52. SPPS 20 Programında Kümeleme Analizi Penceresinde Değişkenlerin

“Variables” Kutucuğuna Aktarılması ..........................................................184Şekil 2.53. SPPS 20 Programında Kümeleme Analizi Penceresinde “Variables”

İmlecine Komut Verilmesi ............................................................................185Şekil 2.54. SPPS 20 Programında Kümeleme Analizi Penceresinde “Statistics”

İmlecine Komut Verilmesi ............................................................................185Şekil 2.55. SPPS 20 Programında Kümeleme Analizi Penceresinde Küme Sayısının

Belirlenmesi ....................................................................................................186Şekil 2.56. SPPS 20 Programında Kümeleme Analizi Penceresinde “Dendogram”

Kutucuğu ........................................................................................................186Şekil 2.57. SPPS 20 Programında Kümeleme Analizi Penceresinde “Method”

Komutu Verilmesi ..........................................................................................187Şekil 2.58. SPPS 20 Programında Kümeleme Analizi Penceresinde Ward Bağlantı

Yönteminin Seçilmesi ....................................................................................187Şekil 2.59. SPPS 20 Programında Kümeleme Analizi Penceresinde Benzerlik Ölçütü

Olarak Pearson Korelasyon Katsayısı Seçeneğinin Belirlenmesi ............188Şekil 2.60. Örnek Hiyerarşik Kümeleme Analizine İlişkin Dendogram ...................192Şekil 2.61. Örnek Kümeleme Analizine İlişkin Dendogram ......................................198Şekil 2.62. Tek Seviyeli Birliktelik Kuralı Taksonomi Örneği .....................................203Şekil 2.63. Çok Seviyeli Birliktelik Kurallarında Destek Değeri .................................204

xixŞekiller Listesi

Şekil 2.64. Çok Seviyeli Birliktelik Kurallarında Destek Değerine Göre Verilerin Sık Rastlanan Veriler Olarak Ele Alınması.................................................204

Şekil 2.65. Apriori Algoritmasının Birleştirme Özelliği ..............................................210Şekil 2.66. Apriori Algoritmasının Budama Özelliği ...................................................211Şekil 2.67. Apriori Algoritmasının Akış Şeması ...........................................................212Şekil 2.68. Bölümleme Yöntemi ile Veri Madenciliği ..................................................219Şekil 2.69. Örnek Veri İçin FP Ağacı .............................................................................223Şekil 2.70. FP Growth Algoritmasının Genel Yapısı ....................................................224Şekil 2.71. Bir Şirketin Satış Rakamlarına İlişkin Sıralı Dizin Analizi ......................227Şekil 2.72. New York Borsası’nın 2.000 Günlük Performansı .....................................227Şekil 2.73. Bir Şirketin Yıllık Satış ile 10 Günlük Performansının Grafikle

Gösterimi ........................................................................................................228Şekil 2.74. Sıralı Dizin Madenciliği Algoritmalarının Sınıflandırılması ...................229Şekil 2.75. Çizelge 2.29’da da Yer Alan Verilerin Parça-Haritası Yöntemi ile

Temsil Edilmesi ..............................................................................................234Şekil 2.76. Dizin Uzantılı Destek Değeri Belirleme .....................................................235Şekil 2.77. DF* Dizini İçin Düzenli Kurallar Oluşturulmuş Sözlük Ağacı ...............236Şekil 3.1. r=.323 Pearson korelasyon Katsayısı İçin Açıklanan Varyans Miktarı .....241Şekil 3.2. X1, X2 ve X3 Değişkenleri Arasındaki Kısmî Korelasyon İlişkisi ..............242Şekil 3.3. SPSS 20 Programında Betimsel İstatistikler Penceresine Erişim

Komutları ..........................................................................................................244Şekil 3.4. SPSS 20 Programında Puanların Dağılımının Normalliğinin Test

Edilmesi ............................................................................................................244Şekil 3.5. SPSS 20 Programında Puanların Dağılımının Normalliğinin Test

Edilmesi İçin Histogram Komutu Verilmesi ................................................245Şekil 3.6. Puanların Dağılımının Normalliği Analizinde Erkek Grubuna İlişkin

Histogram .........................................................................................................247Şekil 3.7. Puanların Dağılımının Normalliği Analizinde Kadın Grubuna İlişkin

Histogram .........................................................................................................248Şekil 3.8. SPSS 20 Programında Puanların Dağılımının Normalliğinin Normallik

Testleri ile İncelenmesi ....................................................................................249Şekil 3.9. Eşdeğişkeli (Homoscedastic) ve Farklıdeğişkeli (Heteroscedastic)

Dağılım..............................................................................................................250Şekil 3.10. SPSS 20 Programında Çoklu Doğrusal Bağlantının Test Edilmesi

İçin İlk Komut Penceresi ..............................................................................254Şekil 3.11. SPSS 20 Programında Çoklu Doğrusal Bağlantının Test Edilmesi İçin

Değişkenlerin Gerekli Kutucuklara Aktarılması .......................................255Şekil 3.12. SPSS 20 Programında Çoklu Doğrusal Bağlantının Test Edilmesi İçin

Komut Verilmesi Gereken İstatistikler .......................................................255

xx Sosyal Bilimlerde Veri Madenciliği

Şekil 3.13. SPSS 20 Programında Saçılma Diyagramı Penceresine Giriş İçin Komutlar .........................................................................................................259

Şekil 3.14. SPSS 20 Programında Saçılma Diyagramı Penceresinde Uygun Seçeneğe Komut Verilmesi ...........................................................................259

Şekil 3.15. SPSS 20 Programında Saçılma Diyagramı İçin Değişkenlerin Uygun Kutucuklara Aktarılması ..............................................................................260

Şekil 3.16. Çizelge 3.7’de Yer Alan Verilere İlişkin Saçılma Diyagramı .....................260Şekil 3.17. SPSS 20 Programında Saçılma Diyagramında Regresyon Eğrisi ............261Şekil 3.18. SPSS 20 Programında Saçılma Diyagramında Regresyon Eğrisi

Seçenekleri Penceresi ....................................................................................262Şekil 3.19. SPSS 20 Programında Doğrusal Olmayan Regresyon Analizinde Saçılma

Diyagramında “Quadradic” Regresyon Eğrisinin Çizdirilmesi ..............262Şekil 3.20. Regresyon Analizinde İlişkinin Negatif Yönlü Güçlü ve Zayıf Olduğu

Dağılımlar .......................................................................................................263Şekil 3.20. Regresyon Analizinde İlişkinin Negatif Yönlü Güçlü ve Zayıf Olduğu

Dağılımlar .......................................................................................................263Şekil 3.21. Regresyon Analizi İşlem Adımları ..............................................................264Şekil 3.22. Çizelge 3.11’de Yer Alan Verilerin Saçılma Diyagramı ile Gösterimi .....268Şekil 3.23. Çizelge 3.12’de Yer Alan Verilere İlişkin Saçılma Diyagramı ...................269Şekil 3.24. Çizelge 3.13’te Yer Alan Verilerin Saçılma Diyagramı ile Gösterilmesi .270Şekil 3.25. Verilerin Regresyon Doğrusundan Sapma Düzeyleri (ekserler) .............271Şekil 3.26. Çizelge 3.14’te Yer Alan Verilere İlişkin Saçılma Diyagramı ...................273Şekil 3.27. SPSS 20 Programında Basit Doğrusal Regresyon Penceresine Erişim

İçin Komutlar .................................................................................................273Şekil 3.28. SPSS 20 Programında Basit Doğrusal Regresyon Analizi Komutları .....274Şekil 3.29. SPSS 20’de Basit Doğrusal Regresyon İçin Gerekli İstatistikler ...............274Şekil 3.30. Yaklaşık Olarak Normal Dağılımı Gösteren Saçılma Diyagramı ............280Şekil 3.31. Standart Çoklu Doğrusal Regresyon Analizinde Değişkenlerin Uygun

Kutucuklara Aktarılması ..............................................................................285Şekil 3.32. Standart Çoklu Doğrusal Regresyon Analizinde Grafikler İçin

Komutlar .........................................................................................................286Şekil 3.33. Standart Çoklu Doğrusal Regresyon Örnek Analize İlişkin

Histogram .......................................................................................................286Şekil 3.34. Güdülenme Puanı, Denetim Puanı ve İş Doyumu Puanı Değişkenlerinin

Bağımlı Değişken Olan Örgütsel Bağlılık Değişkenini Birlikte Kestirim Düzeyine İlişkin P-P Olasılık Saçılma Diyagramı .....................................287

Şekil 3.35. Güdülenme Puanı, Denetim Puanı ve İş Doyumu Değişkenlerinin Bağımlı Değişken Olan Örgütsel Bağlılık Değişkenini Birlikte Kestirim Düzeyine İlişkin Saçılma Diyagramı ...........................................................287

xxiŞekiller Listesi

Şekil 3.36. İş Doyumu Değişkeni ile Güdülenme Düzeyi Arasındaki Kısmî Korelasyonu Gösteren Kısmî Regresyon Saçılma Diyagramı ..................288

Şekil 3.37. Güdülenme Puanı Değişkeni ile Örgütsel Bağlılık Değişkeni Arasındaki Kısmî Korelasyonu Gösteren Kısmî Regresyon Saçılma Diyagramı ......289

Şekil 3.38. İş Doyumu Puanı Değişkeni ile Örgütsel Bağlılık Değişkeni Arasındaki Kısmî Korelasyonu Gösteren Kısmî Regresyon Saçılma Diyagramı ......289

Şekil 3.39. Mahalananobis Uzaklığı İçin SPSS 20’de Verilecek İlk Komutlar ...........290Şekil 3.40. Mahalananobis Uzaklığı İçin SPSS 20’de “Save” Menüsü Altında Yer

Alan Seçenekler..............................................................................................291Şekil 3.41. SPSS 20’de Mahalanobis Uzaklık Değerlerinin Sıralanması ....................292Şekil 3.42. SPSS 20’de Mahalanobis Uzaklık Değerlerinin Büyükten Küçüğe

Doğru Sıralanmış Biçimleri .........................................................................292Şekil 3.43. Standart Çoklu Doğrusal Regresyon Analizi İçin İlk Komutlar..............293Şekil 3.44. Standart Çoklu Doğrusal Regresyon Analizinde “Statistics”

Penceresinde Yer Alan seçenekler ...............................................................294Şekil 3.45. Hiyerarşik Çoklu Doğrusal Regresyon Analizi İlk Komutlar ..................302Şekil 3.46. Hiyerarşik Çoklu Doğrusal Regresyon Analizinde Statistics Penceresinde

Gerekli Seçeneklere Komut Verilmesi ........................................................302Şekil 3.47. Hiyerarşik Çoklu Doğrusal Regresyon Analizinde İkinci Sıra

Değişkenlerin Regresyon Modeline Alınması ...........................................303Şekil 3.48. Hiyerarşik Çoklu Doğrusal Regresyon Analizinde İkinci Sıra

Değişkenlerin Modele Alınması ve Sonrasında Verilmesi Gereken Komutlar .........................................................................................................304

Şekil 3.49. Aşamalı Çoklu Doğrusal Regresyon Analizi Uygulama Aşamalarında Değişkenlerin İlgili Kutucuklara Aktarılması ............................................313

Şekil 3.50. Aşamalı Çoklu Doğrusal Regresyon Analizinde F Değerlerinin Seçilmesi .........................................................................................................313

Şekil 3.51. Aşamalı Çoklu Doğrusal Regresyon Analizinde “Statistics” Penceresinde Gerekli Seçeneklere Komut Verilmesi .................................314

Şekil 3.52. Lojistik Regresyonda Bağımlı ve Bağımsız Değişken İlişkisi ...................328Şekil 3.53. Zayıf İlişki Ortaya Koyan Lojistik Eğrisi ....................................................328Şekil 3.54. İyi Tanımlanmış İlişki Ortaya Koyan Lojistik Regresyon Eğrisi .............329Şekil 3.55. Lojistik Regresyon Analizi Aşamaları .........................................................343Şekil 3.56. SPSS 20 Programında İkili Lojistik Regresyon Analizi Penceresine

Giriş Komutları ..............................................................................................348Şekil 3.57. SPSS 20 Programında İkili Lojistik Regresyon Analizi Penceresinde

Değişkenlerin Uygun Kutucuklara Aktarılması İçin Verilecek Komutlar .........................................................................................................349

Şekil 3.58. SPSS 20 Programında İkili Lojistik Regresyon Analizi Penceresinde “Method” Sekmesinden “Enter”Yönteminin Seçilmesi ............................349

xxii Sosyal Bilimlerde Veri Madenciliği

Şekil 3.59. SPSS 20 Programında İkili Lojistik Regresyon Analizi Penceresinde “Options” Menüsüne Giriş ...........................................................................350

Şekil 3.60. SPSS 20 Programında İkili Lojistik Regresyon Analizi Penceresinde “Options” Menüsü Altından Komut Verilmesi Gereken İmleçler ..........350

Şekil 3.61. SPSS 20 Programında İkili Lojistik Regresyon Analizi Çıktı Penceresine Erişim İçin Son Komut .................................................................................351

Şekil 3.62. SPSS 20 Programında İkili Lojistik Regresyon Analizi Penceresine Erişim İçin İlk Komutlar ...............................................................................375

Şekil 3.63. SPSS 20 Programında İkili Lojistik Regresyon Analizinde Kategorik Değişkenlerin Tanımlanması .......................................................................375

Şekil 3.64. SPSS 20 Programında İkili Lojistik Regresyon Analizinde Kategorik Değişkenlerin Tanımlanması Aşamasında “Categorical” Menüsü Altında Verilmesi Gereken Komutlar .......................................................................376

Şekil 3.65. SPSS 20 Programında İkili Lojistik Regresyon Analizinde Kategorik Değişkenlerin Tanımlanması Aşamasında Zıtlık Yönteminin Seçilmesi .........................................................................................................377

Şekil 3.66. SPSS 20 Programında İkili Lojistik Regresyon Analizinde Kategorik Değişkenlerin Tanımlanması Aşamasında Son Komut ............................377

Şekil 4.1. Karar Ağacı ile Sınıflandırma Örneği ...........................................................381Şekil 4.2. Bireylerin Yaş ve Gelir Düzeyleri Değişkenlerine Göre Yapay Sinir

Ağları ile Sınıflandırılması ..............................................................................382Şekil 4.3. Karar Ağacı Yönteminden Faydalanılarak Potansiyel Banka Müşterilerinin

Kredi Puanlarına Göre “Riskli” ya da “Risksiz Müşteriler” Biçiminde Sınıflandırılması ...............................................................................................385

Şekil 4.4. Golf Oynama Kararına Dönük Karar Ağacı ................................................390Şekil 4.5. CART Algoritmasında Karar Ağacında İlk Bölünme .................................410Şekil 4.6. Karar Boğumu A İçin Bölünmeden Sonra CART Karar Ağacı .................412Şekil 4.7. Nihai Bir CART Algoritması Karar Ağacı ....................................................413Şekil 4.8. Karar Ağacının Alt Kategorilerinin, Kategorilerin Yerine Yaprak

Boğumu (Leaf Nodes) Getirilerek Budanması ............................................422Şekil 4.9. Bayes Ağı Olarak Resmedilen Bir Bayes Sınıflandırıcısı ............................432Şekil 4.10. Bilgisayar Hatasının Nedenlerine İlişkin İki Değişkeni Ortaya Koyan

Yönlendirilmiş Çevrimsiz Grafik Örneği ...................................................440Şekil 4.11. F Olayının D Olayına, D Olayının da G Olayına Neden Olduğu

Neden Sonuç İlişkisini Ortaya Koyan Yönlendirilmiş Çevrimsiz Grafik Örneği .............................................................................................................440

Şekil 4.12. Bayes Ağında Tanısal Akıl Yürütme ............................................................442Şekil 4.13. Bayes Ağında Kestirisel Akıl Yürütme ........................................................442Şekil 4.14. Beş Değişken Arasında Sebep Sonuç İlişkisi Ortaya Koyan Bir Bayes

Ağı Örneği ......................................................................................................443

xxiiiŞekiller Listesi

Şekil 4.15. Bayes Ağında Sebepler Arası Akıl Yürütme Yöntemlerinden Tevil Etme Yöntemi .................................................................................................444

Şekil 4.16. Bayes Ağında Sebepler Arası Akıl Yürütme Yöntemlerinden Tevil Etme Yöntemi .................................................................................................445

Şekil 4.17. Akciğer Kanserine İlişkin Bayes Ağı Örneği ..............................................449Şekil 4.18. Popülasyon Şeması ........................................................................................452Şekil 4.19. Rulet Çarkı Yöntemi ile Seçme ....................................................................454Şekil 4.20. Kromozomların Uygunluk Değerlerine Göre Sıralanması ......................457Şekil 4.21. Çaprazlama Operatörleri (a) Tek Noktalı Çaprazlama, (b) İki Noktalı

Çaprazlama .....................................................................................................459Şekil 4.22. Çok Noktalı Çaprazlama, m=5 ....................................................................459Şekil 4.23. Genetik Algoritmalarda Kısmî Çaprazlama Yöntemi İlk Aşama ............460Şekil 4.24. Genetik Algoritmalarda Kısmî Çaprazlama Yöntemi İkinci Aşama .......460Şekil 4.25. Genetik Algoritmalarda Kısmî Çaprazlama Yöntemi Üçüncü Aşama ...460Şekil 4.26. Genetik Algoritmalarda Kısmî Çaprazlama Yöntemi Dördüncü

Aşama ..............................................................................................................461Şekil 4.27. Sıralı Çaprazlama Örneği .............................................................................461Şekil 4.28. Pozisyona Dayalı Çaprazlama Yöntemi ......................................................462Şekil 4.29. Sıra Tabanlı Çaprazlama ...............................................................................462Şekil 4.30. Genetik Algoritmalarda Mutasyon Operatörü Örneği.............................464Şekil 4.31. Mutasyon Yöntemleri ve Etkileri .................................................................465Şekil 4.32. Genetik Algoritma Akış Şeması ..................................................................466Şekil 4.33. Genetik Algoritma Örnek Analize İlişkin Rulet Çarkı Seçme Yöntemi .473Şekil 4.34. Destek Vektör Makineleri İçin İki Sınıflı Problem Örneği ......................477Şekil 4.35. (a) İki Sınıflı Bir Problem İçin Hiper-Düzlemler, (b) Optimum

Hiper-Düzlem ve Destek Vektörleri ............................................................478Şekil 4.36. Doğrusal Olarak Ayrılabilen Veri Setleri İçin Hiper-Düzlemin

Belirlenmesi ....................................................................................................479Şekil 4.37. (a) Doğrusal Olarak Ayrılamayan Veri Seti, (b) Doğrusal Ayrılamayan

Veri Setleri İçin Hiper-Düzlemin Belirlenmesi .........................................481Şekil 4.38. Doğrusal Olarak Ayrılamayan Verilerin Kernel Fonksiyonu ile Yüksek

Boyutlu Uzayda Görüntülenmesi ................................................................482Şekil 4.39. Sorgulama Noktası ve En Yakın Komşusu .................................................485Şekil 4.40. Öklid Uzaklığının Görsel Tasarımı .............................................................486Şekil 4.41. Manhattan Uzaklığı Örneği..........................................................................487Şekil 4.42. k=1 Olarak Ele Alındığında En Yakın Komşu Tekniği ile

Sınıflandırma ..................................................................................................488Şekil 4.43. k=1 Olarak Ele Alındığında En Yakın Komşu Tekniği ile

Sınıflandırma ..................................................................................................489

xxiv Sosyal Bilimlerde Veri Madenciliği

Şekil 4.44. k-en Yakın Komşu Tekniğinde Sınıflandırma ...........................................489Şekil 4.45. k=5 Olarak Ele Alınan Bir k-en Yakın Komşu Sınıflandırması Örneği .492Şekil 4.46. (8,4) Noktasına En Yakın Dört Komşusu ...................................................495Şekil 4.47. Bir Sinir Hücresinin Bileşenleri ...................................................................500Şekil 4.48. Nöronlar Arasında Gerçekleşen Bilgi Alışverişi ........................................500Şekil 4.59. Temel Düzeyde Bir Yapay Sinir Hücresinin Bileşenleri............................501Şekil 4.60. Perceptron Yapısı ...........................................................................................508Şekil 4.61. ADALINE Ağ Yapısı ......................................................................................509Şekil 4.62. İki ADALINE Ağının Birleşmesiyle Meydana Gelen MADALINE

Ağı....................................................................................................................510Şekil 4.63. Tek Katmanlı Yapay Sinir Ağı Örneği .........................................................511Şekil 4.64. Çok Katmanlı Yapay Sinir Ağı Modeli ........................................................512Şekil 4.65. İleri Beslemeli Yapay Sinir Ağı Örneği .......................................................513Şekil 4.66. Geri Beslemeli Yapay Sinir Ağı Örneği .......................................................514Şekil 4.67. Yapay Sinir Ağlarında Öğretmenli Öğrenme Süreci .................................516Şekil 4.68. LVQ Ağ Yapısı ................................................................................................518Şekil 4.69. ART Ağı Yapısı ...............................................................................................521Şekil 4.70. Geri Dönüşümlü Yapay Sinir Ağlarının Yapısı ..........................................522Şekil 4.71. Elman Ağı Yapısı ............................................................................................523Şekil 4.72. Hopfield Ağı Yapısı ........................................................................................524Şekil 4.73. Yapay Sinir Ağları Örnek Uygulama İçin Kurulan Yapay Sinir Ağı

Modeli .............................................................................................................526Şekil 4.74. SPSS 20 Programında Yapay Sinir Ağları Analizinde Çok Katmanlı

Perceptron Analiz Sayfasına Giriş İçin Komutlar .....................................527Şekil 4.75. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde

Değişkenlerin Gerekli Kutucuklara Aktarılması .......................................527Şekil 4.76. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde

“rescaling of covariates” Menüsü Altından “standardized” Alternatifinin Seçilmesi ................................................................................528

Şekil 4.77. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Kısımlandırma Penceresine Giriş Komutu ................................................528

Şekil 4.78. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Kısımlandırma İşleminin Kısımlandırma Değişkeni ile Yapılmasına Dönük Komutlar ............................................................................................529

Şekil 4.79. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Kısımlandırma İşleminin SPPS 20 Programı Tarafından Yapılmasına Dönük Komutlar ............................................................................................530

xxvŞekiller Listesi

Şekil 4.80. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Kısımlandırma İşleminde Test Veri Seti ve Hold Out Veri Seti İçin Verilmesi Gereken Komutlar .......................................................................530

Şekil 4.81. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Yapı (architecture) Menüsü Altında Verilmesi Gereken Komutlar .................531

Şekil 4.82. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Yapı (architecture) Menüsü Altında Komut Verilmesi Gereken Seçenekler ..531

Şekil 4.83. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Eğitim (training) Menüsü Altında Komut Verilmesi Gereken Seçenekler .........532

Şekil 4.84. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Çıktı (output) Menüsü Altında Komut Verilmesi Gereken Seçenekler ...........533

Şekil 4.85. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Çıktı (output) Menüsü Altında Yer Alan Ağ Performansı (network performance) Alt Menüsü Altında Komut Verilmesi Gereken Seçenekler .......................................................................................................533

Şekil 4.86. SPSS 20 Programında Çok Katmanlı Perceptron Penceresinde Çıktı (output) Menüsü Altında Verilmesi Gereken Son Komutlar...................533

Şekil 4.87. Örnek Yapay Sinir Ağı Uygulaması Model Mimarisi ...............................537Şekil 4.88. Yapay Sinir Ağı Modelinde Eğitim Safhası İçin Tahmin ve Gözlem

Değerlerini Ortaya Koyan Saçılma Diyagramı ..........................................540Şekil 4.89. Yapay Sinir Ağı Modelinde Model Sağlama (validation-holdout)

Kısmı ya da Safhası İçin Saçılma Diyagramı ..............................................541Şekil 4.90. Yapay Sinir Ağları Örnek Uygulama Bağımsız Değişkenlerin Önem

Düzeyini Ortaya Koyan Bar Diyagramı .....................................................543Şekil 4.91. Hata Fonksiyonunun Hesaplanması İçin Uzatılmış Ağ Örneği ..............546Şekil 4.92. c=1, c=2 ve c=3 İçin Üç Farklı Sigma Örneği ............................................547Şekil 4.93. Sıkıştırılmış Fonksiyonlara İlişkin Grafik ..................................................548Şekil 4.94. (a) Standart Lojistik Fonksiyon f(x) = 1/1+e-x), (b) Hiperbolik

Tanjant, f(x)=1.7159 ......................................................................................549Şekil 4.95. İki Fonksiyonun Oluşturulmasına Dönük Bir Ağ Örneği .......................551Şekil 4.96. İleri Besleme Aşamasının Sonucu ...............................................................552Şekil 4.97. Geri Yayma İşleminin Sonucu .....................................................................552Şekil 4.98. Ağa Fonksiyonların Eklenmesi ....................................................................553Şekil 4.99. Son Birimde (Last Node) Hatayı Geri Yayma ............................................554Şekil 4.100. Yapay Sinir Ağında Hatanın Çıktı Katmanına Doğru Yayılmasın

(j birimine kadar hatayı geri yayma yolu) ................................................555Şekil 4.101. Her İki Uçta Girdi ve Geri Yayılmış Hata .................................................555Şekil 4.102. Ağda Girdi Alanı i’ye Kadar Olan Bütün Yollar ......................................556Şekil 4.103. Küresel Isınma Sıcaklık Değerlerine İlişkin Gözlemler..........................558Şekil 4.104. ABD’de Yıllara Göre İtalyan Peyniri Üretim Miktarı ..............................561

xxvi Sosyal Bilimlerde Veri Madenciliği

Şekil 4.105. Azalan Zaman Serisi Analizi ......................................................................562Şekil 4.106. Dalgalı Zaman Serisi Örneği ......................................................................563Şekil 4. 107. Durağan (Sabit) Zaman Serisi ..................................................................564Şekil 4.108. Durağan Olmayan Zaman Serisi ...............................................................564Şekil 4.109. Zaman Serilerinde Farklı Trend Bileşeni Biçimleri ................................566Şekil 4.110. Deterministik Trend (I ve II), Olasılığa Dayalı (stokastik)

Trend (III) .....................................................................................................567Şekil 4.111. Mevsimsel Dalgalanma İçeren Zaman Serisi Analizi .............................568Şekil 4.112. Konjonktürel Dalgalanmalara Bir Örnek .................................................569Şekil 4.113. SPSS Programında Üssel Düzleştirme Modelleme Aşamaları ..............575Şekil 4.114. SPSS Time Series Modülünde “expert modeller’ın” ARIMA

Modelleri İçin Model Derecelerinin Belirlenmesinde Süreç .................577Şekil 4.115. SPSS 20 Programında Zaman Serisi Analizlerinde Tarihlerin

Programa Girilmesi .....................................................................................580Şekil 4.116. SPSS 20 Programında Zaman Serisi Analizlerinde Tarihlerin

Programa Girilmesinde Tarihlere İlişkin Seçenekler ..............................581Şekil 4.117. SPSS 20 Programında Zaman Serisi Analizlerinde Tarihlerin

Programa Girilmesinde Üçüncü Aşama ..................................................581Şekil 4.118. SPSS 20 Programında Zaman Serisi Analizlerinde Tarihlerin

Programa Girilmesinde Son Aşama ..........................................................582Şekil 4.119. SPSS 20 Programında Zaman Serisi Analizlerinde Tarihlerin SPSS

Çıktı Sayfasında Görünümü ......................................................................582Şekil 4.120. SPSS 20 Programında Zaman Serisi Gidiş Grafiğinin Çizdirilmesine

İlişkin Komutlar ...........................................................................................583Şekil 4.121. SPSS 20 Programında Zaman Serisi Gidiş Grafiğinin Çizdirilmesinde

Temel Alınan Değişkenler ..........................................................................584Şekil 4.122. SPSS 20 Programında Zaman Serisi Gidiş Grafiğinin Çizdirilmesinde

Programda Gerekli Komutların Verilmesi ...............................................584Şekil 4.123. SPSS 20 Programında Örnek Analize İlişkin Elde Edilen Zaman Serisi

Gidiş Grafiği .................................................................................................585Şekil 4.124. SPSS 20 Programında Zaman Serisi Gidiş Grafiğinin “graphs” Menüsü

Altından Çizdirilmesi .................................................................................585Şekil 4.125. SPSS 20 Programında Zaman Serisi Gidiş Grafiğinin “graphs” Menüsü

Altından Çizdirilmesine İlişkin İkinci Aşama Komutlar .......................286Şekil 4.126. SPSS 20 Programında Zaman Serisi Gidiş Grafiğinin “graphs” Menüsü

Altından Çizdirilmesine İlişkin İkinci Aşama Komutlar .......................586Şekil 4.127. SPSS 20 Programında Zaman Serisi Gidiş Grafiğinin “graphs” Menüsü

Altından Çizdirilmesine İlişkin Uygun Saçılma Diyagramının Uygun Kutucuğa Aktarılması .................................................................................587

xxviiŞekiller Listesi

Şekil 4.128. SPSS 20 Programında Zaman Serisi Gidiş Grafiğinin “graphs” Menüsü Altından Çizdirilmesine İlişkin Değişkenlerin Saçılma Diyagramında Uygun Kutucuklara Aktarılması ...............................................................588

Şekil 4.129. Zaman Serisi Örnek Analize İlişkin Zaman Gidiş Grafiğinin “graphs” Menüsü Altından Elde Edilmesine İlişkin Komutlar Sonucu Elde Edilen Saçılma Diyagramı ..........................................................................588

Şekil 4.130. Zaman Serisi Örnek Analize İlişkin Zaman Gidiş Grafiğinin “graphs” Menüsü Altından Elde Edilmesine İlişkin Komutlar Sonucu Elde Edilen Saçılma Diyagramında Noktaların Çizgi ile Birleştirilmesi İçin Komut Verilmesi Gereken İmleç ...............................................................589

Şekil 4.131. Zaman Serisi Örnek Analizde “graphs” Menüsü Altında Yer Alan Komutlarla Elde Edilen Zaman Serisi Gidiş Grafiği ...............................589

Şekil 4.132. Zaman Serisi Gidiş Grafiğinde Seri Ortalaması Çizgisinin Çizdirilmesi ..................................................................................................590

Şekil 4.133. Zaman Serisi Gidiş Grafiğinde Seri Ortalaması Çizgisinin Çizdirilmesi İçin Son Komut .....................................................................591

Şekil 4.134. Zaman Serisi Gidiş Grafiğinde Seri Ortalama Çizgisini İçeren Zaman Serisi Gidiş Grafiği .........................................................................591

Şekil 4.135. Zaman Serisi Analizinde Spektral Analizi İçin İlk Aşama Komutlar ...593Şekil 4.136. Zaman Serisi Analizinde Spektral Analizi İçin İkinci Aşama

Komutlar .......................................................................................................593Şekil 4.137. Zaman Serisi Analizinde Spektral Analizi İçin Üçüncü Aşama

Komutlar .......................................................................................................594Şekil 4.138. Zaman Serisi Analizinde Spektral Analizi İçin Son Komutlar ..............595Şekil 4.139. Zaman Serisi Örnek Analiz Periodogram Grafiği ..................................595Şekil 4.140. Zaman Grafiği Örnek Analiz Spektral Yoğunluk Grafiği ......................596Şekil 4.141. Zaman Serisini Bileşnlerine Ayırmak İçin SPSS 20 Programında

“Mevsimsel Bileşenlere Ayırma” (seasonal decomposition) Alt Menüsüne Giriş ...........................................................................................597

Şekil 4.142. Zaman Serisini Bileşenlerine Ayırmak İçin SPSS 20 Programında “seasonal decomposition” Penceresinde İlk Aşama Komutlar ..............598

Şekil 4.143. Zaman Serisini Bileşenlerine Ayırmak İçin SPSS 20 Programında “seasonal decomposition” Penceresinde İkinci Aşama Komutlar .........598

Şekil 4.144. Zaman Serisini Bileşenlerine Ayırmak İçin SPSS 20 Programında “seasonal decomposition” Penceresinde İkinci Aşama Komutlar .........599

Şekil 4.145. Örnek Zaman Serisi Analizinde Zaman Serisini Sezonluk Bileşenlerine Ayırma İşlemi Sonucunda Elde Edilen Yeni Seriler ................................599

Şekil 4.146. Zaman Serisi Analizinde SPSS 20 Programında “ACF” ve “Partial ACF” Grafiklerinin Çizdirilmesi İçin İlk Aşama Komutlar ...................600

Şekil 4.147. Zaman Serisi Analizinde SPSS 20 Programında “ACF” ve “Partial ACF” Grafiklerinin Çizdirilmesi İçin İkinci Aşama Komutlar ........................601

xxviiiSosyal Bilimlerde Veri Madenciliği

Şekil 4.148. Zaman Serisi Analizinde SPSS 20 Programında “ACF” ve “Partial ACF” Grafiklerinin Çizdirilmesi İçin Üçüncü Aşama Komutlar .........601

Şekil 4.149. Zaman Serisi Analizinde SPSS 20 Programında “ACF” ve “Partial ACF” Grafiklerinin Çizdirilmesi İçin Son Aşama Komut .....................602

Şekil 4.150. Örnek Zaman Serisi Analizine İlişkin Otokorelasyon ACF Grafiği ve Üst ve Alt Güven Limitleri .........................................................................605

Şekil 4.151. Kısmî Otokorelasyon Diyagramı (PACF) ve Üst ve Alt Güven Limitleri ........................................................................................................607

Şekil 4.152. Zaman Serisi Analizinde Expert Modeller ile ARIMA Modeli ve Üssel Düzleştirme Modeli Kurulması İçin SPSS 20 Programında İlk Aşama Komutlar ..........................................................................................608

Şekil 4.153. Zaman Serisi Analizinde Expert Modeller ile ARIMA Modeli ve Üssel Düzleştirme Modeli Kurulması İçin SPSS 20 Programında İkinci Aşama Komutlar ..........................................................................................608

Şekil 4.154. Zaman Serisi Analizinde Expert Modeller ile ARIMA Modeli ve Üssel Düzleştirme Modeli Kurulması İçin SPSS 20 Programında Üçüncü Aşama Komutlar ..........................................................................................609

Şekil 4.155. Zaman Serisi Analizinde Uç Değerlerin Tespit Edilmesinde Uç Değerler (outliers) Menüsüne Giriş ..........................................................610

Şekil 4.156. “Outliers” Menüsü Altında Yer Alan Seçenekler ve Komutlar ..............610Şekil 4.157. Zaman Serisi Analizinde Expert Modeller ile ARIMA Modeli ve

Üssel Düzleştirme Modeli Kurulması İçin SPSS 20 Programında Dördüncü Aşama Komutlar .......................................................................611

Şekil 4.158. Zaman Serisi Analizinde Expert Modeller ile ARIMA Modeli ve Üssel Düzleştirme Modeli Kurulması İçin SPSS 20 Programında Beşinci Aşama Komutlar ............................................................................612

Şekil 4.159. Zaman Serisi Analizinde Expert Modeller ile ARIMA Modeli ve Üssel Düzleştirme Modeli Kurulması İçin SPSS 20 Programında Altıncı Aşama Komutlar .............................................................................612

Şekil 4.160. Örnek analizde Artıklara (Hatalara) İlişkin Otokorelasyon ve Kısmî Otokorelasyon Grafikleri ............................................................................615

Şekil 4.161. Gözlemler Üzerine Kurulan Zaman Serisi Modelinin Gidiş Grafiği ile Uyum Gidiş Grafiği ................................................................................616

Şekil 4.162. Veri Madenciliğinde Başvurulabilecek Diğer Yöntemler .......................617Şekil 5.1. Ticari Bilgi Toplama ve Raporlama Sürecinde Veri Madenciliği

Döngüsü ............................................................................................................621Şekil 5.2. Ticarî Örgütlerde Veri Madenciliği Döngüsü ..............................................622

1. Giriş

Bilgi çağı bilgiye ulaşmayı kolaylaştırmakla birlikte tüm bilim alanlarında üretilen bilginin büyük boyutlara ulaşmasına neden olmuştur. Büyük boyutlarda bilginin depolanmasının mümkün hale gelmesi, ihtiyaç duyulan bilgiye ulaşmayı oldukça güç hale getirmiştir. Özellikle internetin keşfi bilgiye ulaşmayı kolaylaştır-mış gibi görünse de, belirli amaçlar doğrultusunda işletmeler ya da kurumlar için ihtiyaç duyulan bilgiyi bilgi yığınları arasından ayıklayabilmek oldukça güç hale gelmiştir. Dijital ortamda yer alan veriler ham veriler niteliğindedir ve bu verilerin belirli örgütsel amaçlar için kullanılabilmesi için işlenmesi gerekmektedir. Ham verileri örgütsel amaçlar doğrultusunda ayıklama, işleme ve anlamlı hale getirme işlemine veri madenciliği adı verilmektedir (Özer, 2008, s. 3). Diğer bir ifadeyle veri madenciliği “mevcut veriden anlamlı bilgileri, ilişkileri çıkarmada kullanılan tekniklere verilen genel isimdir” (Dolgun, Özdemir ve Oğuz, 2009, s. 49). Çağımız-da bilgiye ulaşma teknolojik araçlarla oldukça kolay hale gelse de, bilgiyi amaçlar adına anlamlı kılmanın oldukça zorlu bir süreç olduğu ileri sürülebilir.

Teknolojik gelişmeler bilgi kaynaklarının da çeşitlenmesine neden olmuştur. Bu çeşitlilik neredeyse her alanda muazzam boyutlarda bilgi birikiminin oluşma-sını sağlamıştır. Bu bilgi artışı, bilgi yığınları arasından gerekli ve işlevsel bilgi-nin elde edilmesine dönük teknik araçlara ve otomasyon araçlarına olan ihtiyacı ortaya çıkarmıştır. Bu ihtiyaç bilgisayar teknolojilerinde veri madenciliği olarak adlandırılan bir uygulamanın ortaya çıkmasına neden olmuştur (Han, Kamber ve Pei, 2012, s. xxiii). Bu kapsamda veri madenciliği bilgi yığınları arasından örgütsel açıdan önem teşkil edebilecek bilgiye ulaşma yöntemleri olarak kabul edilebilir.

Depolanmış veriler arasından gerekli bilgiye ulaşma becerisinin örgütsel iş-leyiş ve amaçlar açısından örgütsel açıdan önemli bir çağdaş gereksinim olduğu ileri sürülebilir. Her alanda muazzam düzeyde bilginin varlığı, ihtiyaç duyulan bil-giye ulaşma konusunda yeni zorlukları beraberinde getirmektedir. Bu bağlamda veri madenciliğine dönük gerekli donanım ve beceriye sahip örgütlerin çağımızın rekabetçi ortamında bir avantaj elde edeceği iddia edilebilir (Weiss ve Davison, 2010, s. 1). Veri madenciliği alanında edinilen beceriler örgütsel verimliliği doğru-

1. BÖLÜM

VERİ MADENCİLİĞİ

dan etkileyebilecek unsurlar olarak kabul edilebilir. Günümüzde bankacılık, sigor-ta, sağlık ve perakende alanlarında birçok işletme giderlerini azaltmak, araştırma ve geliştirme çalışmalarını ve satışlarını arttırmak amacıyla veri madenciliğinden faydalanmaktadır (Seifert, 2004, s. 2).

Bu kitap önemli bir veri analiz süreci olarak veri madenciliği hakkında bilgiler içermektedir. Çağımızda önemli bir bilgi erişim yöntemi olarak işletmelere ihtiyaç duyabilecekleri bilgiye ulaşmalarında önemli bir araç olarak kullanılabileceği ve örgütlere rekabetin önemli olduğu çağımızda önemli bir avantaj kazandırabileceği iddia edilebilir. Bu bağlamda diğer alanlarda olduğu gibi örgüt açısından işlevsel verinin ortaya çıkartılması, yorumlanması ve belirli amaçlar doğrultusunda etkin biçimde kullanılması eğitim örgütleri de dâhil tüm örgütsel süreçlerde önem teşkil etmektedir. Günümüzde her alanda büyük çaplı araştırma sonuçları mevcuttur. Gerçekleştirilen araştırmaların sonuçlarının örgütsel işleyişe katkı sağlamak adına ortaya çıkartılıp anlamlı kılınması, sosyal bilimlerin farklı disiplinlerinde gerçek-leştirilen yeni araştırmalar kadar önem arz etmektedir. Veri madenciliği süreci bu anlamda sosyal bilimlerde hem kuramsal araştırmacılar hem de sahada uygula-yıcılar açısından önem teşkil etmektedir. Çalışmada veri madenciliği yöntemleri sosyal bilimler ve eğitim bilimleri alanları ile ilişkilendirilerek sunulmaya çalışıl-mıştır. Bu bağlamda uygulamaya dönük örnekler de çalışmada mevcuttur.

1.1. Veri Madenciliği

Veri madenciliği bir bilgi analiz yöntemidir ve amacı verilere dayanarak an-lamlı bilgileri ortaya çıkarmaktır. Pujari (2008, s. 45) veri madenciliğini şu şekilde tanımlamaktadır: “Veri madenciliği çok geniş bir veri ağı içinde daha önce bilin-meyen, faydalı olması muhtemel bilginin diğerlerinden ayıklanarak ortaya çıkar-tılmasıdır”. Bu süreçte bir araya getirme, özetleme, sınıflandırma, ilişkili bilgileri keşfetme, değişimleri analiz etme gibi çok çeşitli tekniklere başvurulabilir. Veri madenciliği yararlı bilgilerin keşfedilme sürecidir ve bu keşiflere modeller adı verilir. Bu nedenle veri analizi süreci model oluşturma süreci olarak da adlandı-rılmaktadır. Oluşturulan modeller iki amaç için kullanılır: (1) Çevremizde olup bitenleri daha iyi anlamak, (2) geleceğe dönük tahminlerde bulunmak (Williams, 2011, s. 3). Bu bağlamda veri madenciliği hem betimsel hem de kestirisel boyutta bir veri edinme yöntemi olarak kabul edilebilir.

Veri analizi olasılık ve istatistik gibi alanlarda oldukça fazla başvurulan bir yöntem olmasına rağmen, veri madenciliği veri analizi literatürüne bilgisayar mühendisleri tarafından kazandırılan bir kavram olmuştur. Veri madenciliğinde bilgilerin ölçeklenebilirliği ve yararlılığı oldukça önemli kavramlar olarak kabul

2 Sosyal Bilimlerde Veri Madenciliği

edilmektedir (Aggarwal, 2015, s. 22). Veri madenciliği geniş kapsamlı verilerden yararlı bilgilerin keşfedilmesi süreci olduğundan bazı kaynaklarda “bilgi keşfi” ola-rak da adlandırılmaktadır (Han ve Kamber, 1999, s. 5). Veri madenciliği örgütler-de veri yığınları arasından örgütsel amaçlara ulaşmada faydalı olabilecek bilgilerin ayıklanarak bir araya getirilmesi ya da sınıflandırılması olarak tanımlanabilir.

Veri madenciliği disiplinler arası bir çalışma alanıdır. Bu kapsamda veri ma-denciliği makine öğrenme, istatistik ve veri tabanları alanlarından faydalanılarak ortaya atılmış bir veri toplama yöntemidir (Holsheimer, Kersten, Mannila ve Toivo-nen, 1995, s. 150). “Bilgi çağında yaşıyoruz.” ifadesini asıl olarak “veri çağında yaşı-yoruz.” biçiminde ifade etmek gerekmektedir. Günümüzde büyük miktarlarda veri depolanabilmekte ya da dijital platformlarda çok hızlı biçimde aktarılabilmektedir. Bu veri yığını içinde örgüt için anlamlı bilgilere hızla ulaşmanın en etkili yöntemi olarak veri madenciliği ön plana çıkmaktadır (Han vd., 2012, s. 2). Örgütsel amaç-ları yerine getirmek adına verilerin ayıklanarak anlamlı bilgiler bütünü biçimine getirilmeleri veri madenciliğinin temelini teşkil etmektedir.

1.2. Veri Madenciliğinin Tarihsel Gelişimi

Han vd., (2012, ss. 3-4) veri madenciliğinin bilgi teknolojilerinin doğal evrimi sonucu ortaya çıktığını ifade etmişler ve bu gelişimin üç ana safhada gerçekleş-tiğini ileri sürmüşlerdir: (1) 1960’larda ortaya çıkan veri toplama ve veri tabanı oluşturma süreçleri, (2) 1970’ler ile 1980’lerin başlarında ortaya çıkan ve verile-rin depolanması, düzeltilmesi ve aktarılması uygulamalarını içeren veri yönetimi süreçleri ve (3) 1980’ler sonrası ortaya çıkan ve veri madenciliğini de içeren ileri veri analiz teknikleri. 1960’lardan günümüze gelen süreçte veri analizi basit dos-ya işleme süreçlerinden daha gelişmiş ve karmaşık işlemlerin yapıldığı süreçler haline gelmiştir. Bu kapsamda veri madenciliğinin tarihsel gelişimini bilgi tek-nolojilerindeki teknolojik gelişmelere bağlı olarak incelemek gerekmektedir. Veri madenciliği gelişen veri analiz tekniklerine bağlı olarak ortaya atılmış modern bir bilgi işleme alanıdır.

“Veri madenciliği” 1990’lı yıllarda ortaya atılan bir kavramdır. Buna karşın kavramın kökleri çok daha eskilere gitmektedir ve farklı disiplinlerin gelişmesi sonucu ortaya çıkmış bir kavramdır. Sharma ise (2014, ss. 1-2) veri madenciliği-nin tarihsel gelişimini üç ana safhada açıklamakta ve kavramın bu üç alanın bir araya gelmesi sonucu ortaya çıktığını ileri sürmektedir: (1) Klasik istatistik, (2) yapay zekâ ve (3) makine öğrenme. Standart sapma, standart dağılım ve regresyon analizi gibi istatistiksel araçlar veri madenciliği sürecinde başvurulan yöntem ve araçların temelini oluşturmaktadır. Yapay zekâ, istatistiksel yöntemlerin tersine

Veri Madenciliği 3

buluşsal yöntemlere odaklanır ve insan düşüncesine benzer süreçlerin istatistik-sel analizlere uygulanmasını ifade eder. Makine öğrenme ise istatistik ve yapay zekânın birleşiminden meydana gelir. Yapay zekânın buluşsal yöntemlerinin ileri istatistik yöntemlerle bir araya getirilmesi sonucu ortaya çıkmıştır. Makine öğ-renme bilgisayar programlarının üzerinde çalıştıkları verilerle ilgili öğrenmelerini hedeflemektedir. Diğer bir ifadeyle makine öğrenme, bilgisayar programlarının üzerinde çalıştıkları verilerin kalitesine ve içeriğine bağlı olarak farklı kararlar ve-rebilmelerini sağlamayı amaç edinen bir alandır (Sharma, 2014, s. 2). Bilgisayar-lara, verilerle ilgili olarak işlem yapmanın ötesinde yorumlama yapma becerisi de kazandırılmasının, bu alanın en önemli amacı olduğu ileri sürülebilir.

Veri madenciliği kavramı genel anlamda bilgisayar teknolojileri temelinde kuramsallaşan bir yapıya kavuşmuştur. İlk ortaya atıldığında bu kavram daha ge-niş kapsamlı bir alan olarak kabul edilen “veri tabanlarında bilgi keşfi (knowled-ge discovery in databases)” sürecinin bir alt alanı olarak kabul edilmiştir. Modern anlamda ise bilgi keşfi sadece veri tabanları vasıtasıyla gerçekleştirilmediği için bu kavram “veriden bilgi keşfi (knowledge discovery in data)” olarak yeniden ta-nımlanmıştır (Coenen, 2004, s. 1). Bu bağlamda veri madenciliği, veri yığınları arasından örgütler açısından anlamlı bilgiler bütünü oluşturma süreci olarak ka-bul edilebilir. Amaca ve uygulamaya dönük verilerin ortaya çıkartılması nedeniyle veri yığınlarına işlevsel bir yapı kazandırma süreci olarak da kabul edilebilir.

Aldana (2000, ss. 15-16) ise veri madenciliği kavramının gelişiminin üç farklı evrede gerçekleştiğini ileri sürmektedir. Kavram 1980’lerde ortaya çıktığı ilk aşa-mada araştırmacıların başvurduğu araçlar odağında tanımlanmıştır. Bu aşamada araştırmalar tek bir göreve odaklı gerçekleştirilmiştir. Bu görevler tek boyutlu ana-liz araçları ile yerine getirilebildiğinden, verilerin farklı boyutlarında yer alan bil-gilere ulaşma ihtiyacı hissedilmemiştir. Bilgi keşfi sürecinin 1995’lere gelindiğinde sınıflandırma ve kümeleme gibi çoklu analiz türleri ile yerine getirilmesi veri ma-denciliği sürecini yeni bir boyuta taşımıştır. Üçüncü nesil veri madenciliğinde ise temel amaç örgütsel süreçler ve ürünlerle ilgili geleceğe dönük tahmin yürütmek ve örgütsel verimliliği en üst düzeye çıkarmak olarak kabul edilmiştir (Aldana, 2000, s. 16). Bu süreçte veri madenciliği veri yığınları içinde örgüt için faydalı olan ancak ortaya çıkartılmamış gizli bilgilere ulaşma süreci olarak kabul edilmiştir.

Veri madenciliği kavramının bilgisayar sistemlerinin ortaya çıkışı ve yüksek miktarlarda verinin depolanabilmesi ile başladığı ileri sürülebilir. Verilerin büyük miktarlarda depolanabilmesi veri madenciliğine olan ihtiyacı hızlandırmıştır. Bu süreçte şirketlerin kendi veri depoları da büyük boyutlara ulaşmıştır. McKinsel Küresel Enstitüsü tarafından gerçekleştirilen bir araştırmada ortalama 1.000 ça-lışanı olan Amerikan şirketlerinin kendilerine özgü 200 terabaytlık veri depoları-

4 Sosyal Bilimlerde Veri Madenciliği