ömer gökdaş_veri madenciligi

Embed Size (px)

Citation preview

  • 7/30/2019 mer gkda_veri madenciligi

    1/17

    STANBUL TEKNK NVERSTES - FEN BLMLER ENSTTS

    GEOMATK MHENDSL ANABLM DALI

    GEOMATK MHENDSL PROGRAMI

    Bilgi Teknolojileri ve CBS

    Prof. Dr. Cengizhan PBKER

    VER MADENCL

    MER GKDA501111633

    STANBULKasm, 2012

  • 7/30/2019 mer gkda_veri madenciligi

    2/17

    ERK

    1. Giri ..3

    1.1Veri Madencilii Nedir? .................................................................................41.2 Veri Madencilii Ne Deildir ? .6

    1.3 Neden Veri Madencilii ? .................6

    1.4 Veri Madencilii Srecinin Ortaya k .7

    2. Kullanlacak Veri Nasl Olmal? .9

    3 Veriden Bilgi Kefi .10

    3.1 Veri n leme .10

    3.1.1 Neden Veri n leme? 11

    3.2 Snflandrma .. 12

    3.3 Kmeleme ... 12

    3.4 likilendirme .. 13

    3.5 Tahmin Raporu ... 13

    4. Veri Taban ve Veri Madencilii .. 14

    5. Uygulama Alanlar ... 15

    6. Kaynaklar ..... 17

  • 7/30/2019 mer gkda_veri madenciligi

    3/17

    3

    1. GR

    Veri miktarnda meydana gelen olaan st art, bu verilerden nasl yararlanlabilecei

    konusunu n plana karmtr. Veri deerlendirmenin klasik yntemleri veya geleneksel

    biliim teknikleri ile bu kadar ok veriden anlaml bilgilerin elde edilmesinin pek mmkn

    olamayaca anlalmtr. Biliim teknolojilerinin geliimi ve tahmin edilemeyecek oranda

    biriken ve derlenen bilgi dann olumasnn sonucu olarak, her alanda strateji gelitirme

    konusunda kurumlar ve bireyleri desteklemek amacyla Veri Madencilii adl bir teknik son

    yllardayaygn olarak uygulanmaya balanmtr. Veri Madencilii Teknikleri, verinin yn

    halde bulunduu, akla gelebilecek btn alanlarda gizli bilgilerin aa karlabilmesi ve

    gelecekteki eilim ve davran ekillerinin tahmin edilebilmesinde kullan labilmektedir. Veri

    Madencilii byk miktardaki veri yn ierisinden gelecekle ilgili tahmin yapmamz

    salayacak, bant ve kurallarn bilgisayar programlar kullanlarak aranmasdr. Maliyetli ve

    zahmetli bir sre olan veri toplama yatrmlarndan en yksek fayday salamak veri

    madencilii ile mmkndr. Veri Madencilii, insan davranlarnn nceden tahmin

    edilebilmesini salar. rnein nceden biliniyor olsayd; hastanelere yaplan tedavi

    taleplerinin blgelere, zamana ve ihtiyaca gre deerlendirilmesi, salgn hastalk riskinin ilk

    aamada tespiti ve kaynak planlama asndan faydal olmaz myd? Kaak enerji

    kullananlarn profillerini tespit eden bir model, olas kaak enerji kullanclarn tahmin

    etmenizi salasa idi, dk maliyet ile kaaklarla etkin mcadele edilmez miydi? Web sitenizi

    ziyaret eden kiiler, ilk birka klikten sonra ihtiyalar dorultusunda ynlendirilseler,

    kiilerin ihtiyalar dorultusunda ierik ynetimi yapabilseniz, e-devlet hedefleri doru

    ynetilmez miydi?

    Btn bu sorularn cevab elbette Evettir. Ancak bu, veriye uygulanacak doru veri

    madencilii modelleri sayesinde olabilecektir. Veri madencilii ile byk veri ynlarndanoluan veritaban sistemleri ierisinde gizli kalm bilgilerin ekilmesi salanr. Bu ilem,

    istatistik, matematik disiplinleri, modelleme teknikleri, veritaban teknolojisi ve eitli

    bilgisayar programlar kullanlarak yaplr.

  • 7/30/2019 mer gkda_veri madenciligi

    4/17

    4

    1.1 Veri Madencilii Nedir ?

    Veri madencilii, byk hacimli veriynlar ierisinden karar alabilmek iin potansiyel

    olarak faydal olabilecek, uygulanabilir ve anlaml bilgilerin karlmasna verilen addr. Veri

    madencilii geni anlamda veri analiz teknikleri btndr ve tek bana bir zm deildir.

    Mevcut problemleri zmek, kritik kararlar almak veya gelecee ynelik tahminleri

    yapmak iin gerekli olan bilgileri elde etmeye yarayan bir aratr. Ortaya karlmas

    hedeflenen bilgiler; st kapal, ok net olmayan, nceden bilinmeyen, daha nce

    kefedilmemi ancak potansiyel olarak kullanl anlaml ve kritik bilgilerdir.

  • 7/30/2019 mer gkda_veri madenciligi

    5/17

    5

    CNNinyayn aknn her dakikasnnald ratingden, IMDB web sayfasnnka ziyareti

    aldna, stanbula eyllaylarnda den yamur miktarndan,en ok satlan st markasna,

    sedan otomobil satn alanlarn yalarna, pandalarn dourganlk oranndan, Evereste

    trmanan dac saysna kadar evremizde yaananlarn ok nemli bir ksm srekli olarak

    kaydedilmektedir. Saylardan oluan tm bu kaytlar ancak doru ekilde bakldnda bir

    anlam ifade etmektedirler. Bu nedenle veri madencilii en geni anlam ile yaadmz ve

    kaydettiimiz olaylaraanlam katmaktr.

    Veri madencilii hayatmzn iindeki bir kavramdr aslnda. Elinizde patates, biber, soan,

    fasulye, patlcan, ya, su, sala vb. sebzeler var fakat bunlardan trl yemeiniyapamyorsanz bu rnlerin hibir anlam yoktur. Zamanla dolabnzda rmeye doru

    gider. te veri madencilii de byledir. Sizin devasa bir veri ambarnz veya verileri

    topladnz bir alan vardr. Eer siz bu verileri doru ekilde kullanp bunlardan yaplacak bir

    rn kartamyorsanz, veri ambarnz aslnda okta ie yaramyordur .

  • 7/30/2019 mer gkda_veri madenciligi

    6/17

    6

    1.2 Veri Madencilii Ne Deildir ? Bir restoran zincirinde; hangi ubelerin ne kadar ciro yapt, hangi rnlerin hangi

    noktalarda daha fazla satld, hangi saatlerde younluk yaand, gibi analizler veya

    Bir sat irketinde; hangi mterilerin devamllk gsterdikleri, hangi blgelerde performans

    dkl yaadklarn belirlemek veri madencilii deildir.

    Gelir ile ya ilikisinin incelendii bir deiken, bir sonu ve az sayda veriden oluan bir

    modeli tanmlayarak, yaa gre gelir tahmini yapmak da veri madencilii deildir. Yz

    deikenin olduu, deikenler arasnda sadece rakamsal deerlerin deil, sral (yksek-orta-

    dk) veya srasz (evli-bekar-dul) kategorilerin olduu, milyon tane verinin olduu ancak

    doru algoritmalar ve gl bir bilgisayar ile sonuca ulamann mmkn olduu modelleri

    kurmak veri madenciliidir.

    1.3 Neden Veri Madencilii ?

    - Bilgisayarlarn ucuzlayp ayn zamanda ok gl hale gelmeleri- Teknolojinin geliimiyle bilgisayar ortamnda ve veritabanlarnda tutulan veri

    miktarnn da artmas (terabyte to petabyte)

    - Yeni veri toplama yollar(Otomatik veri toplama aletleri, veritaban sistemleri, bilgisayarkullanmnn artmas)

    - Byk veri kaynaklar( dnyas: Web, e-ticaret, alveri, hisse senetleri, Bilim dnyas: Uzaktan alglama

    ve izleme, bioinformatik, simlasyonlar, Toplum: haberler, dijital kameralar, YouTube,Facebook)

    - Ticari rekabet basksnn artmas(Kiiselletirilmi rnler, CSR ynetimi)

    Veri iinde bouluyoruz, ancak bilgi elde edemiyoruz!

  • 7/30/2019 mer gkda_veri madenciligi

    7/17

    7

    1.4 Veri Madencilii Srecinin Ortaya k

    Veri madencilii teknikleri uzun bir aratrma ve rn gelitirme srecinin sonucunda ortaya

    kmtr. Bu geliim iletme verilerinin ilk olarak bilgisayarlara depolanmasyla balam,

    veri girilerinin geliimiyle devam etmitir ve veri madencilii gnmzde de kullanclara

    verilerini ynetme olana salayan bir sre haline gelmitir.

  • 7/30/2019 mer gkda_veri madenciligi

    8/17

    8

    1.4 Veri Madencilii Srecinin Ortaya k

  • 7/30/2019 mer gkda_veri madenciligi

    9/17

    9

    2. Kullanlacak Veri Nasl Olmal ?

    1-htiyaca gre tasarlanm olmas gerekmektedir. Siz eer gelecek sene ne kadar araba

    satacanz grmek istiyorsanz , veri ambarnzdaki verilerin araba ve sat istatistikleri

    hakknda bilgi toplayacak trden veriler olmas gerekmektedir. Gereksiz veri aslnda sizin iin

    bir yktr.

    2-Temiz ve kaliteli veri olmaldr. Dnnki araba satnz iin cinsiyete gre kampanya

    dzenleyeceksiniz. Ve gelecei tahminlemek iin analiz yapyorsunuz. Burada sat

    sisteminizdeki raporlarda E/K olarak var olan bir veri, mteri sisteminizde Erkek/Kadn

    olarak geiyor. Buradaki verilerin btnlk ierisinde olduundan sz edilemez. Ayrca

    kullanclardan kaynaklanan E/K olarak girilecek alana baka veriler veya veri tipleri gelmesi

    halinde bu verilerin de temizlenmesi gerekmektedir.

    3-Tarihsel derinlii olmaldr. Veri ambar zaten bu yapda kurulur. Ama nemli bir olay

    olduu iin belirtmekte fayda var.Eer siz gelecek 3 seneyi tahmin etmek istiyorsanz gemi

    1 yla bakarak bunu tahmin edemezsiniz. rnein nmzdeki sene barajlarn doluluk

    oranlar ne olacak diye sorduumuzda bu sorumuza gemi 10 seneye bakarak ok daha net

    cevap verebiliriz.Nitekim gemi 10 senede belirleyeceiniz zaman dilimleri veya aylarda ne

    kadar ya-kuraklk-scaklk-nem olmu istatistiklerini grmeniz gerekecektir.

  • 7/30/2019 mer gkda_veri madenciligi

    10/17

    10

    3. Veriden Bilgi Kefi

    3.1 Veri nileme

    Gerek hayatta karlatmz veriler genelde eksik(missing orincomplete), hatal (noisy), vetutarsz(inconsistent) olma eilimindedir.-Dk kaliteli veri

    Veri kalitesini dren sorunlar:Noise / GrltOutliers / Sapan veriMissing values / Eksik veriDuplicate data / Tekrarl veriVeri iletim hatalarTeknolojik snrlamalar

    Veri isimlendirmede veya yapsnda uyumsuzluk

  • 7/30/2019 mer gkda_veri madenciligi

    11/17

    11

    3.1.1 Neden Veri nileme ?

    Dk kaliteli veri dk kaliteli veri madenciliisonularna yol aar

    Neden Veri nileme ?

    Veri madencilii kalitesini artrmak.

    Veri madenciliini kolaylatrmak.

    Verimlilii artrmak hedeflenir.

  • 7/30/2019 mer gkda_veri madenciligi

    12/17

    12

    3.2 Snflandrma

    Temel olarak yapt ey yeni bir nesnenin niteliklerini inceleme ve bu nesneyi nceden

    tanmlanm bir snfa atamaktr. Burada nemli olan bir snfn zelliklerinin nceden net bir

    ekilde belirtilmi olmas gerektiidir.

    Gen kadnlar kk araba satn alr, yal, zengin erkekler byk, lks araba satn alr.

    Snflama tekniine rnek olarak verebiliriz.

    3.3 Kmeleme

    Bellibir yap iindeki geen terimlere, verilere, zelliklere gre gruplaroluur. Bu gruplar da

    en ok geen verilerden yararlanlarak bir benzerlik lt gelitirilir ve buna gre

    demetleme yaplr. rneingen, orta ve yal erkeklerin aldkontr miktar ayr ayr

    kmeoluturmaktadr.

  • 7/30/2019 mer gkda_veri madenciligi

    13/17

    13

    3.4 likilendirme

    Bir nesnenin varl ile dierbir nesnenin varl arasnda tahmin yrtlerekiliki kurulur.

    rnein bir markette, ocuk bezi alan birisinin hemen hemen her zaman st ald tespitedildikten sonra market sahibi ocuk bezi ve st raflarnn arasndaki mesafeyi ksaltabilir.

    Bylece mteriye unutulan bir eyin hatrlatlmas dolaysyla kazan salanm olur. Bunun

    rneklerini gnlk hayatmzda bir hayli gryoruz.

    3.5 Tahmin Raporu

    Bizlere tahminler sunan veri ambar tekniidir. rnein 5 sene sonra barajlardaki doluluk

    oranlar ne olacak? Genler en ok hangi meslekleri seecek? X irketinin 2013 kar marj ne

    olacak? Bu tip sorulara cevap bulan bir yapdr. Buradaki en byk yardmcmz zaman ve

    datann gemi yllarda zamann iindeki dalmdr.

  • 7/30/2019 mer gkda_veri madenciligi

    14/17

    14

    4. Veri Taban ve Veri Madencilii

    Veritaban uygulamas:

    Ad Ahmet olan kredi kart sahiplerini bul.

    Bir ayda 2000 TLden fazla harcama yapankredi kart sahiplerini bul.

    DVD satn alan tm mterileri bul.

    Veri madencilii uygulamas:

    Riski az olan tm kredi kart bavurularn bul (snflandrma)

    Harcama alkanl benzer olan kredi kart sahiplerini bul(kmeleme)

    DVD ile birlikte ska satn alnan rn bul (ilikilendirme)

  • 7/30/2019 mer gkda_veri madenciligi

    15/17

    15

    5. Uygulama Alanlar

    Veri madenciliinin uygulama alanlarnbilimsel ve i dnyas olarak ikiye ayrmak

    mmkndr. Bilimsel almalarda veri madencilii kullanmnn ardnda yatan sebepler;

    gelimi veri toplama yntemleri (uydu ve uzaktan alglama sistemleri, teleskop taramalar,

    gen zmlemeleri) ile ilenmek zere ham olarak ok byk boyutlarda veri toplanmas,

    geleneksel tekniklerin ham verileri ilemede yetersiz kalmas ve hipotezler oluturma,

    snflandrma, karar alma gibi bilimsel alma admlarnda bilim insanlarnadestek olmasdr.

    dnyasnda veri madencilii uygulamalarnn kullanlmasnn temel nedeni; mteriyi

    tanyarak (mteri gibi dnerek) mteri memnuniyeti salamak ve bu ekilde rekabet

    ortamnda hzl ve doru kararlar alabilmektir.

  • 7/30/2019 mer gkda_veri madenciligi

    16/17

    16

    Veri Madenciliinin baz uygulama alanlar u ekilde zetlenebilir:

    Salk verileri: Veri madencilii salk alannda da sklkla uygulanmaktadr.Veri madenciliinin salk alannda kullanlmasna; yaplan testlerinden elde edilen

    sonular kullanarak eitli kanserlerin n tansnn konulmas, kalp krizi riskinin tespitirnek olarak verilebilir.

    verileri: sreleri boyunca ok sayda veri retilir. Bu veriler ynetimin herkademesinde karar verme aamasnda kullanlabilir. Personele ait verilerin analizisonucunda alanlarn performanslarna etki eden faktrler belirlenebilir ve yeni

    personel almnda yeni kurallar oluturulabilir. Mteri veri tabanlarnn analizi ilereklam ve promosyon ile ilgili pek ok faydal bilgiye de ulalabilir.

    Perakendecilikmarketilik verileri:Bu alanda en ok kullanlan yntem sepetanalizi yaklamdr. Sepet analizi yaklamnda ama mterilerin satn aldklar rnler

    arasnda ilikiler kurmak ve bu ilikilerden yola karak iletmenin satnmiktarn vekarn artrmaktr.

    Bankaclk, finans ve borsa verileri: Bankaclk sektrnde kredi riskitahminlerinde, likidite riskinin deerlendirilmesinde, mteri eilim analizlerinde, karanalizi gibi alanlarda veri madencilii kullanlmaktadr. Finans ve borsa kurulular isestok fiyat tahminlerinde, portfy ynetimi gibi alanlarda veri madencilii yntemlerinikullanabilirler.

    Eitim sektr verileri: renci veri tabanlarndan elde edilebilecek verileranaliz edilerek rencilerin baar ve baarszlk nedenleri, rencilerin baarlarnnarttrlmas iin neler yaplabilecei, niversiteye giripuanlar ile okul baarsarasndaki ilikiler analiz edilerek, eitim kalitesi artrlabilir.

    Internet (Web) verileri: Web ortamndaki verilerin says da srekli ve hzl birekilde artmaktadr. Web veri madencilii, internetten faydal bilgilerin bulunmasolarak tanmlanabilir. Web veri madencilii birok web sunucusu veya online servistenkullanc taleplerinin analizi iin kullanlr. rnein, internet zerinden kitap satanAmazon irketi BookMatcher adl programyla mterilerin satn alma alkanlklarnanaliz ederek yeni kitap alan mterilerine tavsiyede bulunmaktadr.

  • 7/30/2019 mer gkda_veri madenciligi

    17/17

    17

    6. Kaynaklar

    Veriden Bilgiye Masraftan Deere,Kasm 2008(Dr. Ylmaz ARGDEN, Burak ERAHN)

    Veri Madencilii Sreci Kullanlarak Portfy Performansnn Deerlendirilmesi ve

    MKB Hisse Senetleri Piyasasnda Bir Uygulama, 2009 (Engin KKSLLE)

    Veri Madenciliive imento Sektrnde Bir Uygulama (Adil BAYKASOLU)

    Veri Madencilii Uygulama Alanlar, 2006 (Abdullah BAYKAL)

    www.datawarehouse.gen.tr (Makale; Veri Madencilii Nedir)