22
Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi Y.2009, C.14, S.1 s.31-52. Suleyman Demirel University The Journal of Faculty of Economics and Administrative Sciences Y.2009, Vol.14, No.1 pp.31-52. VERİ MADENCİLİĞİ: KARAR AĞACI ALGORİTMALARI VE İMKB VERİLERİ ÜZERİNE BİR UYGULAMA * DATA MINING: DECISION TREE ALGORITHMS AND AN APPLICATION ON ISE DATA Yrd.Doç.Dr.Ali Sait ALBAYRAK ** Öğr.Gör.Şebnem KOLTAN YILMAZ *** ÖZET Veri madenciliği, verilerden önceden bilinmeyen anlamlı bilgileri tanımlama ya da tahmin etme tekniklerini içermektedir. Çalışmada, İMKB 100 endeksinde sanayi ve hizmet sektörlerinde faaliyet gösteren 173 işletme- nin 2004–2006 yıllarına ait yıllık finansal göstergelerinden yararlanarak veri madenciliği tekniklerinden birisi olan karar ağaçları tekniği uygulanmıştır. Seçilen finansal göstergelere göre sanayi ve hizmet sektörlerinde faaliyet gösteren firmaları ayıran en önemli değişkenler saptanmıştır. ABSTRACT Data mining include descriptive and predictive techniques for meaningful knowledge which is unknown early from data. In this study, decision trees technique which is one of the data mining techniques is applied on 173 firms that operate in industry and service sectors in ISE 100 Index using their annual financial indicators from 2004 to 2006. According to selected financial indicators, the most important factors of firms that operate in industry and service sectors are determined. Veri Madenciliği, CHAID Analizi, İMKB–100 Data Mining, CHID Analysis, ISE–100 GİRİŞ Ham veri kendi başına değersizdir. Veri, bilgisayar sistemleriyle be- lirli bir amaca yönelik işlenerek bilgiye dönüşmektedir. Organizasyonlarda bu amaca yönelik kurulan bilgi sistemleri, satışlar, faturalar, ödemeler gibi işlemlerin takip edilmesini sağlarken, karar almaya yönelik ihtiyaçlara da girdi oluşturmaktadır. Ancak bilginin olağanüstü artışıyla birlikte kurum içi ve dışı bilgilerin yanı sıra önceden tahmin edilemeyen sorulara yönelik cevap * Bu çalışma, ZKÜ, SBE, İşletme Anabilim Dalında Tamamlanan “Veri Madenciliği: İstanbul Menkul Kıymetler Borsası Örneği,” adlı Yüksek Lisans Tezinden Üretilmiştir. ** Zonguldak Karaelmas Üniversitesi, İİBF, İşletme Bölümü Öğretim Üyesi. *** İnönü Üniversitesi, Akçadağ MYO, Bilgisayar Tek. ve Prog. Bölümü Öğretim Görevlisi.

5000122495-5000187184-1-PB

  • Upload
    noipana

  • View
    213

  • Download
    1

Embed Size (px)

DESCRIPTION

54765475

Citation preview

Sleyman Demirel niversitesiktisadi ve dari BilimlerFakltesi DergisiY.2009, C.14, S.1 s.31-52. Suleyman Demirel University The Journal of Faculty of Economics and Administrative Sciences Y.2009, Vol.14, No.1 pp.31-52. VER MADENCL: KARAR AACIALGORTMALARI VE MKB VERLERZERNE BR UYGULAMA* DATA MINING: DECISION TREE ALGORITHMSAND AN APPLICATION ON ISE DATA Yrd.Do.Dr.Ali Sait ALBAYRAK** r.Gr.ebnem KOLTAN YILMAZ*** ZET Verimadencilii,verilerdenncedenbilinmeyenanlamlbilgileri tanmlamayadatahminetmeteknikleriniiermektedir.almada,MKB 100 endeksinde sanayi ve hizmet sektrlerinde faaliyet gsteren 173 iletme-nin 20042006 yllarna ait yllk finansal gstergelerinden yararlanarak veri madenciliitekniklerindenbirisiolankararaalartekniiuygulanmtr. Seilenfinansalgstergeleregresanayivehizmetsektrlerindefaaliyet gsteren firmalar ayran en nemli deikenler saptanmtr. ABSTRACT Dataminingincludedescriptiveandpredictivetechniquesfor meaningfulknowledgewhichisunknownearlyfromdata.Inthisstudy, decision trees technique which is one of the data mining techniques is applied on173firmsthatoperateinindustryandservicesectorsinISE100Index usingtheirannualfinancialindicatorsfrom2004to2006.Accordingto selected financial indicators, the most important factors of firms that operate in industry and service sectors are determined.Veri Madencilii, CHAID Analizi, MKB100 Data Mining, CHID Analysis, ISE100 GR Ham veri kendi bana deersizdir. Veri, bilgisayar sistemleriyle be-lirlibiramacaynelikilenerekbilgiyednmektedir.Organizasyonlarda buamacaynelikkurulanbilgisistemleri,satlar,faturalar,demelergibi ilemlerintakipedilmesinisalarken,kararalmayaynelikihtiyalarada girdioluturmaktadr.Ancakbilgininolaanstartylabirliktekurumii ve d bilgilerin yan sra nceden tahmin edilemeyen sorulara ynelik cevap * Bu alma, ZK, SBE, letme Anabilim Dalnda Tamamlanan Veri Madencilii: stanbul Menkul Kymetler Borsas rnei, adl Yksek Lisans Tezinden retilmitir.** Zonguldak Karaelmas niversitesi, BF, letme Blm retim yesi. ***nn niversitesi, Akada MYO, Bilgisayar Tek. ve Prog. Blm retim Grevlisi. ALBAYRAK YILMAZ 32 2009 bulan,ileriyednktahminsistemlerineihtiyaduyulmutur.Bubalamda veri madencilii (VM) teknikleri dier birok alanda olduu gibi iletmecilik alanndadayaygnbirekildekullanlmaktadr.VM,bilgiteknolojilerinin doalgeliimsrecininsonucuolarakdadeerlendirilebilir.okbyk lekliveriler,farklalanlardakibyklekliveritabanlariindedeerli verileribulunduranbirverimadenigibi dnlebilir. VMisebuverilerden nceden bilinmeyen anlaml bilgileri retme sreciolaraktanmlanmaktadr. VM,busrecibilgisayar,makinerenmesini(machinelearning),verita-banveyaveriambarynetimini,matematikselalgoritmalarveistatistik teknikleri kullanarak gerekletirmektedir.VMilekefedilenbilgi,evrimii(online)veritakibi,iynetimi, rn kontrol sistemleri, pazarlama, tp, finans, kimya, corafi bilgi sistemleri (CBS), mhendislik, grnt tanma ve robot gr sistemleri, uzay bilimleri, sosyalbilimler,davranbilimleri,meteorolojigibialanlardayaygnbire-kilde kullanlmaya balanmtr. VMyerineveritabanlarndanbilgikefikavram(VTBK)dakul-lanlmaktadr.VTBKifadesiilkdefaPiatetsky-Shapiro 1tarafndan1989 ylndagerekletirilenilkVTBKalmagrubutoplantsndakullanlm, konuylailgilikavramvetanmlarortayakonulmutur.VMterimide VTBKninbirbileeniolaraktanmlanmtr.DahasonraVMyntemleri gelitirmeyeynelik almalar devam etmi, Agrawalvd. 2, nicel birliktelik kurallarnn madencilii iin hzl bir algoritma olan Aprioriyi nermilerdir. VTBKnintemelsrelerizerindehiyerariaraynnsonucunda,Fayyad vd. 3,veritabanlarndabilgikefininsrelerineveVMninbusreteki yerineynelikbiraksunmulardr.Ayrca,VMnintemelzelliklerini irdelemilerdir.VMninuygulamayaygnlkazanmasylabirlikteuygu-lamayaynelikalmalararlkkazanmayabalamveBersonvd. 4, VMnin en yaygn kullanm alan olan mteri ilikileri ynetimi kapsamnda VMyntemleriveuygulamalarnayervermilerdir.Ayrca,yeninesil yntemlerdenolankararaacyntemlerininbalcalarndanCRT(Classifi-cationandRegressionTree)veCHAID(Chi-squaredAutomaticInteraction Detection) yntemlerini incelemilerdir. VM biliim ve istatistik olmak zere iki bak altnda incelenmektedir. Ziarko 5, Elder ve Pregipon 6, VMyi, ista-tistikalanndakibirokyntemikullanmasnakarn,nesnelerinnitelikde-erlerinebalkarmyapmadabilinenistatistikmetotlardanayrmaktadr. 1GregoryPATETSKY-SHAPRO,KnowledgeDiscoveryinRealDatabases:AWorkshop Report, AI Magazine, C. 11, S. 5, 1991, s. 68-70. 2R. AGRAWAL,H.MANNLA, R. SRKANT,H. TOVONEN, ve A.I.VERKAMO,Fast DiscoveryofAssociationRules,AdvancesinKnowledgeDiscoveryandDataMining, AAAI/MIT Press, Chapter 12, 1995, s. 307-328. 3UsamaFAYYAD,Gregory,PIATETSKY-SHAPIROvePadhraicSMYTH,FromData Mining to Knowledge Discovery in Databases, AI Magazine, C. 17, S. 3, 1996, s. 37-54. 4A. BERSON, S. SMTH, ve K. THEARLNG, Building Data Mining Applications for CRM, McGraw Hill, USA, 1999. 5W.ZARKO,TheDiscovery,Analysis,andRepresentationofDataDependenciesinData-bases, Knowledge Discovery in Databases, AAAI/MIT Press, 1991,s.195-212. 6J. F. ELDER, ve D. PREGPON, A Statistical Perspective on KDD, The 1st International Conference on Knowledge Discovery and Data Mining, 20-21 Austos, Montreal, 1995, s. 87-93. Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 33 C.14, S.1 Hastievd. 7,VMyeistatistikperspektiftenyaklamveVMileistatistik arasndakiilikiyistatistikrenmekavramilekurmulardr.Mossve Atre 8,VMileistatistikanalizyntemlerinikarlatrmvearalarndaki farkllklar ortaya koymulardr. VMde kullanlan modeller, tahmin edici (predictive) ve tanmlayc (descriptive) olmak zere iki ana balk altnda incelenmektedir. VM model-lerini grdkleri ilevlere gre snflama (classification) ve regresyon (regres-sion)modelleri,kmeleme(clustering)modellerivebirliktelikkurallar(as-sociationrules)veardkzamanlrntler(sequentialpatterns)olmakz-ereanabalkaltndaincelemekdemmkndr.Snflamaveregresyon modelleritahminedici,kmeleme,birliktelikkurallarveardkzamanl rnt modelleri tanmlayc modellerdir.Bualmada,VMmodellerindenbiriolansnflamamodelinin kararaactekniikullanlmtr.Snflamamodeli,snftanmlanm mevcutverilerdenyararlanarak,snfbelliolmayanverilerinsnfntahmin etmek iin kullanlan VM modelidir. Karar aac, ok sayda kayt ieren bir veri kmesini, bir dizi karar kurallar uygulayarak daha kk kmelere bl-mek iin kullanlan bir yapdr.VMdekararaacoluturmakiineitlialgoritmalargel-itirilmitir.BualgoritmalardanbiriolanCHAIDalgoritmas1980ylnda Kaastarafndaneniyiblmeyihesaplamakiinistatistikolarakanlamlbir farklln olmad, hedef deikene uyan iftlerde tahmin deikeninin olas kategoriiftinibirletirmesiyleoluturulmutur.9HaughtonveOulabi 10, almasndabirdorudanpazarlamamodeliniCHAIDalgoritmasile gerekletirmi,CRTveCHAIDalgoritmalarnnsonularnkarlatrm-tr.Akpnar 11,uygulamasndakiileringeridemelerinidzenliveya dzensizyapmalarnabalolarak,kredideerlendirmesiniiyivektek-linde snflandrmak zere CHAID algoritmasn kullanmtr. Grobler vd. 12, okuletkinliiveeitlibamszdeikenlerarasndakiilikiyitahminet-medeCHAIDyntemindenyararlanmtr.Doanvezdamar13,CHAID analiziyardmylaailelerinocukisteineetkiedenfaktrlereulamada bamszdeikenlerin birlemikategorilerinive altgruplarn tahmineden biralmayapmtr.VanDiepenveFranses 14,CHAIDalgoritmasndan 7T. HASTE, R. TBSHRAN, ve J. FREDMAN, The Elements of Statistical Learning; Data Mining, Inference and Prediction, Springer Series in Statistics, USA, 2001. 8 L.T.MOSS,veS.ATRE,BusinessIntelligenceRoadmap:TheCompleteProjectLifecycle for Decision-Support Applications, Addison-Wesley Publishing, USA, 2003. 9SPSS, AnwerTree Algorithm Summary, SPSS White Paper, USA, 1999, s.2. 10 Dominique HAUGHTON, ve Samer OULABI, Direct marketing modeling with CART and CHAID, Journal of Direct Marketing, C. 11, S. 4, 1999 s. 42-52. 11 Haldun AKPINAR, Veri Tabanlarnda Bilgi Kefi ve Veri Madencilii, stanbul niver-sitesi letme Fakltesi Dergisi, C. 29, S. 1, 2000, s.1-22. 12 B. R. GROBLER, T.C. BISSCHOFF ve K.C. MOLOI, The Chaid-Technique and the Rela-tionshipbetweenSchoolEffectivenessandVariousIndependentVariables,International Studies in Educational Administration, C. 30, S. 3, 2002, s. 44-56. 13 NurhanDOANveKazmZDAMAR,ChaidAnaliziveAilePlanlamasilelgiliBir Uygulama, Trkiye Klinikleri Tp Bilimleri Dergisi, C. 23, S. 5, 2003, s. 392-397. 14 Merel VAN DIEPEN ve Philip Hans FRANSES, Evaluating Chi-Squared Automatic Inter-ALBAYRAK YILMAZ 34 2009 tahminedilensonularngvensnrlarnhesaplamakiinnerdii yntemle, benzetim tekniiyle elde edilmi verilerkullanmtr.Lauravd. 15, market yelik kartlarnn snflamasn CHAID yntemi kullanarak yapmtr. Koyuncugilvezglba 16,CHAIDalgoritmasnkullanarakstanbul MenkulKymetlerBorsas(MKB)ndailemgrenKkveOrtalekli letmelerin(KOBlerin)finansalprofilleriileglvezayfynlerinin belirlenmesiniamalamtr.McCartyvd. 17,ikifarklverisetikullanarak dorudanpazarlamablmlemesiiinRFM(Recency,Frequency,and Monetary Value), CHAID ve lojistik regresyon modellerinin karlatrmasn yapmtr.Koyuncugil 18,CHAIDalgoritmasileMKBirketlerizelinde risklmlemesindekideiimleriotomatikolarakdeerlendirmeyivenc riskgstergelerinisektrelbazdabelirlemeyisalayacakVMyedayalbir sektrelriskmodelioluturmutur.Trevd. 19,memekanserlihastalarda yinelemesizsakalmsresinietkileyenriskfaktrlerininbelirlenmesinde kararaacyntemlerindenCRT,CHAID,QUEST(QuickUnbiasedEffi-cient Statical Tree), C4.5 ve ID3 ile Kaplan- Meirer analizini birlikte kullan-mtr. Dolgun 20, Trkiyedeki hastaneleri karar aalar tekniini kullanarak durumlarnaaitsonularkarmvebusonulardaneldeettiiverilerle kmeleme analizi yaparak gruplandrmtr. Bu almada, karar aalar kullanlarak stanbul Menkul Kymetler Borsas (MKB) rnei incelenmitir. 1. VER TABANLARINDA BLG KEF Verininbilgiyednmnngelenekselyntemi,klasikzmle-meveyorumlamayadayanmaktadr.Uygulamalariinverisetlerininklasik aratrmaekliyava,pahalvesubjektifolmaktadr.Veritabansistemleri-ninartankullanmvehacimlerindekiolaanstart,organizasyonlarn eldetoplananbuverilerininpekokalandauygulanamazolmasnasebep olmaktadr. Geleneksel sorgu veya raporlama aralarnnveriynlarkar-

action Detection, Informaton Systems, C. 31, S. 8, 2006, s. 814-831.15 Galguera LAURA, David LUNA ve M. Paz MENDEZ, Predictive Segmentation in Action: UsingCHAIDtoSegmentLoyaltyCardHolders,InternationalJournalofMarketRe-search, C. 48, S. 4, 2006, s. 459- 479. 16 AliSerhanKOYUNCUGLveNerminZGLBA,MKBdelemGrenKOBlerin FinansalBaarszlnaEtkiEdenFaktrlerinVeri Madenciliile Belirlenmesi, 3. KOB ve Verimlilik Kongresi, 2006, 1718 Kasm, stanbul. 17 JohnA.MCCARTYveManojHASTAK,SegmentationApproachesinData-Mining:A Comparison of RFM, CHAID and Logistic Regression, Journal of Business Research, C. 60, S. 6, 2007, s. 656662. 18 AliSerhanKOYUNCUGL,BorsairketlerininSektrelRiskProfillerininVeriMaden-ciliiyleBelirlenmesi,SermayePiyasasKuruluAratrmaRaporu,AratrmaDairesi, Ankara, 2007. 19 Mevlut TRE, Fsun TOKATLI ve mran KURT, Using Kaplan-Meirer Analysis Together WithDecisionTreeMethods(C&RT,CHAID, QUEST,C4.5andID3)InDeterminingRe-currence-FreeSurvivalofBreastCancerPatients,ExpertSystemswithApplications, 2008, Article in Press. 20 M. zgr DOLGUN, Trkiyedeki Hastanelerin Veri Madenciliiyle Gruplandrlmas, XI. Biyoistatistik Kongresi, 2730 Mays, Malatya, 2008. Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 35 C.14, S.1 sndayetersizkalmas,VeriTabanlarndaBilgiKefiVTBKadaltnda srekli ve yeni araylara neden olmaktadr.21 1.1. Veri Tabanlarnda Bilgi Kefi Aamalar Fayyadvd. 22,VTBKaamalarn,veriyianlama,hedefverisetio-lu-turma,veritemizlemevenileme,veriindirgeme,amalarseme,mo-del analizi ve hipotez seme, VM, rntleri yorumlama, bilgi zerinde hare-kete geme olarak 9 aamada incelemektedir. Fu 23ya gre VTBK aamalar, veritemizleme,veridntrme,VM,modelleme,yorumlamavedeerlen-dirmeaamalarndanolumaktadr.VMisebuincelemelerdeVTBKnn odaknok-tasdr.Fayyad 24,VTBKnnverihazrlama,rntarama,veri analizi,bilgideerleme,yenilemegibiyinelemeliadmlardanolutuunu belirtmi,VMyiisebilgiyadarntlerinalgoritmikanlamylailgilenen VTBKaamasolarakdeerlendirmitir.Hegland 25,VTBKyverisorgula-ma,veritemizle-me,verianalizi,bilgininsunumunuierenprosedrlerola-rak ele almtr. Verisemeilemi,zerindeallacakveritabanndanveyadier verikaynaklarndanverilerinseilerekveridosyasoluturulmasilemidir. nileme,u(extreme),sapan(outlier),eksik(missing)veyahatalbirim deerlerinin dzeltilmesi gibi ilemleri ierir. Veri dntrme; dzeltme, birletirme, genelletirme ve normalle-tirmegibideiikilemlerdenbiriniveyabirkanierebilir.Verinormal-letirmeenskkullanlanveridntrmeilemlerindenbirisidir. 26Bilgi kefi srecinin son aamas olan VM, veriyi zetlemekvegzlemlenemeyen ilikileri bulmak iin incelenen veri gruplarnn analizidir. 27 1.2. Veri Madencilii 1.2.1. Veri Madencilii Tanm ve Amalar VMgenelanlamda;bykmiktardaveriierisinden,gizlikalm, deerli,kullanlabilirbilgilerinaakarlmasbiimindeifadeedilmekte-dir. VMndeki ama, toplanm olan bilgilerin bir takm istatistik yntemlerle incelenipilgilikurumveynetimdesteksistemlerindekullanlmakzere deerlendirilmesidir.Verimadencisiningelenekselyntemlerdeolduunun aksine balangta herhangi bir amac ya da varmak istedii bir kavram yok-tur. Yaplacak analizlerden sonra elde edilen verilerin bir istatistiki gz ile 21 FAYYAD, 1996, s.37 22 FAYYAD, 1996, s.37 23 YongjianFU,DataMiningTasks,TechniquesandApplications,IEEE,No:6648/97, 1997, s. 18-20. 24 UsamaFAYYAD,DataMiningandKnowledgeDiscoveryinDatabases:Implicationsfor Scientific Databases, Ninth International Conference on Scientific and Statistical Data-base Management, 11-13 Austos, Olympia, 1997, s. 2-11. 25 MarkusHEGLAND,DataMiningTechniques,ActaNumerica,CambridgeUniversity Press, 2001, s. 313355. 26 R. J. ROIGER ve M. W. GEATZ, Data Mining: A Tutorial-Based Primer, Addison Wesley, USA, 2003. 27 David HAND, Heikki MANLA ve Padhraic SYMTH, Principles of Data Mining, The MIT Press, London, 2001.ALBAYRAK YILMAZ 36 2009 incelenipdahancedendnlmemikavramlarnortayakarlmas,baa-rl bir VM sreci olarak kabul edilmektedir. 28

VM, birleik verilerdeki gizli bilgileri bulmak ve i uzmanln art-trmakamacylayaplanyenibirkarardestekanalizilemidir.Bazanahtar kelimeler kullanlarak 4 aamal ayrntl VM tanm yledir: 29

1. VM, bir sretir. 2. VM, karar destek aralarnn niteliini yceltir. 3. VM, gizlenmi bilgileri bulur. 4. VM, i uzmanlar iin kavray datc bir sistemdir. VMuygulamalarnnetkiliolabilmesiiingerekletirmekzorunda olduu3koulvardr. Birincisi, VM,blmezgveriyerineorganizasyon apndaveriyeulamaldr.Organizasyonunverisi,skskakkaynaklya damaliyetliverilereeklenmektedir.Buekildeoluturulanveritabanveri ambarolarakadlandrlmaktadr.Verientegrasyonusresinceuygulama, verileri,tretilmizellikleri(ifttanmlamalarkaldrarak,eksikdeerleri doldurarak) temizlemektedir. kinci olarak, bir VM uygulamas veri ambarla-rndaki bilgiyi ilemek zorundadr. Son aamada ise VM ilenmi veriyi karar vermeye imkn verecek ekilde dzenlemeli ve sunmaldr. 30 1.2.2. Veri Madencilii Sreci VM alt adml bir sre olarak incelenebilir: 31 (1) Aratrma Probleminin Tanmlanmas (Business Understanding) Buaamaverimadenciliisrecininennemliaamasdr.Aratr-maprobleminin(konusunun)tanmlanmasaamasaratrmannamacn, mevcut durumun deerlendirilmesini, veri madenciliinin amalarn ve proje planlama srecinin belirlenmesini kapsamaktadr. (2) Verileri Tanma Aamas (Data Understanding) Verianlamaaamasveritoplamaklabalamaktadr.Dahasonra benzer verileri bir araya getirme, veri niteliklerini tanmlama, verileri kefet-me, gizli bilgileri snflandrma ile srece devam etmektedir.(3) Veri Hazrlama Aamas (Data Preperation) Verihazrlamaaamas,hamveridenbalayaraksonveriyekadar yaplmasgerekenbtndzenlemeleriiermektedir.Verihazrlama,tablo, 28 AlperVAHAPLAR,BirCorafiVeriMadenciliiUygulamas,YaynlanmamYksek Lisans Tezi, Ege niversitesi, Fen Bilimler Enstits, zmir, 2003. 29 CharlyKLESSNER,DataMiningforEnterprise,31stAnnualHawaiInternational Conference on System Screnes, 10603425/98, 1998, s. 295304. 30 EvangelosSMOUDS,RealityCheckforDataMining,IEEEExpert:IntellegentSys-tems and Their Applications, C. 11, S. 5, 1996, s. 26-33. 31 Daniel T. LAROSE, Discovering Knowledge in Data: An Introduction to Data Mining, John and Wiley Sons Incorporated, USA, 2005. Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 37 C.14, S.1 kayt, veri dnm ve modelleme aralar iin veri temizleme gibi zellik-leri iermektedir. (4) Modelleme Aamas (Modelling) Bu aamada, verilerden bilgi ekmek iin ileri zmleme yntemle-rikullanldndanVMsrecininengsteriliaamasdr.Buaamauygun modellemetekniininseimi,testtasarmnnretimi,modelgelitirmeve tahminilemleriniiermektedir.Uygunmodellerinseilipuygulanmasyla birlikteparametrelerenuygundeikenleredntrlmektedir.VM,her problem tipi iin farkl yntemler iermektedir. Baz yntemler, veri tipi iin uygun deildirya da zel tanmlamalargerektirmektedir. Bu nedenle gerekli olduunda 3. aama olan veri hazrlama aamasna geri dnlr. (5) Deerlendirme Aamas (Evaluation) Deerlendirmeaamasnda,uygunmodelyadamodellerkurulduk-tansonra,VMsonularnnaratrmaproblemininamalarngerekletirip gerekletirmediideerlendirilir.Buaamasonularndeerlendirilmesi, veri madencilii srecinin gzden geirilmesi ve sonraki admlarn ne olaca hususlarniermektedir.BuaamannsonundaVMsonularnnkullanm zerindeki karara varlmaktadr. (6) Uygulama Aamas (Deployment) Sonaamaolanuygulamaaamas,aratrmacnntmemeklerinin karlnaldbiraamadr.BuaamadaVMsreciyleretilenbilgiler, pratikiletmeproblemlerininzmndekullanlmaktadr.Bu aamadaelde edilenbilgilerinuygulanabilmesineynelikbirplanhazrlama,gzdenge-irme ve bakm faaliyetlerini ierir. Ayrca bu aamada nihai aratrma rapo-runun yazlmas ve projenin gzden geirilmesi ilemleri yer almaktadr.VMdeverikmesininbyklndenkaynaklanan enfazla zaman alcaama,verilerinnilemdengeirilmesiaamasdr.VMuygulamala-rndakaynaklarn%80iverilerinnilemdengeirilmesivetemizlenmesi sreleri iin harcanmaktadr. 32 1.2.3. Veri Madencilii levleri Genel olarak VM ilevleri tahmin edici ve tanmlayc veri madenci-lii olarak ikiye ayrlabilir.Tahmin edici modellerde, sonular bilinen verilerden hareket edile-rekbirmodelgelitirilmesivekurulan bumodeldenyararlanlaraksonular bilinmeyen veri kmeleri iin sonu deerlerin tahmin edilmesi amalanmak-tadr. 33 Tanmlayc VM modellerinde ise tahmin edici modelin tersine karar 32 Selwyn PRAMUTHU, Evaluating Feature Selection Methods for Learning in Data Mining Applications, European Journal of Operational Research, C. 156, S. 2, 2004, s. 483-494. 33 SerhatZEKES,VeriMadenciliiModelleriveUygulamaAlanlar,stanbulTicaret niversitesi Dergisi, Yl 2, S. 3, 2003, s. 6582. ALBAYRAK YILMAZ 38 2009 vericilereyolgstermekiinkullanlanmevcutveridekirntlertanmlan-maktadr. 34 1.3. Veri Madencilii Yntem ve TeknikleriBir VM modeliyle aadaki ilemlerden bir veya birka gerekle-tirilebilir:Snflama (Classification) ve Regresyon (Regression) Modelleri, Kmeleme (Clustering) Modelleri ve Birliktelik Kurallar (Association Rules) ve Ardk Zamanl rnt-ler (Sequential Patterns). Snflamaveregresyonmodelleritahminedici,kmeleme,birlikte-lik kurallar ve ardk zamanl rnt modelleri tanmlayc modellerdir. 1.3.1. Snflama ve Regresyon Modelleri EnyaygnuygulananVMtekniklerindenbiriolansnflama,snf tanmlanmmevcutverilerdenyararlanaraksnfbelliolmayanverilerin snfntahminetmekiinkullanlanVMmodelidir.Snflamaikiadmie-ren bir ilemdir Birinci admda tahmin iinkullanlacak bir modeloluturul-maktadr.kinciadmda,oluturulanbumodelsnfbelliolmayanveriler zerindeuygulanaraksnflartahminedilmektedir. 35Balcasnflandrma teknikleri,YapaySinirAlar(ArtificialNeuralNetworks),GenetikAlgo-ritmalar (Genetic Algorithms), K- En Yakn Komu (KNearest Neighbour), BellekTemelliNedenleme(MemoryBasedReasoning),NaiveBayes, LojistikRegresyon(LogisticRegression)veKararAalardr(Decision Trees).1.3.2. Kmeleme Kmelemeanalizi,nesnelerinaltdizinleregruplanmasnyapanbir ilemdir.Bylecenesneler,rneklenenkitlezellikleriniiyiyanstanetkili birtemsilgcnesahipolmaktadr.Snflamannaksine,yenidentanmlan-msnflaradayaldeildir.Kmeleme,birdenetimsizrenme(unsuper-vised learning) yntemidir. 36 1.3.3. Birliktelik Kurallar ve Ardk Zamanl rntler Birliktelik kurallar ile bir ilikide yer alan niteliklerin deerleri ara-sndakibamllklar,anahtardayeralmayandiernitelikleringruplandrl-masilebulunur.BukurallarilkolarakAgrawaltarafndan1994tegel-itirilmitir. Birliktelik kurallarnn analizi sreci market sepeti analizi olarak da adlandrlr. Market sepeti analizinde mteri ile ilgili veri hareketlerinden 34 HerbEDELSTEIN,MiningLargeDatabase-ACaseStudy,TwoCrowsCorporation, 2000. 35 J.HANveM.KAMBER,DataMining:ConceptsandTechniques,MorganKaufmann Publishers, USA, 2001. 36 FatihAYDOAN,E-TicaretteVeriMadenciliiYaklamlarylaMteriyeHizmetSunan AkllModllerin TasarmveGerekletirimi,YaynlanmamYksek Lisans Tezi,Ha-cettepe niversitesi Fen Bilimleri Enstits, Ankara, 2003. Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 39 C.14, S.1 hareketlerinden gelecekte mterinin nasl bir tercih yapacana dair sonular tahmin edilmektedir. 37 oksaydaverinin depolandbir veri taban iinde eitliniteliklerarasndahemenfarkedilmeyenbirtakmilikilerinortaya kartlmas stratejik kararlarn alnmasna yardmc olabilir. Ancak, bu iliki-lerinoksaydaverininiindeneldeedilmesibasitbirsredeildir.Bu srebirliktelikkuralmadencilii(associationrulemining)olarakadland-rlmaktadr. Veriler arasndaki ilikiler, eer-sonra ifadeleri ile aadaki gibi gsterilmektedir. 38 Eersonra EnyaygnbirliktelikkuralalgoritmalararasndaGRI(TheGener-alized Rule Induction), Apriori saylabilir. 2. KARAR AALARI (DECISION TREES) Karar aalar, snflar bilinen rnek veriden tmevarm yntemiyle renilen aa ekilli bir karar yaps eididir. 39 Bir karar aac, basit karar vermeadmlaruygulanarak,bykmiktarlardakikaytlar,okkkkayt gruplarna blerek kullanlan bir yapdr. Her baarl blme ilemiyle, sonu gruplarnn yeleribirdieriyle okdahabenzer halegelmektedir. 40 Byk veritabanlarnnkullanldpekoksnflamaproblemindevekarmakya dahata ierenbilgilerdekarar aalaryararlbir zmolmaktadr. 41Tah-minedicivetanmlayczellikleresahipolankararaalar,VMdekuru-lularnnkolayolmas,yorumlanmalarnnkolayolmas,veritabansistem-lerinekolaycaentegreedilebilmeleri,gvenilirliklerinindahaiyiolmasne-denleriilesnflamamodelleriierisindeenyaygnkullanmasahipolanbir tekniktir. 42 ekil 2.1: Karar Aac rnei 37UmutALTINIIK,renciBilgiSistemindeVeriMadenciliininUygulanmas,Yay-nlanmamYksekLisansTezi,KocaeliniversitesiFenBilimleriEnstits,Kocaeli, 2006. 38 A.GHOSHveB.NATH,Multi-ObjectiveRuleMiningUsingGeneticAlgorithms,In-formation Sciences, C. 163, S. 13, 2004, s. 123133. 39 Jie SUN, ve Hui L, Data Mining Method for Listed Companies, Financial Distress Predic-tion, Knowledge-Based Systems, C. 21, S. 1, 2008, s. 15. 40 Michael J. BERRY, Data Mining Techniques: For Marketing, Sales, and Customer Relation-ship Management, John Wiley and Sons Incorporated, USA, 2004. 41 M. J. ATKENHEAD, A Co-Evolving Decision Tree Classification, Expert Systems with Applications, C. 34, S. 1, 2008, s. 1825. 42 Sigurdur LAFSSON, Xiaonan L ve Shuning WU, Operations Research and Data Mining, Europen Journal of Operational Research, C. 187, S. 3, 2008, s.1429- 1448. Node 0Category % n73,4 127 sanayi26,6 46 hizmetTotal 100,0 173Cari Oran= DnenVarlklar/KsaVadeliBorlarImprovement=0,083MKB Sektr SnfNode 1Category % n11,8 2 sanayi88,2 15 hizmetTotal 9,8 17Net Kar Marj= NetKar/NetSatlarImprovement=0,010 0,89Node 3Category % n6,2 1 sanayi93,8 15 hizmetTotal 9,2 16 0,61Node 5Category % n82,2 125 sanayi17,8 27 hizmetTotal 87,9 152 0,73sanayihizmetALBAYRAK YILMAZ 40 2009 Kararaactemellianalizlerinyaygnolarakkullanldalanlar unlardr: 43 Belirli bir snfn olas yesi olacak elemanlarn belirlenmesi, eitli vakalarn yksek, orta, dk risk gruplar gibi eitli katego-rilere ayrlmas, Parametrik modellerin kurulmasnda kullanlmak zere ok saydaki deikenden en nemlilerinin seilmesi, Gelecektekiolaylarntahminedilebilmesi iinkurallaroluturulma-s, Sadece belirli alt gruplara zg olan ilikilerin tanmlanmas, Kategorilerinbirletirilmesivesreklideikenlerinkesiklidei-kenlere dntrlmesidirKararaacoluturmakiingelitirilenbualgoritmalararasnda CHAID (Chi- Squared Automatic InteractionDetector), Exhaustive CHAID, CRT(Classification and RegressionTrees),ID3, C4.5,MARS(Multivariate Adaptive Regression Splines), QUEST (Quick, Unbiased, Efficient Statistical Tree),C5.0,SLIQ(SupervisedLearninginQuest),SPRINT(ScalablePar-alleizable Induction of Decision Trees) yer almaktadr. 43 AKPINAR, 2000, s. 17. Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 41 C.14, S.1 2.1.1. CHAID Algoritmas CHAID metodu 1980de Kaas tarafndan en iyi blmeyi hesaplamak iinistatistikolarakanlamlbirfarkllnolmad,hedefdeikeneuyan iftlerde tahmin deikenininolaskategori iftini birletirmesiyleoluturul-mutur. 44 En uygun blmleri semek iin kullanlan entropy veya gini met-rikleri yerine chi-square testi kullanlmaktadr. 45 En iyi blmeyi hesaplamak iin tahmindeikenlerihedefdeikeneuyanbiriftin iindeistatistikola-rak anlaml bir fark kalmayncaya kadar birletirilmektedir. CHAID ile dier yntemler arasndaki en nemli farkllklardan birisi, ID3, C4.5, ve CRT ikili aalar tretirken, CHAID oklu aalar tretmektedir. 46 ekil 2.2: Karar Aac Deiken likisi Kaynak: Ali S. Koyuncugil,Borsa irketlerinin Sektrel Risk Profillerinin Veri Madenciliiyle Belirlenmesi, Sermaye Piyasas Kurulu Aratrma Raporu, Aratrma Dairesi,Ankara, 2007. Yninhedefdeikenolduuvarsaylarak,ekil2.2:KararAac Deiken likisi dikkate alndnda: 47 X1, X2 ve X3 olmak zere sadece 3 deiken hedef Y deikeniyle is-tatistik olarak nemli ilikiye sahiptir.X1 deikeni Y hedef deikeniyle istatistik olarak en nemli ilikiye sahiptir. X2deikeniX1deikeniyleX1=a1olmaskouluylaistatistikola-rak nemli ilikiye sahiptir. X3 deikeni X1 deikeniyle X1=a2 olmas kouluyla istatistiksel a-dan nemli ilikiye sahiptir. 44 SPSS, 1999, s. 2 45 TubaMAMOLU,VeriMadenciliindeKararAalarileBirrenciDersBaars TahminArac,YaynlanmamYksekLisansTezi,KocaeliniversitesiFenBilimleri Enstits, Kocaeli, 2005. 46 TRE vd., 2008, s. 3 47 KOYUNCUGL, 2007, s. 17. ALBAYRAK YILMAZ 42 2009 3. VER MADENCL UYGULAMASI: MKB VERLER Bu almada, MKB100 sanayi ve hizmet sektrnde faaliyette bu-lunan 173 iletmenin 20042006yllarna aityllk finansalgstergelerinden yararlanarakVMtekniklerindenbirisiolankararaalarteknii,CHAID algoritmas uygulanarak seilen finansal gstergelere gre firmalar ayran en nemlideikenleraratrlmaktadr.Buirketlerin,20042006yllarnaait bilanovegelirtablolarnailikinverilerMKBninasayfasndanelde edilmitir. 3.1. almann Amac ve nemi Bualmanntemelamac,kararvermekonumundaolanlarn,i-letmeleribelirliynlerdenperformanslarndeerlendirmededikkatealmas gerekenennemliltlerin(deikenlerin) saptanmasnda verimadencilii tekniklerindenkararaacalgoritmalarnnuygunbiryntemolarakkullan-labileceini gstermektir. Bu amala bugne kadar daha ok regresyon anali-zi,diskriminantanalizivelojistikregresyonanalizigibiokdeikenliista-tistiktekniklerdendahaokyararlanldgrlmektedir.lkemizdekarar aac algoritmalarnn kullanm ise olduka yenidir. Karar aac algoritmala-rnnennemliavantajlar,parametrikolmayanyntemlerarasndaolmas nedeniyle dier okdeikenli tekniklerde salanmasgereken istatistikvar-saymlarnolmamasdr.Ayrcakararaacalgoritmalarnnbamlveba-mszdeikenlerarasndakiilikilerinynn,nemsrasngrselletir-mesi dier avantajlar arasndadr. Bu zellii zellikle elde edilen sonularn yorumunuoldukabasitletirerekdahasomutvekullanlhalegetirmekte-dir. BubalamdabualmadaMKB100sanayivehizmetsektrnde faaliyetgsterenfirmalarayrmadaetkiliolanennemlikarllk,likitide, varlkkullanmetkinlii,sermayeyapsveiletmebykldeikenleri aratrlmaktadr.3.2. almann Yntemi Profillerinoluturulmas iingrsel,kolayanlalr,kolayyorumla-nabilirve kural karmna izin vermesi nedeniyle VMyntemlerinden karar aalarkullanlmtr.almadaMKB100endeksindekiirketlerinprofil-leri,kararaacyntemlerindenCHAIDilebelirlenmitir.CHAIDinanaliz aracolarakseilmenedenlerininbandasreklivekategoriktmdeiken tipleriyle alabilmesi gelmektedir. Bununla beraber, sreklibamldeikenlerotomatikolarakanali-zin amacnauygunolarakkategorizeedilmektedir. CHAID,Ki-Karemetrii vastasyla,ilikidzeyinegrefarllkrastlanangruplarayrayrsnfla-maktaveaacnyapraklar,ikilideil,veridekifarklyapsayskadardal-lanmaktadr. 3.2.1. Veri Anlama ve Veri Seimi Aamas Enuygunveritabanoluturulurkenhissesenediulusalpazardai-lemgrmekteolanfirmalarnadlarvefaaliyetkonularileilgilibilgiler Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 43 C.14, S.1 MKBtarafndanyaynlanmolanMKB100endeksindekifirmalardan salanmtr.rneinoluturulabilmesiiinkapsamdakifirmalarnhesap dnemlerideincelenmi,oranlarnhesaplanpdeerlendirilmesindedaha salkl bir sonuca ulalabilmesi iin MKBde kayd bulunan, Ulusal Pazar-dailemgrenvefinansalhesapdnemi1Ocak-31Aralkolanfirmalar deerlendirmeye alnmtr. 3.2.2. Veri nileme Aamas Bir ekonomideki finansal firmalar, birikim fazlas olan kii ve kuru-lularla belli amalar iin bu birikimleri kullanmak isteyenlerin karlamala-rn salarlar.Finansal firma faaliyetleri, finansalolmayan firmalardan farkl olarakbellibirretimsreciiermemektedir.eitliaralarkullanarak,fon aktarmlarkonusundahizmetverenbufirmalarnfinansalyaplardier retim ve hizmet firmalarndan son derece farkldr. 48 Finansalfirmalarnmterilerindentopladklarmevduatlarnfi-nansal tablolarndaki gsterim ekli, bu firmalarda yksek kaldra oranlarna sebepolmaktadr.Bufirmalarnfinansalanalizlerindekullanlanbirokora-nn,kendilerinezgbirekildeyorumlanmasgerekmektedirvetm sektrlerde geerli olabilecek deerlendirme ltlerinin oluturulmas mm-kndeildir.almadadahatutarlveanlamlbulgulareldeedebilmekve salklsonularaulamakiinfinansalfirmalardeerlendirmedbrakl-mtr.alma rneinin belirlenmesi aamasnda ilk olarak ulusal pazarda ilemgrmekteolan MKB100endeksindekifirmalarn advefaaliyetkonu-lar veri tabanna alnmtr. Daha sonra almada temel alnan finansal firma tanmnnkapsamndabulunduusaptananfirmalarlistedenelenerektemiz-lenmitir.Szkonusu173iletmeyeaitfinansalgstergelerveritabanna aktarlmtr.3.2.3. Veri Dntrme Aamas Verilerin analizindeyllar aras enflasyon etkisiniyok etmek iin fi-nansaltablolardanalnanfinansalgstergelereenflasyondzeltmesiyapl-mtr. Dahasonra almadakullanlan finansaloranlar hesaplanarak veriler dzenlenmitir.Tablo3.1dealmadakullanlanfinansaloranlarverilmi-tir. almada baml deiken olarak sektr kukla deikeni (sanayi=1 ve hizmet=2) alnmtr. 3.2.4.ModellemeAamas:KararAacTekniiCHAIDAlgoritmasnn Uygulanmas Kararaalaralgoritmalaruygulamabakmndanbirhedefdei-ken(bamldeiken)vehedefdeikeniaklamayaynelikkullanlacak aklaycdeikenler(bamszdeikenler)olmakzereikigrupdeiken 48 Arzum ERKEN, Balca Fiyat Bazl Oranlarn Hisse Senedi Getirisi zerindeki Etkileri ve stanbulMenkulKymetlerBorsasndaBirUygulama,YaynlanmamYksekLisans Tezi, Ankara niversitesi Sosyal Bilimler Enstits, Ankara, 1998. ALBAYRAK YILMAZ 44 2009 ile gerekletirilmektedir. SPSS 15 yazlm ile CHAID algoritmas kullanla-rak birletir = bl=0,10 olarak belirlenmi ve karar aalar elde edilmitir. Tablo 3.1: almada Kullanlan Finansal Oranlar Tablosu Deiken SnfSimgeDeikenin Tanm NK/TAAktiflerin Karll=Net Kar/Toplam Aktifler NK/Szsermayenin Karll=Net Kar/zsermaye NK/NSNet Kar Marj=Net Kar/Net Satlar KarllkOranlarERO Ekonomik Rantabilite Oran=(VK+Finansman Giderle-ri)/Toplam Aktifler DV/KVBCari Oran=Dner Varlklar/Ksa Vadeli Borlar ATO LikitideOran=(DnerVarlklar-Stoklar)/KsaVadeli Borlar NS/NS lemeSermayesininNetSatlaraOran=(DV-KVB)/Net Satlar LikitideOranlar KVAL/DVKsa Vadeli Alacaklar/Dner Varlklar=KVAL/DV NS/TAAktif Devir Hz=Net Satlar/Toplam Aktifler SDHStok Devir Hz=Satlarn Maliyeti/Stoklar NS/DV letmeSermayesiDevirHz(SDH)=NetSat-lar/Dner Varlklar Varlk KullanmEtkinlii NS/Szsermaye Devir Hz=Net Satlar/zsermaye KVB/TA KsaVadeliBorOran=KsaVadeliBorlar/Toplam Aktifler TB/TAToplam Bor Oran=Toplam Borlar/Toplam Aktifler DV/TADner Varlklar/Toplam Aktifler Sermaye Yaps Oranlar DV/SDuran Varlklar/zsermaye B1Toplam AktiflerletmeBykl B2Net Satlar 3.2.5.Deerlendirme Aamas: CHAID Modeli Sonular almadakararaalaralgoritmasbakmndanhedefdeikeno-lan sektr bulgularna gre 173 iletmenin CHAID model sonular ve profil-leri verilmitir. Riskdeeri,sonumodelivemodellerioluturmak iinbilgisala-yanCHAIDmodeltablosununenuygunaayapsnbelirlemedebirgs-tergedir.Terminaldmsaysdaenuygunaayapsiinbirgsterge olarakkullanlmaktadr.Aadaverilentablo,hedefdeikeneait12farkl aayapsndanolumaktadr.Aayaplarnnderinliivedmsaylar, aa1denaa12yekadarartmaktadr.Riskdeerleriisestandarthata, yerine koyma (resubstitution) ve apraz geerlilik (cross validation) yzdele-rinden olumaktadr. En uygun modellerin seiminde toplam ve nihai dm saylar, aa derinlii, yerine koyma, apraz geerlilik ltlerinden yararla-nlmtr.Hedefdeikenolaraksektrsnfntanmlayanmodelderiskin lsyanlsnflandrmaoranngstermektedir.Bunedenleriskyzdesi, en uygun aa yapsnn seiminde dengeli ve minimum olmaldr. Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 45 C.14, S.1 Modelinuygulanmassrasndaaprazgeerlilikkuralseilmive farklaayaplarnizlemekiinalgoritmanndurdurmakurallarna(stop-pingrules)uygunfarkldmsaylardenenmitir.Tablolardasektr baml deikeni iinyerine koyma ve apraz geerlilik riskleri birbirine en yakn olan aa yaps seilmitir. Tablo 3.2: Sektr Snf CHAID Algoritma Sonular Karar Dm Says Yerine Koyma (%) apraz Geerlilik (%) Tm Olas Aalar ToplamTerminal Aa DerinliiRisk Standart HataRisk Standart Hata Aa 111026,63,426,63,4 Aa 232126,63,426,63,4 Aa 343125,43,330,13,5 Aa 475217,32,918,53,0 Aa 585219,73,030,63,5 Aa 6139212,12,524,33,3 Aa 7107317,32,917,92,9 Aa 8128316,22,824,33,3 Aa 91610313,32,621,43,1 Aa 10 1711311,02,421,43,1 Aa 11 231448,72,122,53,2 Aa 12 251558,72,120,83,1 Tablo3.3deCHAIDkararaacileeldeedilenMKB100endek-sindeki 7 iletme profiline, profili oluturan dmlere ve sektr deikenine etkiedendeikenlereyerverilmitir.Profillerivesektrdurumunudeer-lendirmekiinTablo3.3ileekil3.1birlikteincelenmektedir.ekil3.1,4 anadaldanoluanCHAIDkararaacnveprofillerintamamntekbire-kilde gstermektedir.almada,kararaalaralgoritmasbakmndanhedefdeiken seilensektrbulgularnagrearatrmakapsamndaMKB100endeksinde yeralan173iletmeden%73,4nn(127iletme)sanayisektrnde, %26,6snn(46iletme)hizmetsektrndeolduuanlalmaktadr.ekil 3.1deverilenCHAIDkarar aacile iletmelerinsektrprofillerioluturul-mu ve iletmeler 7 farkl profilde gruplanmtr. letmeleri klasikyntemle sanayiyadahizmetsektrolarakikigrupta toplamakmmknken, bu almailesektrdurumuvezelliklerinegre7farklprofildegruplandr-mak sz konusu olmutur. MKB100endeksindekiirketlerinsektrleritibariyleprofillerinin oluturulmasnda,ennemlideikeniniletmesermayesininnetsatlara oran(p=0,000)olduuanlalmaktadr.letmesermayesininnetsatlara oran deerlerine gre aacn dallar drt ana dalda (Node 1-Node 4) toplan-mtr.Budrtdmoluturan altdmler deprofillerioluturmaktadr. MKB100 endeksindeki firmalarn sektr profillerinin oluturulmasnda etkili ALBAYRAK YILMAZ 46 2009 olan en nemli deikenler srasyla iletme sermayesinin net satlaraoran, stok devir hz ve ekonomik rantabilite oran deikenleridir.Profil 1 (Node 1) ve 2 (Node 2): Tablo 3.3 ve ekil 3.1de grld gibi1.ve2.profil,iletmesermayesininnetsatlaraorandeikeninden olumaktadr.letmesermayesininnetsatlaraoran-0,04eeityada kkolaniletmelerbirinciprofili,-0,04ile0,09arasndaolaniletmeler ikinciprofilioluturmaktadr.Birinciprofildekiiletmelerin%11,8i(2i-letme)sanayisektrnde,%88,2si(15iletme)hizmetsektrndeyer alrken;ikinciprofildekiiletmelerin%71,4(25iletme)sanayisek-trnde;%28,6s(10iletme)hizmetsektrndeyeralmaktadr.letme sermayesininnetsatlaraorannegatifolanbirinciprofil,iletmelerinksa vadeli borlarnn yksek olduunu gstermekte ve faaliyetleri sresince tam kapasitedekarlveverimlialabilmesinigletirmektedir.Netiletme sermayesininbykl,iletmelerinretiminidevamettirebilmesive ykmllklerini karlayamama riskini azaltmas asndan nem tamakta-dr.kinciprofildeyeralaniletmeleriniletmesatoranlarnnsermayeye bamlolmadan,yeterlibirsatdzeyineulaabildiivedierfinansal oranlarnndayeterliolmasdurumundasatlarn,iletmefaaliyetleriyle gerekleebileceigrlmektedir.Bunakarniletmeler,iletmesermaye-sine bal olmadan satlarn yeterli dzeye getirmek iin nlemler almal ve bu dzeyde kendi faaliyetlerinin dn hzn koruyabilmelidir. Tablo 3.3: Sektr Snf Profilleri ve Profilleri Oluturan Deikenler ProfillerDmlerNS/NSSDHERO Profil 11 -0,04 Profil 22-0,04 0,09 Profil 33, 50,09 0,79 -10,64 Profil 43, 6, 80,09 0,79(-10,64) (-2,72) -0,13 Profil 53, 6, 90,09 0,79(-10,64) (-2,72)> -0,13 Profil 63, 70,09 0,79> (-2,72) Profil 74> 0,79 Profil 3 (Node 3): Bu profil, iletme sermayesinin net satlara oran ve stok devir hz deikenlerinden olumaktadr ve iletmelerin %66,7si (16 iletme)sanayisektrnde,%33,3(8iletme)hizmetsektrndeyeral-maktadr.Bu profilioluturaniletmelerin iletme sermayesininnetsatlara oran 0,09 ile 0,79 arasnda iken, stok devir hz -10,64e eit ya da kktr. Stokdevirhznnnegatifolmasiletmedefazlastokbulundurulduunu, satlarnnetiletmesermayesinebalolduunuvebunedenleiletme satlarnn azaldn gstermektedir. Bu da stok tutma maliyetinin artmasna vestoklardabozulmariskinesebepolmaktadr.letmesermayesininnet satlaraorannnyksekolmas,satlarnnetiletmesermayesinebal olmas stok devir hznn yava olmasnda da nemli bir etkendir. Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 47 C.14, S.1 Node 0Category % n73,4 127 sanayi26,6 46 hizmetTotal 100,0 173letme Sermayesinin Net Satlara Oran= (DV-KVB)/NetSatlarAdj. P-value=0,000, Chi-square=55,878, df=3MKB Sektr SnfNode 1Category % n11,8 2 sanayi88,2 15 hizmetTotal 9,8 17 0,79Node 5Category % n66,7 16 sanayi33,3 8 hizmetTotal 13,9 24 -2,72Node 8Category % n66,7 2 sanayi33,3 1 hizmetTotal 1,7 3 -0,13sanayihizmetekil 3.1: MKB Sektr Snf Karar Aac * Profil4(Node8)ve5(Node9):Toplam73iletmeninolduu drdncvebeinciprofiller,iletmesermayesininnetsatlaraoran,stok devirhzveekonomikrantabiliteorandeikenlerindenolumaktadr. Drdncprofildekiiletmelerin%66,7si(2iletme)sanayisektrnde, %33,3(1iletme)hizmetsektrndeyeralrkenbeinciprofildekiilet-melerintamam(70iletme)sanayisektrndeyeralmaktadr.Buprofili oluturaniletmelerin,iletmeleriniletmesermayesininnetsatlaraoran 0,09 ile 0,79 arasnda, stok devir hz -10,64 ile -2,72 arasnda deimektedir. Drdncprofildekiiletmelerinekonomikrantabiliteoranlar-0,13teneit yadakkikenbeinciprofildeise-0,13tenbyktr.Ekonomik rantabiliteorannnnegatifolmasfirmalarnfaaliyetlerininfinansmannda arlklolarakyabanckaynakkullandngstermektedir.Ayrcasz konusufirmalarnstokdevirhznnnegatifolmasstoktutmamaliyetini * ekilde geen Node, Category, Total ngilizce szckleri srasyla dm, kategori ve toplam anlamna gelmektedir. ALBAYRAK YILMAZ 48 2009 ykselterek,firmannfinansmangereksiniminiarttrabilirvestoktabulunan mallarneitlinedenlerlesatkabiliyetiniyitirmeolaslnykselebilir. letmesermayesininnetsatlaraoranpozitifolanszkonusufirmalarn satlarnniletmesermayesinikarlayacakdzeydeolmadnyadaihti-yatanfazlanetiletmesermayesibulunduunu,alacaklarnvestoklarn dn hznn yeterli olmadn gstermektedir. Profil 6 (Node 7): Bu profil, iletme sermayesinin net satlara oran vestokdevirhzdeikenlerindenolumaktadr.Altncprofilioluturan iletmelerin%71,4(5iletme)sanayisektrnde,%28,6s(2iletme) hizmetsektrndeyeralmaktadr.Buprofildeyeralaniletmeleriniletme sermayesinin net satlara oran 0,09 ile 0,79 arasnda iken, stok devir hzlar -2,72denbyktr.letmelerin,satlarndanokzsermayesinebalkal-mas ve stok devir hznn dk olmas kredi veren kurumlar asndan riskli birdurumoluturmaktadr.letmelerinstokdevirhznarttrcnlemler almas gerekmektedir. Profil7(Node4):Toplam17iletmeninyeraldyedinciprofili, iletme sermayesinin net satlara oran 0,79danbykolan iletmeler olu-turmaktadr.Buprofildekiiletmelerin%41,2si(7iletme)sanayisek-trnde,%58,8i(10iletme)hizmetsektrndeyeralmaktadr.letme sermayesinin net satlara orannn ok yksek olmas iletmelerin satlarnn okdkolduunuyadasermayesininihtiyacnokzerindeolduunu gstermektedir. Karlln satlarndan ok sermayeyebamlolmas ilet-melerin faaliyetlerini devam ettirmesi ve kredibilitesini korumas bakmndan yksek risk oluturmaktadr. SONU Verininbilgiyednmnngelenekselyntemi,klasikzm-lemeveyorumlamayadayanmaktadr.Ancakgnmzdeverimiktarndaki olaanstart,salk,eitim,ticaret,askerialanlar,alveri,devletsek-tr, zel sektrve pek ok alanda verilerin ilenmesi ve bu verilerin deer-lendirilerekbilgiyedntrlmesibirzorunlulukhalinegelmitir.Veri madenciliibunoktadauyguntekniklerkullanarakgizlikalmbilgilerior-taya karma zelliiyle gereklidir.Bu almada, veri madencilii tekniklerinden karar aalar teknii kullanlarakstanbulMenkulKymetlerBorsasndaneldeedilenveriler zerindeynteminuygulanabilirliigsterilmitir.Kararaacalgoritma-larnnen nemliavantajlar,parametrikolmayanyntemlerarasndaolmas nedeniyle dier okdeikenli tekniklerde salanmasgereken istatistikvar-saymlarn sz konusu olmamasdr. nk veri madencilii sonucunda olu-turmuolduumuztmkurallarkesinliklekullanlabilirveyakullanlamaz diyebiryargyancedenvarmamzmmkndeildir.Ayrcakararaac algoritmalarnnbamlvebamszdeikenlerarasndakiilikilerin ynn, nem srasn grselletirmesi dier avantajlar arasndadr. Bu zel-liizellikleeldeedilensonularnyorumunuoldukabasitletirerekdaha somut ve kullanl hale getirmektedir.Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 49 C.14, S.1 almakapsamnastanbulMenkulKymetlerBorsasUlusal100 endeksi sanayi ve hizmet sektrlerinde faaliyet gsteren 173 irket alnm ve irketlereaitfinansalbilgilerkullanlarakeldeedilenverilereCHAIDalgo-ritmasuygulanmiletmelerinbirbirlerinegrekonumlarortayakonmu-tur. CHAID iledier algoritmalar arasndaki en nemli farkllklardanbirisi, aacn yapraklarnn ikili deil verideki farkl yap says kadar dallanmasdr. Bu zellii nedeniyle, daha fazla alt gruplarla deerlendirme yapmak ve daha homojengruplardansonukarmakmmknolmaktadr.Bubalamdabu almadaMKB100 sanayivehizmet sektrnde faaliyetgsterenfirmalar ayrmadaetkiliolanennemlikarllk,likitide,varlkkullanmetkinlii, sermaye yaps ve iletme bykl deikenleri aratrlmtr. almadaincelenenveyorumlananenuygunaayapsnagre eldeedilenbulgularndeerlendirilmesisonucundauhususlarortayakon-mutur: almada, sanayi ve hizmet sektrlerinde faaliyet gsteren firmalar ayrmada etkili olan deikenler iletme sermayesinin net satlara oran, stok devirhzveekonomikrantabiliteorandeikenlerindenolumaktadr.1. ana dalda iletme sermayesinin net satlara oran negatif olmas, 1. profildeki 17iletmenin(sanayi:2,hizmet:15)ksavadeliborlarnyksekolduunun gstergesidir ve ykmllklerini karlayabilme riskini arttrmaktadr. 2. ana daldaki35iletmenin(sanayi:25,hizmet:10)oluturduu2.profilde,i-letmesermayesininnetsatlaraorandeerininykselmesiylebirliktei-letmesermayesisatlarabamlolmaktankmaktave satlarartmaktadr. 3. ana daldaki toplam 104 iletmenin (sanayi: 93, hizmet:11)yer ald pro-fillerdeeldeedilenbulgulardeerlendirildiinde,4.ve5.profillerdeeko-nomikrantabiliteorannnnegatifolmasiletmefaaliyetlerininfinansman-nda arlkl olarak yabanc kaynak kullanldn gstermektedir. 3., 4. ve 5. profillerde stok devir hznn negatif olmas ise iletmelerde fazla stok bulun-durulduunu, satlarn net iletme sermayesine bal olduunu ve bu nedenle iletmesatlarnnazaldngstermektedir.4.anadaldayeralan7.pro-fildeki17iletmenin(sanayi:7,hizmet:10),ihtiyalarnnokzerindei-letmesermayesibulunmaktavekrediverecekkurumlartarafndanrisklibir yapy oluturmaktadr.almannsonularylagrldgibikarar aalar tekniiyle i-letmelerinbirbirlerinegrekonumlarortayakonmuvesektrdeikenini etkileyen en nemli deikenler saptanmtr. Snflandrmanngeniolmasvesonularngrselliivekolay yorumlanabilirolmasnedeniylebulgularkararaactekniininihtiyaca ynelik cevaplar ortaya karmakta etkili olduunu gstermektedir. Bununla birliktekararaalarylaortayakansonularfarklyntemlerdeverive deikenolarakdakullanlabilmektevebuyollayenibilgilereldeedilebil-mektedir. ALBAYRAK YILMAZ 50 2009 KAYNAKA 1.AGRAWAL, R., H. MANNILA, R. SRIKANT, H. TOIVONEN, ve A. I. VERKAMO,FastDiscoveryofAssociationRules,Advancesin KnowledgeDiscoveryandDataMining,AAAI/MITPress,Chapter 12, 1995. 2.AITKENHEAD,M.J.,ACo-EvolvingDecisionTreeClassification, Expert Systems with Applications, 34, No. 1, 2008. 3.AKPINAR,Haldun,VeriTabanlarndaBilgiKefiveVeriMadencili-i, stanbul niversitesi letme Fakltesi Dergisi, 29, No. 1, 2000. 4.ALTINIIK,Umut,renciBilgiSistemindeVeriMadenciliinin Uygulanmas,YaynlanmamYksekLisansTezi,Kocaeliniversi-tesi Fen Bilimleri Enstits, Kocaeli, 2006. 5.AYDOAN, Fatih, E-Ticarette Veri Madencilii Yaklamlaryla M-teriyeHizmetSunanAkllModllerinTasarmveGerekletirimi, Yaynlanmam Yksek Lisans Tezi, Hacettepe niversitesi Fen Bilim-leri Enstits, Ankara, 2003 6.BERRY,MichaelJ.,DataMiningTechniques:ForMarketing,Sales, andCustomerRelationshipManagement,JohnWileyandSons Incorporated, USA, 2004 7.BERSON,A.,S.SMITH,veK.THEARLING,BuildingDataMining Applications for CRM, McGraw Hill, USA, 1999. 8.DOAN, NurhanVe Kazm ZDAMAR, Chaid Analizi ve Aile Plan-lamasile lgiliBirUygulama,Trkiye KlinikleriTpBilimleri Der-gisi, 23, No. 5, 2003. 9.DOLGUN,M.zgr,TrkiyedekiHastanelerinVeriMadenciliiyle Gruplandrlmas,XI.BiyoistatistikKongresi,2730Mays,Malat-ya, 2008. 10.EDELSTEIN,Herb,MiningLargeDatabase-ACaseStudy,Two Crows Corporation, 2000. 11.ELDER,J.F.veD.PREGIPON,AStatisticalPerspectiveonKDD, The 1st International Conference on Knowledge Discovery and Data Mining, 2021 Austos, Montreal, s. 8793, 1995. 12.ERKEN,Arzum,BalcaFiyatBazlOranlarnHisseSenediGetirisi zerindeki Etkileri ve stanbul Menkul Kymetler Borsasnda Bir Uygu-lama,YaynlanmamYksekLisansTezi,AnkaraniversitesiSos-yal Bilimler Enstits, Ankara, 1998. 13.FAYYAD,Usama,GregoryPIATETSKY-SHAPIROvePadhraic SMYTH,FromDataMiningtoKnowledgeDiscoveryinDatabases, AI Magazine, 17, No.3, 1996. 14.FAYYAD,Usama,DataMiningandKnowledgeDiscoveryin Databases:ImplicationsforScientificDatabases,NinthInternational Veri Madencilii: Karar Aac Algoritmalar ve MKB Verileri 51 C.14, S.1 ConferenceonScientificandStatisticalDatabaseManagement,1113 Austos, Olympia, 1997. 15.FU,Yongjian,DataMiningTasks,TechniquesandApplications,No: 6648/97,IEEE, 1997. 16.GHOSH, A. ve B. NATH, Multi-Objective Rule Mining Using Genetic Algorithms, Information Sciences, 163, No. 13, 2004. 17.GROBLER,B.R.,T.C.BISSCHOFFveK.C.MOLOI,TheChaid-Technique and the Relationship between School Effectiveness and Vari-ousIndependentVariables,InternationalStudiesinEducational Administration, 30, No. 3, 2002. 18.HAN,J.veM.KAMBER,DataMining:ConceptsandTechniques, Morgan Kaufmann Publishers, USA, 2001. 19.HAND,David,HeikkiMANILAvePadhraicSYMTH,Principlesof Data Mining, The MIT Press, London, 2001. 20.HASTIE,T.,RTIBSHIRANI,veJ.FRIEDMAN,TheElementsof StatisticalLearning;DataMining,InferenceandPrediction,Springer Series in Statistics, USA, 2001. 21.HAUGHTON,DominiqueveSamerOULABI,Directmarketing modelingwithCARTandCHAID,JournalofDirect Marketing,11, No. 4, 1999. 22.HEGLAND,Markus,DataMiningTechniques,ActaNumerica, Cambridge University Press, 2001. 23.MAMOLU,Tuba,VeriMadenciliindeKararAalarileBir-renci Ders Baars Tahmin Arac, Yaynlanmam Yksek Lisans Tezi, Kocaeli niversitesi Fen Bilimleri Enstits, Kocaeli, 2005. 24.MKB (2007); www.imkb.gov.tr, (Eriim Tarihi:06.04.2007). 25.KLEISSNER,Charly,DataMiningforEnterprise,31stAnnual HawaiInternationalConferenceonSystemScrenes,10603425/98, 1998. 26.KOLTANYILMAZ,ebnem,VeriMadencilii:stanbulMenkul KymetlerBorsasrnei,YaynlanmamYksekLisansTezi(Da-nman:Yrd.Do.Dr.AliSaitALBAYRAK),ZKSBE,Zonguldak, 2008. 27.KOYUNCUGL, Ali Serhan, Borsa irketlerinin Sektrel Risk Profille-rininVeriMadenciliiyleBelirlenmesi,SermayePiyasasKuruluA-ratrma Raporu, Aratrma Dairesi, Ankara, 2007. 28.KOYUNCUGL,AliSerhanveNerminzglba,MKBdelem GrenKOBlerinFinansalBaarszlnaEtkiEdenFaktrlerinVeri Madencilii le Belirlenmesi, 3. KOB ve Verimlilik Kongresi, 1718 Kasm, stanbul, 2006. 29.LAROSE, Daniel T., Discovering Knowledge in Data: An Introduction to Data Mining, John and Wiley Sons Incorporated, USA, 2005. ALBAYRAK YILMAZ 52 2009 30.LAURA,Galguera,DavidLUNAveM.PazMENDEZ,Predictive Segmentation inAction: Using CHAID toSegmentLoyaltyCard Hold-ers, International Journal of Market Research, 48, No. 4, 2006. 31.MCCARTY,JohnA.veManojHASTAK,SegmentationApproaches inData-Mining:AComparisonofRFM,CHAIDandLogistic Regression, Journal of Business Research,60, No. 6, 2007. 32.MOSS,L.T.veS.ATRE,BusinessIntelligenceRoadmap:The CompleteProjectLifecycleforDecision-SupportApplications,Addi-son-Wesley Publishing, USA, 2003. 33.OLAFSSON,Sigurdur,XiaonanLIveShuningWU,OperationsRe-searchand DataMining,EuropenJournalofOperational Research, 187, No. 3, 2008. 34.ZEKES,Serhat,VeriMadenciliiModelleriveUygulamaAlanlar, stanbul Ticaret niversitesi Dergisi, 2, No. 3, 2003 35.IATETSKY-SHAPIRO, Gregory, Knowledge Discovery in Real Data-bases: A Workshop Report, AI Magazine, 11, No. 5, 1991. 36.PIRAMUTHU,Selwyn,EvaluatingFeatureSelectionMethodsfor LearninginDataMiningApplications,EuropeanJournalofOpera-tional Research, 156, No. 2, 2004. 37.ROIGER,R.J.veM.W.Geatz,DataMiningATutorial-Based Primer, Addison Wesley, USA, 2003. 38.SIMOUDIS,Evangelos,RealityCheckforDataMining,IEEEEx-pert: Intellegent Systems and Their Applications, 11, No. 5, 1996. 39.SPSS,AnwerTreeAlgorithmSummary,SPSSWhitePaper,USA, 1999. 40.SUN, Jie ve Hui LI, Data Mining Method for Listed Companies, Finan-cial Distress Prediction, Knowledge-Based Systems, 21, No. 1, 2008. 41.TRE,Mevlut,FsunTOKATLIvemranKURT,UsingKaplan-MeirerAnalysisTogetherWithDecisionTreeMethods(C&RT, CHAID,QUEST,C4.5andID3)InDeterminingRecurrence-Free SurvivalofBreastCancerPatients,ExpertSystemsWith Applications, Article in Pres, 2008. 42.VAHAPLAR,Alper,BirCorafiVeriMadenciliiUygulamas,Ya-ynlanmam Yksek Lisans Tezi, Ege niversitesi Fen Bilimler Ensti-ts, zmir, 2003. 43.VANDIEPEN,MerelvePhilipHansFRANSES,EvaluatingChi-SquaredAutomaticInteractionDetection,InformatonSystems,31, No. 8, 2006. 44.ZIARKO,W.,TheDiscovery,Analysis,andRepresentationofData DependenciesinDatabases,KnowledgeDiscoveryinDatabases, AAAI/MIT Press, 1991.