Upload
noipana
View
213
Download
1
Embed Size (px)
DESCRIPTION
65657
Citation preview
Karar Aalar Destekli Vadeli Mevduat Analizi Hakan Dalkl1, Feritah Dalkl1 1Dokuz Eyll niversitesi, Bilgisayar Mhendislii Blm, zmir [email protected], [email protected] zet:C4.5kararaalargnmzekadarbirokalandakullanlmtr.Bankaclk sektrndedekararaalarnndeiikproblemlerinzmndekullanldngrmek mmkndr. Bu almada zel bir bankann verileri analiz edilerek, bankamterilerivadeli mevduataaboneolupolmamadurumunagresnflandrlmtr.Snflandrma algoritmalarndanAccord.NetC4.5KararAac,WekaJ48,NaiveBayesveKstar algoritmalarfarklbyklktekiverisetlerizerindealtrlmveeldeedilensonular karlatrlmtr. Anahtar Szckler: Weka, Accord.Net, C4.5 Karar Aalar, Naive Bayes, Kstar Bank Deposit Analysis Based on Decision Tree Abstract: C4.5 decision tree algorithm has been used in many areas until today. The decision treeshavebeenalsousedinthesolutionofvariousproblemsofthebankingsector.Inthis study,datafromaparticularbankisanalyzedandthebank'scustomersareclassified according towhether they subscribeto term deposits.Accord.netC 4.5Decision Tree, Weka J48,NaiveBayesandKstaralgorithmswererunonthedatasetsofdifferentsizes,and obtained results were compared. Keywords: Weka, Accord.Net, C4.5 Decision Tree, Naive Bayes, Kstar1. Giri Gnmznrekabetipiyasakoullarnda, irketlerkazanlarnvekaroranlarn artrabilmekiindeiikkampanyalarve reklamlarilemterikitlesiniartrmaya almaktadr.Marketzincirlerinden, gayrimenkulirketlerine,on-linesat sistemlerinden,havayoluirketlerinebirok farklalandaverimadenciliiyntemleri kullanlarak,mteriverilerindenanlaml bilgilerkartlmaktavebubilgilernda hedefkitlebelirlenerekkampanya,reklam gibiuygulamalaragidilmektedir.Bankaclk sektrdeverimadenciliininenyaygn kullanld alanlardan birisidir. Verimadencilii,snflandrma (classification) ve regresyon (regression) gibi tahminedici(predictive)modellerdenve kmeleme(clustering),birliktelikkurallar (associationrules), ardkzamanl rntler (sequentialpatterns)gibitanmlayc (descriptive)modellerdenoluur.Bu almada,verimadenciliimodellerinden biriolansnflamamodelininKararAac, NaiveBayes,Kstartekniklerikullanlmtr. KararAacalgoritmalarndaniseC4.5 algoritmas tercih edilmitir. Snflandrmailesnftanmlanmmevcut verilerdenyararlanarak,snfbelliolmayan birverininsnftahminedilmektedir.Bu almada,birbankannverilerindenfarkl byklkteverisetlerioluturulmuvebu verisetlerizerindesnflandrmateknikleri uygulanarak,bankamterileri,vadeli mevduata abone olup olmama durumuna gre snflandrlmtr.Veribyklnn algoritmalarnbaarlarzerindekietkisi incelenmivealgoritmalarnbaarlar kyaslanmtr. 2. nceki almalar C4.5kararaacalgoritmas,Quinlan tarafndanID3algoritmasgeniletilerekve gelitirilerektasarlanmtrbirsnflandrma algoritmasdr[9].C4.5algoritmasnnID3 algoritmasndanstnzellikleri,hem saysalzniteliklerhemdekategorik zniteliklerilealabilmesi,renme verisindeki eksik verileri tolere edebilmesi ve renmesonucundaaacbudayarak sadeletirmesidir.C4.5algoritmasnn basitlii,verimliliivegvenilirlii,C4.5 algoritmasnmakinerenmesive snflandrmadaennemlialgoritmalardan birihalinegetirmitir.Yaplandrlmaa zerinde,yenidenyaplandrmannve iyiletirmeninzorolmasC4.5 Algoritmasnn bir dezavantajdr.
C4.5kararaalargnmzekadar, metinlerinkategorilenmesinden[12],tbbi tanretilmesine[11],spamtespitinden[13], uydugrntlerininsnflandrlmasna[10] birokalandakullanlmtr.Bankaclk sektrndedekararaalarnndeiik problemlerinzmndekullanldn grmekmmkndr.Bunlararnekolarak aadaki almalar verilebilir. WangveYang,karaparaaklamarisk kurallarnn belirlenmesi iinin'debir ticari bankamterilerininprofillerizerindekarar aalarnkullanmlardr.160binkayt arasndanrastgeleseilenyirmisekiz mteriyeaitdrtzellikkararaacnn oluturulmasndavedorulanmasnda kullanlmtr.retilenkurallarabalolarak tmmterilerin%12'sininyksekrisk grubundaolduusaptanmvebu mterilerin daha detayl takibe tabi tutulmas ngrlmtr [1]. Jiangvd.,C4.5kararaacvebenzetilmi tavlama (simulated annealing) algoritmalarn kullanarakyenibirkredideerlendirme ynteminermitir [2]. AlbayrakveYlmaz,MKB100endeksinde sanayivehizmetsektrlerindefaaliyet gsteren173iletmenin20042006yllarna aityllkfinansalgstergelerizerindekarar aalarnuygulamvefirmalarayranen nemli deikenleri saptanmlardr. [14] BozsikveKrmendi,aynandabyk verileribaarylasnflandrabilecekbirkredi kararsistemigelitirmeyiamalamveyeni bir karar aac versiyonugelitirmilerdir. 17 zellikkullanlarakyaplantestlerdeelde edileneniyisnflandrmadorulukoran %96ikenortalamadorulukoran%88,8 olmutur [3]. Dumanvd.,zelbirTrkbankasiinkarar aalarndakullanarakbirdolandrclk tespitsistemigelitirmitir.almaile mevcut dolandrclk tespit kurallarnda%80 oranndaelemeye,verilenuyarlarda%50 azaltmayagidilmesinekarn,dolandrclk giriimlerinin tespitinde %97 gibi bir baarya ulalmtr [4]. LangveSun,bankakrediriskierkenuyar problemizerinekararaacalgoritmasn uygulamtr.Deneyselsonular, karar aac algoritmasnndeikenverilerzerinde yksekhassasiyetgsterdiiniortaya karmtr [5]. Hergeengnburneklereyenialmalar eklenmekte,kararaalarenokkullanlan snflandrmatekniklerindenbiriolmaya devam etmektedir. 3. C4.5 Karar Destek Aac Karar aalarnda her bir znitelik, bir dm tarafndantemsiledilir.Dmler,kk dm(havadurumu),idmler(nem, rzgar)veudmlerden(evet,hayr) meydana gelir. Aayaps,eitimverisetiile oluturulduktansonra,yenigelenbirverinin snflandrlmasndakullanlr. Yeniveri,kk dmden balanarak, bir u dme ulaana kadaruygundallanmalaryapar.Herbiru dmekktenulalabilecektekbiryol bulunur.Ulalanudm,yeniverinin ngrlen snfna karlk gelir. Tablo 1. Hava durumu verisi Gn Hava Durumu ScaklkNemRzgr Tenis Oynama G1GneliScakYksekZayfHayr G2GneliScakYksekKuvvetliHayr G3BulutluScakYksekZayfEvet G4YamurluIlkYksekZayfEvet G5YamurluSoukNormalZayfEvet G6YamurluSoukNormalKuvvetliHayr G7BulutluSoukNormalKuvvetliEvet G8GneliIlkYksekZayfHayr G9GneliSoukNormalZayfEvet G10YamurluIlkNormalZayfEvet G11GneliIlkNormalKuvvetliEvet G12BulutluIlkYksekKuvvetliEvet G13BulutluScakNormalZayfEvet G14YamurluIlkYksekKuvvetliHayr ekil1de,Tablo1deverilmiolanhava durumuverisikullanlarakoluturulmuolan bir karar aac grlmektedir. ekil 1. rnek karar aac Snflandrlmasgerekenyenibirverinin znitelikdeerlerininYamurlu,Scak, nemorannnNormalverzgriddetinin Zayfolduunukabuledelim.Buveriiin kontrolkkdmdenbalayacakve Yamurludalndailerlenecektir.Bir sonrakidmdeRzgriddeti karlatrlacakveZayfolandalda ilerlemeyedevamedilecektir.Sonunda ulalanudmEvetdeerinesahip olduu iin bu verinin ngrlen snf Evet olacaktr. 3.1. Karar Aacnn Oluturulmas Kararaacoluturulurkenaadakiadmlar izlenir. 1.Adm:VerisetindenTrenmekmesi oluturulur. 2.Adm:Verisetindekienayrtedicinitelik belirlenir ve aacn kk olarak alnr. Kararaalaroluturulurken,aataki dallanmalarn hangi nitelie ve hangi nicelie greolacannbelirlenmesigerekmektedir. ID3,C4.5gibikararaacalgoritmalarnda enayrtediciniteliibelirlemekiin,herbir nitelikiinBilgiKazanc(InformationGain) hesaplanr[9].BilgiKazancnn hesaplanmasndaEntropikullanlr.Entropi, bir sistemdeki belirsizliin veya dzensizliin lsdr. Birverisetinin{C1,C2,.,Ck}eklinde birden fazla snftan olutuunu ve Tnin snf deerlerini gsterdiini dndmzde, bir snfaaitolaslkPi=(Ci/|T|)olurvesnflara ait entropi Forml 1 ile hesaplanr. = nii ip p12) ( log = Entropi(T)(1) Veri setindekiAzniteliinegreT snfnn deerleriT1,T2,,Tn eklindealtkmelere ayrldnvarsayalm.Aznitelikdeerleri kullanlarakTsnfdeerlerininblnmesi sonucunda elde edeceimiz kazanc hesaplamak iin Forml 2 kullanlr. ) Entropi(T Entropi(T)= A) Kazan(T,i = =niiTT1 (2) TkmesiiinAzniteliinindeerini belirlemekiinForml3ilehesaplanan blmleme bilgisi kullanlr. ||.|
\| = =TTTTikii21log= ) Bilgisi(A Blmleme (3) Son olarak, kazan oran Forml 4 ile elde edilir. ) Bilgisi(A BlnmeA) Kazan(T,= Oran Kazan (4) Kazanoran,snflandrmaileminde kullanacamzayrmaileeldeedilenbilgi orannverir.Kazanoranenyksekolan znitelik, dallanma iin tercih edilecek nitelik olacaktr. 3.Adm:AacnocukdmolanA dmneaitaltverikmesibelirlenir.Her altkmeiintekrarbilgikazanc hesaplanarak en ayrt edici zellik belirlenir. Builemlerherdmiinaadaki durumlardanbirioluuncayakadardevam eder: -rneklerin hepsinin ayn snfa ait olmas -rnekleriblecekzellikkalmam olmas -Kalanzelliklerindeerinitayanrnek bulunmamas Kararaacnnoluturulmasndansonra, Budamailemiilekararaacnn snflandrmadoruluunuetkilemeyenveya katksolmayanblmlerikartlr.Bylece grltlverilerelenmi,dahabaarlve karmakldahaazolanbiraaelde edilmi olur. 3.2. Baar Deerlendirme lekleri Yenibirveri,snflandrmaalgoritmasndan geirildiindeeldeedilensonu,ngrlen snfnvedorusnfndeerinegreTablo 2deverilendrtkmedenbirindeyer almaktadr. Tablo 2. Snflandrma sonu kmeleri,TP (True Positive), FN (False Negative),FP (False Positive), TN (True Negative) ngrlen Snf (Predicted Class) Doru Snf (Actual Class) Snf=1Snf=0 Snf=1(a)TP(b)FN Snf=0(c)FP(d)TN Snflandrmaalgoritmalarnnbaars, model baar deerlendirme lekleri ile ifade edilir.Aadabultlerksaca aklanmtr.
FN FP TN TPTN TPDogruluk+ + ++= (1) Doruluk(Accuracy),dorusnflandrlm rneksaysnn,tmrneklerinsaysna orandr. FN FP TN TPFN FPOrani Hata+ + ++= _ (2) HataOran(ErrorRate),yanl snflandrlmrneksaysnn,tm rneklerin saysna orandr. FP TPTPKesinlik+= (3) Kesinlik(Precision),dorusnflandrlm pozitif rnek saysnn, pozitif snflandrlm rneklerin saysna orandr. FN TPTPAnma+=(4) Anma(Recall),dorusnflandrlmpozitif rneksaysnn,pozitifrneklerinsaysna orandr. Kesinlik AnmaKesinlik Anmalt F+ =2_ (5) F-lt(F-Measure),AnmaveKesinlik deerlerinin harmonik ortalamasdr. 4. Vadeli Mevduat Analizi 4.1 Veri Seti Bualmadakullanlanveriler,zelbir bankanntelefonladorudanpazarlama kampanyalarndaneldeedilenkaytlarndan olumaktadr [1]. Veri setinde 45.211 kayt ve 17 zellikbulunmaktadr. Mterilerinvadeli mevduataaboneolmabilgisihedefzellik olarakkullanlmaktadr.Buzellik39.922 kayttahayr(no),5.289kayttaevet (yes) deerinesahiptir.Analiziin kullanlan mteriverisetininierdiizelliklerTablo 3de verilmitir. Tablo 3. Vadeli Mevduat Veri Seti zellikleri zellikTrDeer Ya (Age)Saysal (Job)KategorikRetired Student Technician Etc. Medeni Durum (Marital Status) KategorikDivorced Married Single Unknown Eitim (Education)Kategorik Kredi dyor mu? (Default) KategorikYes, No,Unknown Bakiye (Balance)Saysal Konut Kredisi dyor mu? (Housing) KategorikYes, No,Unknown Borcu Var m?(Loan) KategorikYes, No,Unknown letiim ekli (Contact) KategorikCellular, Telephone Son letiim Salanan Gn (Day) KategorikMonday- Friday Son letiim Salanan Ay (Month) KategorikJanuary- December Grme Sresi (Duration) Saysal Grme Says (Campaign) Saysal Son Grmenin zerinden Geen Gn Says (Pdays) Saysal Eski Kampanyalar iin Grme Says (Previous) Saysal Bir nceki Pazarlama Kampanyasnn Sonucu (Poutcome) KategorikFailure Nonexistent Success Vadeli mevduata abone olma KategorikYes, No 4.2 Snflandrmada Kullanlan Aralar Bualmada,verilerinsnflandrlmas amacylaWeka[7]veAccord.Net Framework[8]verimadenciliiaralar tercihedilmitir.Herikiaradahancepek okbilimselveakademikalmada kullanlmtr.Weka:Weka (WaikatoEnvironmentfor KnowledgeAnalysis),Waikato niversitesinde,Javaprogramlamadiliyle gelitirilmiveticariamagtmeden(GNU GeneralPublicLicense)kullanmasunulmu biruygulamadr.Weka,ierisindebirok snflandrmametodubarndranbirveri madenciliiaracdr.Bualmada,Weka 3.7.11 gelitirici srm kullanlmtr. Accord.NETFramework:Accord.Net, VisualStudio.NETortamnda,bilimsel hesaplama iin ara ve ktphaneler salayan biruygulamaiskeletidir.Buktphaneler ekiltanma,istatistikiveriileme,makine renmesigibibilimselhesaplama uygulamalarnngenibiralannkapsar.Bu almada,Accord.NETFramework2.13 srmkullanlmtr.Buframework kullanlarak,testilemlerinin gerekletirileceigrselbirarayz uygulamas hazrlanmtr. 5. Deneysel almalar almadaama,mterilerin,veritabannda bulunanya,i,medenidurum,eitim durumuvebunabenzer16zelliini kullanarak,vadelimevduataparayatrp yatrmamadurumlarntespitetmektir. Deneyselalmalargerekletirmek amacylaverisetiierisinden1.000,5.000, 10.000, 20.000 ve 40.000 kayttan oluan veri gruplaroluturulmutur.Verininsnflara dalmnn,herverisetiiinorantl olmasnazengsterilmitir.Veriboyutunun bymesininkararaalarnnbaars zerindeki etkisi incelenmitir. Mterilerinsnflandrlmasiin,Weka ortamndabulunanveC4.5kararaac algoritmasnngerekletirimiolanJ48 algoritmasveAccord.netframework tarafndansalananC4.5algoritmas kullanlmtr.Kararaalarnnbaarsn karlatrmakiin,yineWekaortamnda bulunanNaiveBayesveKstaralgoritmalar aynverisetlerizerindedenenmitir.Test yntemiolarakWekaalgoritmalariin10-kataprazdorulama(10-foldcross validation),Accord.netC4.5algoritmasiin karklkmatrisi(confusionmatrix)kullanlmtr.EldeedilensonularTablo4, 5, 6 ve 7de gsterilmitir. Sonulargstermektedirki,kararaac algoritmalargenelolarakNaiveBayesve Kstaralgoritmalarnagredorulukve kesinlikoranlarbakmndandahastndr. Accord.NetC4.5veWekaJ48 algoritmalarnnbaaroranlarbirbirine yaknolsada1.000ve5.000likveriseti zerindeAccord.NetC4.5algoritmas, 20.000ve40.000likverisetizerindeise Weka J48 algoritmas daha baarldr. 6. Sonu ve neriler Kararaacalgoritmalarnnbaars, kullanlan veri seti, bu veri setinin bykl vealgoritmanngerekletiriminegre farkllklargstermektedir.Bualmada,kararaalarNaiveBayesveKstar algoritmalarnagredahabaarlsonular retmilerdir. Snflandrmaalgoritmalar,bualmada deinilenrnekproblemdeolduugibi, kampanyalarnhedeflediipotansiyel mterilerintespitedilmesindevedoru kitleyehitapedilmesindenemlibiryol gstericidir.Farklalgoritmalarbirarada kullanlarak yksek baar oranlarna ulamak mmkndr. Tablo 4. Accord .Net sonular C 4.5 Karar Aac Tablo 5. Weka Sonular J48 Tablo 6. Weka Sonular Naive Bayes Tablo 7. Weka Sonular Kstar Veri SetiTPTNFPFNDorulukKesinlikAnma F-lt 1.000126865090,9911,0000,9330,966 5.0004724.39731280,9740,9940,7870,878 10.0008788.767333220,9650,9640,7320,832 20.0001.57217.4141868280,9490,8940,6550,756 40.0002.07934.5536472.7210,9160,7630,4330,552 Veri SetiTPTNFPFNDorulukKesinlikAnmaF-lt 1.0001038791170,9820,9900,8580,920 5.0004844.370301160,9710,9420,8070,869 10.0009468.711892540,9660,9140,7880,847 20.0001.82617.3542465740,9590,8810,7610,817 40.0003.05534.1671.0331.7450,9310,7470,6360,687 Veri SetiTPTNFPFNDorulukKesinlikAnmaF-lt 1.00010686218140,9680,8550,8830,869 5.0005174.31189830,9660,8530,8620,857 10.0009628.6471532380,9610,8630,8020,831 20.0001.57217.4511498280,9510,9130,6550,763 40.0002.76332.3632.8372.0370,8780,4930,5760,531 Veri SetiTPTNFPFNDorulukKesinlikAnmaF-lt 1.000608737600,9330,8960,5000,642 5.0003564.358422440,9430,8940,5930,713 10.0007868.707934140,9490,8940,6550,756 20.0001.31117.3402601.0890,9330,8350,5460,660 40.0001.83134.3698312.9690,9050,6880,3810,491 7. Kaynaklar [1]Wang,S.N.,Yang,J.G.,"AMoney LaunderingRiskEvaluationMethodBased OnDecisionTree",6thInternational ConferenceonMachineLearningand Cybernetics, Hong Kong, 283 - 286 (2007) [2]Jiang,Y.,Chen,Y.,Zeng,Z.veHe,X., "ABankCustomerCreditEvaluationBased ontheDecisionTreeandtheSimulated AnnealingAlgorithm",8thIEEE InternationalConferenceonComputer andInformationTechnology,Sydney, NSW, 203 - 206 (2008) [3] Bozsik, J., Krmendi, G., "Decision Tree-basedCreditDecisionSupportSystem",3rd IEEEInternationalSymposiumon LogisticsandIndustrialInformatics, Budapest, Hungary, 189 - 194 (2011) [4]Duman,E.,Buyukkaya,A.,Elikucuk,., "ANovelandSuccessfulCreditCardFraud DetectionSystemImplementedinaTurkish Bank",13thInternationalConferenceon Data Mining Workshops, Dallas, TX, 162 - 171 (2013) [5]Lang,J.,Sun,J.,"Sensitivityofdecision treealgorithmtoclass-imbalancedbank creditriskearlywarning",7thInternational JointConferenceonComputational SciencesandOptimization,Beijing,539- 543 (2014) [6]Moro,S.,CortezP.,Rita.P.,"AData-DrivenApproachtoPredicttheSuccessof BankTelemarketing",DecisionSupport Systems, Elsevier, 62:22-31 (2014) [7] Witten, I.H., Frank E., Trigg L., Hall M.,HolmesG.,CunninghamS.J.,"Weka: PracticalMachineLearningToolsand TechniqueswithJava",ComputerScience Working Papers, 99/11 (1999) [8]Souza,C.R.,"ATutorialonPrincipal ComponentAnalysiswiththeAccord.NET Framework",DepartmentofComputing, FederalUniversityofSaoCarlos. arXiv:1210.7463. Technical Report (2012) [9]QuinlanJ.R.,C4.5:Programsfor MachineLearning,MorganKaufmann,San Mateo, CA, (1993) [10]Kavzolu,T.,lkesen,.,Karar aalarileuydugrntlerinin snflandrlmas:Kocaelirnei",Harita TeknolojileriElektronikDergisi,2(1),36-45, (2010). [11]Zhou,Z.H.,JiangY.,"Medical DiagnosiswithC4.5RulePrecededby ArtificialNeuralNetworkEnsemble",IEEE TransactionsonInformationTechnology in Biomedicine, Vol. 7, No. 1, 37-42 (2003) [12]Gabrilovich,E.,Markovitch,S.,"Text CategorizationwithManyRedundant Features: Using Aggressive Feature Selection to Make SVMs Competitivewith C4.5",The Twenty-FirstInternationalConferenceon Machine Learning, 321-328, (2004) [13]Krasser,S.,Yuchun,T.,Gould,J., Alperovitch,D.,Judge,P.,"Identifying ImageSpamBasedonHeaderandFile PropertiesusingC4.5DecisionTreesand SupportVectorMachineLearning", InformationAssuranceandSecurity Workshop,IAW'07.IEEESMC,pp.255-261, New York, (2007) [14]Albayrak,A.S.,Ylmaz,.K.,"Veri Madencilii:KararAacAlgoritmalarVe MKBVerilerizerineBirUygulama", SleymanDemirelniversitesiktisadive dariBilimlerFakltesiDergisi,14(1)s.31-52 (2009)