43
1. VERİ MADENCİLİĞİNE GİRİŞ 1.1 Veri Madenciliği Nedir? Bilgisayar sistemleri, her geçen gün ucuzlaması ve güçlerinin giderek artması nedeniyle yaşamın her alanına hızla girmektedir. İşlemcilerin hızlanması, disk kapasitelerinin artması, bilgisayar ağlarındaki ilerleme sonucu her bir bilgisayarın başka bilgisayarlardaki verilere ulaşması olanağı, bilgisayarların çok büyük miktardaki verileri saklayabilmesine ve daha kısa sürede işleyebilmesine olanak sağlamaktadır. Teknolojinin büyük hızla gelişmesi sonucu bu şekilde durmadan büyüyen ve işlenmediği sürece değersiz gibi görünen veri yığınları oluşmaktadır. Bu veri yığınlarını, içlerinde altın madenleri bulunan dağlara benzetmek mümkündür. Bu madenlere ulaşmak için kullanılan yöntem ise, temelinde istatistik uygulamaları yatan “VERİ MADENCİLİĞİDİR”. Veri madenciliği en basit tanımı ile çok büyük miktardaki ham veriler içinden amaca uygun modellerin ortaya çıkarılması işlemidir. Başka bir tabirle karmaşık ve düzensiz veriler içindeki modellerin ortaya çıkarıp bunları karar verme ve eylem planını gerçekleştirmek için kullanma sürecidir. Veri içersindeki gizli bilgilerin açığa çıkarılması ve verinin karar destek tabanlı bilgiye dönüştürülmesi süreci. Verileri kaydetmek, yalnızca maden yataklarının yerlerini tespit etmektir. Bu veriler operasyonel amaçlarla kullanılırsa (satış rakamları ile ilgili raporlar hazırlamak, muhasebe işlemlerini yürütmek gibi) müşteri ilişkileri açısından bir çöp olmaktan ileriye gidemezler. Veri çöplüğünden kurtulup değerli bir veri madenine sahip olmak için elimizdeki bu bilgileri değerlendirmemiz şarttır. Bir altın madeninde kazı yapacak olsanız, altını çıkarmak için ekonomik değeri olmayan bir sürü madde içerisinden altını çıkartmanız, ve çıkardığınız bu altını işleyerek ona değer katmanız gerecektir. Bir veri madeninde değerli bilgiler ararken de durum pek farklı değil, gerekli bilgiyi çıkarıp, daha sonrasında da bu bilgiyi işlemek için stratejiler uygulamazsak sonuca ulaşmamız mümkün değil Veri madenciliği tanımlarda öne çıkan noktalar şunlardır: Veri Madenciliği; 1- Büyük ve karmaşık verilerle çalışır. 2- Her türlü veriyi kullanarak çözümler üretebilir. 3- İstatistik, yapay zeka, makine öğrenmesi, Veri tabanlarında bilgi keşfi, bilgisayar bilimi, yapı tanıma vb. gibi disiplinlerden faydalanır. 1

6Bolum

  • Upload
    noipana

  • View
    221

  • Download
    4

Embed Size (px)

DESCRIPTION

6. bolum

Citation preview

1. VER MADENCLNE GR1.1 Veri Madencilii Nedir?Bilgisayar sistemleri, her geengnucuzlamas vegleriningiderekartmasnedeniyle yaamn her alanna hzla girmektedir. lemcilerin hzlanmas, diskkapasitelerinin artmas, bilgisayar alarndaki ilerleme sonucu her bir bilgisayarn bakabilgisayarlardaki verilereulamasolana, bilgisayarlarnok bykmiktardakiverilerisaklayabilmesine ve daha ksa srede ileyebilmesine olanak salamaktadr. Teknolojininbykhzlagelimesi sonucubuekildedurmadanbyyenveilenmediisrecedeersiz gibigrnen veriynlarolumaktadr. Bu veriynlarn,ilerinde altn madenleri bulunan dalara benzetmek mmkndr. Bu madenlere ulamakiin kullanlan yntem ise, temelindeistatistik uygulamalaryatan "VERMADENCLGDR. Veri madencilii en basit tanm ile ok byk miktardaki ham veriler iinden amacauygunmodellerinortayakarlmas ilemidir.Bakabir tabirlekarmakvedzensizveriler iindeki modellerin ortaya karp bunlar karar verme ve eylem planngerekletirmek iin kullanma srecidir. Veri iersindeki gizli bilgilerinaakarlmas veverininkarardestektabanlbilgiye dntrlmesi sreci.Verileri kaydetmek, yalnzca maden yataklarnn yerlerini tespit etmektir. Bu verileroperasyonel amalarla kullanlrsa (sat rakamlar ile ilgili raporlar hazrlamak, muhasebeilemlerini yrtmek gibi) mteri ilikileri asndan bir p olmaktan ileriye gidemezler.Veri plndenkurtulupdeerli bir veri madenine sahipolmakiinelimizdeki bubilgileri deerlendirmemiz arttr.Bir altnmadenindekaz yapacakolsanz, altn karmakiinekonomikdeeriolmayan bir sr madde ierisinden altn kartmanz,ve kardnz bu altn ileyerekona deer katmanz gerecektir. Bir veri madeninde deerli bilgiler ararken de durum pekfarkldeil, gereklibilgiyikarp, daha sonrasnda da bu bilgiyiilemek iin stratejileruygulamazsak sonuca ulamamz mmkn deilVeri madencilii tanmlarda ne kan noktalar unlardr: Veri Madencilii; 1- Byk ve karmak verilerle alr. 2- Her trl veriyi kullanarak zmler retebilir. 3- statistik, yapayzeka, makinerenmesi, Veri tabanlarndabilgi kefi, bilgisayarbilimi, yap tanma vb. gibi disiplinlerden faydalanr. 4- Daha nceden bilinmeyen, dorulanabilir, etkinletirilebilir enformasyon arar. 5- Otomatik veya yar otomatik olarak alan zm aralar kullanr. 6- Birok endstride kullanlmaktadr. 7- Sorunlara gre deien zm aralar vardr.1 8- Hzla bymekte olan bir sektrdr.1.2 Veri Madenciliinin Tarihesinsanolu gemiten bugne her zaman verileri yorumlayp bilgi edinmeye almtr vebunun iin eitli donanmlar oluturmutur. Bu donanmlar bilginin tanmasnsalamtr. Zamanla her alanda bilgi toplanmaya balanm ve kronolojik olarak geliimiaadaki izelgede zetlenmitir. (izelge aldana 2000den alnmtr)1. Veri !adenciliine neden ih"i#a d$#$l!$%"$r?Gnmzde bankaclk, sigorta ve borsa gibi birok alandaki btn bilgilerbilgisayar sistemleri sayesinde eitli veri tabanlarna kaydedilmektedir. Btn bunlara birde uydulardan elde edilen veriler katldndan, ulalan veri hacminin inanlmaz boyutlaravard ak bir gerektir. Veri madencilii,eldeki yapsz veriden,anlaml ve kullanl bilgiyikarmayaynelikalmalarnnbtnolmutur.Sonuolarakyllarilerledikeortayakan veri ynlarna bir dzen verme,baka bir anlamda potansiyel olarak kullanl bilgihaline getirme amacyla Veri Madencilii ortaya kmtr.1.& Veri !adenciliinin '$llan(ld(( sahalarSat ve Pazarlama: Mteri snflandrma, hedef mteri belirlemeBankaclk: Kredi onaylamaSigortaclk: Polie onaylamaBorsaretim ve planlamaSistem ynetimi ve yardm masasEitim Tamaclk-UlamKonaklama21.) Veri Madenciliinin *a#dalar(Verimadenciliirekabetin olduka glendiipiyasalarda, firmalarn konumlarnsalamlatrmak adna birtakm deerlerinin ynetilmesinde byk rol oynamaktadr. Budeerlerin banda mteri bilgileri gelmektedir.Maddeler halinde veri madenciliinin faydalarndan bahsetmek gerekirse.. Mterilerin elde tutulmasna yardmc olur. Mteri profilininortayakarlmasn salar,busayedemteri davranlarnnanlalmasn salar. Mteri kazanm iin yaplan harcamalar drr. Yksek kazan getirecek mterilerin hedeflenmesine yardmc olur. Yaplan aratrmalarda daha kolay yntemler kullanlmasileyaplan harcamalarminimize edilmi olur. Aratrma maliyeti kullanlan istatistiksel yntemlerlehissedilir derecede drlr. Sigortaclk, bankaclk ve telekomnikasyon alanlarnda gemi veriler kullanlaraksahtekarlk yapanlar iin bir model oluturma ve benzer davranlar gsterenleribelirleme konusunda veri madenciliinin nemli rollerinin olduunu syleyebiliriz.rnek; Araba sigortas, salk sigortas, kredi kart bavurusu yapanlarn gemialkanlklarnn incelenerek bavurunun kabul edilmesi veya reddedilmesi gibi.1.+ Veri Madenciliinde'i ,r-.le!lerVeri madenciliigirdi olarak ham veriyi salamak zere veri tabanlarna dayanr.Bu da veri tabanlarnn dinamik, eksiksiz, yeterli sayda ve net veri iermemesidurumunda sorunlar dourur. Snflandrmak gerekirse balca sorunlar unlardr: Snrl bilgi Veri taban boyutu Aykr ve eksik veriler /(n(rl( 0il1i2 Veri tabanlar genel olarak basit renme ilerini salayan zellik veyanitelikleri sunmak gibi amalar iin hazrlanmlardr. Bu yzden, renme grevinikolaylatracak baz zellikler bulunmayabilir. rnein, hasta veri taban krmz kanhcreli hasta bilgilerini barndrmyorsa hasta veri tabanndan stma tehisiyaplamaz.

Veri "a.an( .-#$"$2 Veri taban boyutlar inanlmaz bir hzla artmaktadr. Veri tabanalgoritmasok sayda kk rneklemiele alabilecek biimde gelitirilmitir. Aynalgoritmalarnyzlercekat bykrneklemlerdekullanlabilmesi iinokdikkatgerekmektedir. rneklemin byk olmas, tahminlerin doruluu asndan biravantaj olsa da dikkatsizlikten kaynaklanacak hatalar gz ard edilemez. A#'(r( 3eri2Veri girii veyaveri toplanmas srasndaoluansistemd hatalaragrlt ad verilir. Verilerde ne kadar ok grlt varsa o derece gvenilir sonularaulamak zorlaacaktr. Bu grltler gelecee dair tahminlerin doruluununazalmasna neden olur. Grltl verilerden kurtulmak iin yanl, ok fazla ya daokkkaratrmalaradair tutarszbilgiler yerineanlaml, zmsenmibilgilerkullanlmaldr.Grltlverilerintehisedilmesi amacylahistogram, kmelemeanalizi ve regresyon kullanlr.3 E'si' 3eri2Veri kmesininbyklndenyadadoasndan kaynaklanmaktadr.Eksik veriler olduunda yaplmas gerekenler unlardr: Eksik veri ieren kayt veya kaytlar karlabilir. Deikenin ortalamas eksik verilerin yerine kullanlabilir. Var olan verilere dayal olarak en uygun deer kullanlabilir. Eksik veriler, yaplacak olan istatistiksel analizlerde nemli problemleryaratmaktadr. nk istatistiksel analizler ve bu analizlerin yaplmasna olanak verenilgili paket programlar, verilerin tmnn var olduu durumlar iin gelitirilmitir. Buanalizler,eksik veri ieren verisetlerineuygulandklarnda istatistikleringeerliliinidrmektedir. 2. VER TA0AN4NDA 0LG 5E* /6REC2.1 Veri Ta.an( 5a3ra!(Veri tabannda bilgi kefi, verilerin doru, faydal ve anlalr modeller vekalplarelde etmede kullanlan zel bir sretir.Veri taban, sistematik eriimimkan olan, ynetilebilir, gncellenebilir, tanabilir,birbirleri arasnda tanml ilikiler bulunabilen bilgiler kmesidir. Belirli bir amaca ynelikdzen verilmi kayt ve dosyalarn tmdr.rnein; Bilgisayarnzda dzenlenmi arkada adresleri. Belirli bir sraya gre topladnzmektuplarnz birer veri tabandr.Veri tabannn genel zellikleri Veritabanlar, gerekdnyannbelli bir asn temsil edendahakkbirdnyadr. Veritaban mantksal erevede birbiriyle tutarl bir veri topluluudur. Bu haliylerasgele toplanm yani belirli bir sralama veya gruplama yaplmam bilgilereveritaban demek doru deildir. Veritaban ncedenbelirlenmibiramacahizmetetmekzeretasarlanr veyaplr. Veritaban, herhangi bir byklkte ve karmaklkta olabilir. Veritaban elle veya bilgisayar ile oluturulup idare edilebilir.Veri tabann faydalar Herhangi bir evrak saklamaya gerek kalmaz. Makineler bilgileridaha abuk gncelletirebilirler. Bu nedenle ok daha hzlolur. Yalnzca istediimiz bilgiye istediimiz zaman ve istediimiz gibi ulaabiliriz. Verilerin merkezi kontrol salanr. Veri tekrar azalr. Tutarsz (hatal) bilgiler nlenir. Verinin paylam salanr. Btnlk salanr. Genel veya zel raporlar alnabilir. 4yi bir veri tabannn zellikleri Veriler hzl ve kolay girilebilmeli. Gvenli bir ekilde saklanmal. stenildii ekilde ve kolay sorgulanmal.Veri tabanlarnda bilgi kefi; verilerden Doru Yeni Faydal Anlalrmodeller ve kalplar elde etmede kullanlan zel bir sretir.Butanmdaki "zel birsreifadesindendeanlalaca gibi Veri TabanlarndaBilgi Kefi Sreci(VTBK), karmakbir ilemdir."Model eldeetmekilekastedilenise,verilere model uydurmak, verilerden yaportaya karmak veya genelbir ifadeyle, verikmesine yksek dereceli aklama getirmektir"Sre ise, VTBKnin birok admdan ve eitli iterasyonlardan olutuunugstermektedir. Bilgi kefinin belirli bir gven dzeyinde, yeni veriler iin geerli olmas,sre sonunda elde edilen bilginin ise, i konusunda eitli avantajlara olanak salayacakekilde faydal ve anlalr olmas gerekmektedir.Geleneksel sorguveyaraporlamaaralarnnveri ynlar karsndayetersizkalmas,Veri Ta.anlar(nda0il1i 5e%7i8VT05ad altnda, srekli ve yeni araylara nedenolmaktadr. ekil 1 de grlen VTBK sreci ierisinde, modelin kurulmas ve5Veri madencilii buradaki modelin kurulmas ve modelin deerlendirilmesi aamalarndan meydana gelmektedir.ekil 1ProblemintanmlanmasProblemintanmlanmasVerilerin hazrlanmasVerilerin hazrlanmasModelin kullanlmasModelin kullanlmasVeri madenciliiModelin izlenmesiModelin izlenmesiModelinkurulmas vedeerlendirilmesiModelinkurulmas vedeerlendirilmesideerlendirilmesi aamalarndan meydanagelenVeri Madencilii(Data ining!ennemli kesimi oluturmaktadr. Veri tabanlarnda bilgi kefi ilemleri, son yllarda veri tabanna sahipevrelerdebykilgi toplamaktadr.Bunlararnekolarakbykmarketler,bankalar, sosyal gvenlik kurulular gsterilebilir. Bu tr byk veritabanlarnda ama, bu byk veri kmelerini analiz edip, faydalkalplara vebilgilere ulamaktr. 2.2 Veri "a.an(nda .il1i 'e%7i s9recinin e3releri Problemin tanmlanmas Verilerin Hazrlanmas, Modelin Kurulmas ve Deerlendirilmesi, Modelin Kullanlmas, Modelin zlenmesi 2.2.1 ,r-.le!in Tan(!lan!as( Verimadenciliialmalarnda baarlolmann ilk art, uygulamann iletmeninhangi amac iin yaplacann ak bir ekilde tanmlanmasdr. lgili iletmenin amacveproblemi zerineodaklanlmvebunlarakbirdilleifadeedilmiolmal, eldeedilecek sonularn baar dzeylerinin nasl llecei tanmlanmaldr. Ayrca yanltahminlerde katlanlacak olan maliyetlere ve doru tahminlerde kazanlacak faydalarailikin tahminlere de bu aamada yer verilmelidir. 2.2.2 Verilerin :a;(rlan!as(Modelin kurulmas aamasnda ortaya kacak sorunlar, bu aamaya sk sk geridnlmesineveverilerinyenidendzenlenmesinenedenolacaktr.Budurumverilerinhazrlanmas ve modelin kurulmas aamalar iin, bir analistin veri kefi srecinin toplamierisinde enerji ve zamannn % 50 - % 85ini harcamasna neden olmaktadr. Verilerin hazrlanmas aamas u aamalardan meydana gelmektedir; Toplama, Deer bime, Birletirme ve temizleme, rneklem seimi, Dntrme,a) T-RNE5+: Elimizde tenis mann oynanp oynanmamasna dair bir bilgi olduunudnelim. Ancak bu bilgiye gre tenis mann oynanmasveya oynanmamasdurumukaydedilirken o ankihava durumu, scaklk, nem ve rzgar durumu bilgileride alnmolsun. Biz bu bilgileri deerlendirdiimizde varsaylan tahmin yntemleri ile hava bugnrzgarl tenis ma bugn oynanmaz eklinde kararlar farknda olmasak da veririz. Ancakveri madencilii bu kararlarn tm kriterlerin etkisi ile verildii bir yaklamdr. Dolaysylabiz ileride rettiimiz sisteme bugn hava gneli, scak, nemli ve rzgar yok eklindebir bilgiyi verdiimizde sistem eitildii daha nce gereklemi istatistiklerdenfaydalanarak tenis mann oynanma ve oynanmama ihtimalini hesaplar ve bize tahmininibildirir.>RNE5 D: Salk sektrnde bir kiinin tahlil sonularnn deerlendirilerek bir hastalayakalanm olup olmama olaslnn deerlendirilmesinde de ska kullanlmaktadr.Bulank MantkEBelirsizliklerin anlatm ve belirsizliklerle allabilmesi iin kurulmu kat birmatematikdzenolaraktanmlanabilir.Bilindii gibi istatistikteveolaslkkuramnda,belirsizliklerle deil kesinliklerle allr ama insann yaad ortam daha okbelirsizliklerle doludur. Bu yzden insanolunun sonu karabilme yeteneinianlayabilmek iin belirsizliklerle almak gereklidir. Bulank mantn uygulama alanlarokgenitir.Salad enbykfaydaise"insanazgtecrbeilerenme"olaynnkolayca modellenebilmesi ve belirsiz kavramlarn bile matematiksel olarak ifadeedilebilmesine olanak tanmasdr. Bu nedenle lineer olmayan sistemlere yaklamyapabilmek iin zellikle uygundur. Bulank mantk konusunda yaplan aratrmalarJaponya'da olduka fazladr. zelliklefuzzy process controller olarakisimlendirilen zelamal bulankmantkmikroilemci ipi' ninretilmesineallmaktadr.Buteknolojifotoraf makineleri, amar makineleri, klimalar ve otomatik iletim hatlar gibiuygulamalarda kullanlmaktadr. Bundan baka uzay aratrmalar ve havaclkendstrisinde de kullanlmaktadr. TAI'de aratrma gelime ksmnda bulank mantkkonusunda almalar yaplmaktadr. Bellek Tabanl YntemlerE12Bellek tabanl veya rnek tabanl bu yntemler istatistikte 1950li yllarda nerilmiolmasnaramenoyllardagerektirdii hesaplamavebellekyzndenkullanlamamama gnmzde bilgisayarlarn ucuzlamas ve kapasitelerinin artmasyla, zellikle de okilemcili sistemlerin yaygnlamasyla, kullanlabilir olmutur. Bu ynteme en iyi rnek enyakn k komu algoritmasdr. En yakn komu yaklam, x noktasnn snfn, x noktasnaenyaknolannoktannsnf olarakbelirlemeyaklamdr.Snf belirlenennoktailekomu nokta ayn snfa ait deiller ise hata sz konusudur. Bu yaklam sadece en yaknkomu ile snflandrma yapar, nceden snflandrlm dier noktalar nemsemez. &.2 Tan(!la#(c( !-dellerTanmlayc modellerde; ise karar vermeye rehberlik etmede kullanlabilecek mevcutverilerdeki rntlerin tanmlanmassalanmaktadr. Tanmlaycmodeller kmeleme vebirliktelik kurallardr.4.2.1 59!ele!e F?n"e!iNesneleri benzerleriyle gruplama srecine kmeleme denir. "Kmeleme analizi,temel amac nesneleri (birim) sahip olduklar karakteristik zellikleri baz alarakgruplamakolanokdeikenli teknikler grubudur (Hair vd,1995). Elimizdeki verileryardmyla analiz yaparken, verimli ve gvenilir analiz yapma asndan kmeleme analiziolduka byk bir nem tamaktadr. rnein Trkiyedekiehirlerin profilinikarmakzerebir aratrmayapyorsunuz. Tarmadayal bir gelir sistemi olanbir ehri, gelirisanayiye dayal olan ehirlerle kyaslamak ne kadar gvenilir sonular verir tartlr. Aynekilde nfusu milyonlarla llen ehirleri nfusu yz binler olan ehirlerle kyaslamaktayanltr. Belirlediimiz kriterlere gre benzer zellik gsteren ehirler bir gruba toplanrvekendi aralarndaanalizyaplr.Szgelimi Hakkari yi Ankarailekyaslamakyerineprofili benzer olabilecek Siirt, Batman, Mu vb. ehirlerle kyaslamak ok daha gvenilirsonular elde etmemizi salayacaktr.13Kmeler oluturulurken, kmeniniinde yer alannesneler aras benzerlii enbyk, kmeler aras benzerlii ise en kk olacak ekilde yapmamz gerekir. Benzer birifade ile kmeleme analizinin amac, var olan verileri isel olarak homojen, kmeler arasheterojen olarak ayrmaktr. Kmeleme analizi genellikle market aratrmalar, genaratrmalar gibi konularda sklkla kullanlr. Bu veriler arasnda nitelik bakmndan ilginkorelasyonlar(ilikiler, benzerlikler) elde edebiliriz. rnein tp alannda benzer zellikleresahip genleri ayn kme iine alabiliriz.Literatrde pek ok kmeleme algoritmas bulunmaktadr. Kullanlacak olankmeleme algoritmasnn seimi, veri tipine ve amaca baldr. En iyi bilinen ve en ok kullanlan kmeleme yntemi, blme yntemidir.*lme +ntemi, Blmeyntemlerinde,nveri tabanndaki nesnesays vekoluturulacakkmesays olarak kabul edilir. Blme algoritmasn adet nesneyi, k adet kmeye bler (k n! -Kmeler tarafsz blme kriteriolaraknitelendirilen bir kritere uygun oluturulduu iinaynkmedekinesneler birbirlerine benzerken, farklkmedekinesnelerden farkldrlar.Blme yntemlerinde kullanlan en yaygn metot ise k-means yntemidir. ./means yntemi$lk nce n adet nesneden rasgele k adet nesne seer ve bu nesnelerin her biri, birkmeninmerkezini veyaortanoktasn temsil eder.Geriyekalannesnelerdenherbirikendisine en yakn olan kme merkezine gre kmelere dalrlar. Yani bir nesne hangikmenin merkezine daha yakn ise o kmeye yerleir.Ardndan her kme iin ortalama hesaplanr ve hesaplanan bu deer o kmeninyeni merkezi olur. Bu ilem tm nesneler kmelere yerleinceye kadar devam eder.14Sylenenleri ekille pekitirelim;&.2.2 0irli'"eli' 5$ral(Birliktelik kurallar, byk veri kmeleri arasnda birliktelik ilikileri bulurlar.Toplananvedepolananverininher geengngittikebymesi yznden, irketlerveritabanlarndaki birliktelik kurallarn ortaya karmak istemektedirler. Bykmiktardaki mesleki ilemkaytlarndanilginbirliktelikilikilerini kefetmek, irketlerinkarar alma ilemlerini daha verimli hale getirmektedir.Birliktelik kurallarnn kullanlden tipik rnek market sepetiuygulamasdr. Builem, mterilerin yaptklar alverilerdeki rnler arasndaki birliktelikleri bularakmterilerinsatnalmaalkanlklarn analiz eder.Butipbirlikteliklerinkefedilmesi,mterilerin hangi rnleri bir arada aldklar bilgisini ortaya karr ve market yneticileride bu bilgi nda daha etki sat stratejileri gelitirebilirler.rnein bir mteri st satn alyorsa, ayn alverite stn yannda ekmek almaolasl nedir? Bu tip bir bilgi nda raflar dzenleyen market yneticileri rnlerindekisat orann arttrabilirler. rnein bir marketin mterilerinin st ile birlikte ekmek satnalan oran yksekse, market yneticileri st ile ekmek raflarn yan yana koyarak ekmeksatlarn arttrabilirler.rnein; bir Arnnsatnalanmteriler ayn zamandaBrnndasatnalyorlarsa, bu durum Birliktelik Kural ile gsterilir. ) VER MADENCLNDE5 >NEML @FG@LAMALARYaygn olarak kullanlan iki nemli veri madencilii uygulamas; 1)Sepet Analizi ve Birliktelik Kurallar 2) Kredi Skor Hesab15).1 /e0 olacaktr. Aynekilde X ve Y beraberbeenilmiyorsa her iki deer de ortalamadan kk olacak ve yine Cov(X,Y)>0 olacaktr.Eer Xi beenenler Yyi beenmediyse (veya aksi takdirde) deerlerden biri ortalamadanyksek, dieri ortalamadan dk olacak ve Cov(X,Y);e"le!e#e Da#al( M-deller zetlemedeama, veriyi az sayda zellikte karakterize etmektir. Verinintmmnbir zetini salayanbiroktemel kavramvardr.yi bilinentemelistatistiksel kavramlar;ortalama, mod, veri genilii, varyans ve standart sapmadr. Bu istatistiksel deerler sras ile kitlede veya rneklemde veriyi tanmlar. Tanmlanm veri, verilerinbir paras deildir.Ancakverilercebelirlenenbirbilgidir. Tanmlanm veri sadece matematiksel mekanizmalarda hesaplanabilir ve verininetiketini oluturur.+.. :iotezlerin kurulmas) B:-= sfr hipotezi ve (:s=seenek hipotezi oluturulur Kullanlacak olan nemlilik derecesi belirlenir. Ortalamann testi iin kullanlacak t ya da z deerleri belirlenir. Eer rneklem genilii 30 dan bykse z ,30 dan kkse t deerikullanlr. nemlilik derecesi a deerine gre tablo deeri belirlenir. Tablo deeriyle hesaplanan deer karlatrlr. Sonucunda da hipotez ya kabulya da reddedilir.Hipotez testleri, rneklemve kitlenin fonksiyonu olanbirtakmtest istatistiiterimleri ve Ho hipotezinin reddedildii test istatistii deerlerinin dt "redblgesi ile belirtilir. Hipotez testlerinin en nemliksm, uygun test istatistiinin vered blgesinin tanmdr.Butanmistatistiksel hipotez testlerininzelliklerini belirtmektedir.Tanmnilkksmndaki sfr ve alternatif hipotezlerde kitle parametrelerinin herhangi bir somut altkmesigz nnde bulundurulduu iin, bu ksm ikinciksma gre daha genelbiranlama sahiptir. kinci ksmda ise, sfr ve alternatif hipotezler kitle parametrelerininbelirli bir deerini kullanmaktadr.Tekynlhipotez, rneklemparametresini eikolarak belirlenmi deerle(tablo deeri) karlatrr. Hipotez testlerinde 2 tr hata vardr.27!o kabul !o red !o doruD?@#AB-Cr =ata (a Datas!!s doru BB-Cr =ata(b Datas! D?@#A+..& 0a#es Te-re!i Bir snflandrma sorununun olaslk terimleriyle aklanabilecei varsaymnadayanr.Bayes kural, bir veri grubundabir zelliinolasln tahminetmeyntemidir. Belirli bir veri deerinde eitli varsaymlarn olasln aratrr. Bayes forml:eklindedir-Bilimsel karar yntemlerinden biri olan Bayezyan yaklam, olaslkl (kesinolmayan)birbilgininincelenmesineobjektif birbakasn esasalrki, buyaklambilimsel gerektenziyadebilgininaamalarnaodaklanr.ThomasBayes(1764)eizafeedilenbudncenintamolarakifadesini bulmas 1930larakadargecikmiveancak1970lerden sonra genetik ve tbbi almalarda yer almaya balamtr. Dier yandan buteoremgenetik danmanlar tarafndan, tayclk risklerininhesaplanmasnda yaygnolarak kullanlmtr. Buna paralel olarak bilgisayar destekli tansalyaklamda kullanmgiderekartmaktadr.Bayes hesaplar almadzenindenbamsz olduundanklinikanalizde dier baz karar yaklamlarndan daha esnektir ve gelecee ait olaslklarhesaplayabilme olanana sahiptir.Ernek) Kanser tehisiiin yenibir test gelitirildiinikabuledelim.Kanserin insanlardagrlme sklnn 0,05 olduunu varsayalm, bu testiin bizeverilenbilgi dekanserhastas olanlar zerinde denendiinde % 95pozitif sonu verdiiolsun. Sorumuz: "Bu test gvenilir bir test midir? olacaktr.A = testin uyguland kiide sonu pozitif (teste gre "kanser var")B= kiinin kanser olmas (teste gre deil, gerekten kiinin kanser olmas)Bu durumda;28A' = testin uyguland kiide sonu negatif (kanser olmamas durumu)B' = kiininkanser olmamas durumuBu durumda bata verilen bilgileri kullanrsak; P(A/B) = P(A`/B`) = 0.95 (kii kanser(B) ve test uygulanm(A)) P(B)=0.005 (bir insann kanser olma ihtimali, ya da kanserin rastlanma skl) Bayes teoremi kullanrsak;P(B/A) = P(B)*P(A/B) / {( P(A/B)*P(B) + P(A/B`)*P(B`) }= [(0.005)(0.95)] / (0.95)(0.005)+(0.05)(0.995) = 0.087 Butest biri zerindepozitif sonu verdiindeaslndaokiininkanser olmaihtimali % 8.7 bulunmutur. Bu ok dk bir deerolduu iin test kullanlrsaok fazla sayda yanl uyar meydana geleceindenTEST BAARISIZDIR denir.NAT2Balangta verilen ve P(A/B) dediimiz kavramla sonradan bulduumuzP(B/A)'nnkartrlmamas gerekir.Birincisi kanserli hastayauygulanantestinverdii sonuikenikincisi testinkansertehisi koyduukiileringerektenekadarnn kanser olduudur.Bayes teoreminin veri madencilii alannda kullanm, belli bir veri taban kitlesindenekilmi rnekleme dair ulalmak istenen olaslklar hesaplamaktr. rneimizde olduugibi eer binlerce hastaya ait bilgilerin bulunduu bir veri tabanndan sz ediliyorsa ve buhastalardan kanser tehisi konulmu olanlarna yaplan testin sonularna gre bellizelliktebirveri aranyorsaBayesTeoremi kullanlarakbuzellii salayanhastalarnoran bulunabilir. Veri madencilii uygulamalarnda da ama zatenistenilenzellikteveriye ulamaktr- +..) Var#ans Anali;i Varyans analizi ikiden ok kitle ortalamas arasndaki farkn nemini belirtir. Birok grubu ayn anda karlatrr. RNEGN; yeni ilacnnabz at zerindeki etkisi, amar beyazlatmasasndan deiik deterjanlar arasndakifark varyans zmlemesiile incelenir.Eer gruplar arasnda farkllk karsa ikierli karlatrmalarla fark yaratan grupbelirlenebilir. Feitleri, Tek ynl varyans analizi ift ynl varyans analizi Tekrarl lmlerde varyans analizi ok etkenli varyans analizidir.Varyans analizininveri madenciliinde kullanm iin, ncedenveri tabanndanbelirli rnekleme yntemleri kullanlarak seilmi olan verilerin analizinin yaplmasndakullanld sylenebilir.Varyans analizi, verinin yapsnn belirlenmesinde ve ileriki aamada modelkurulmasnda yol gsterici olarak kullanlacak bir istatistiksel yntemdir.29+..+ Re1res#-n Re1res#-n, genellikle gemiteki deerleri temel alarak gelecektekideerleri tahmin etmek iin kullanlr.D-r$sal re1res#-n, girdiverisiilekt verisi arasnda dorusal bir iliki olduunu varsayar. Regresyon her bir tahmin ediciiin kesin katsaylar retir ve bu katsaylarbaml deikenintektekher bir tahminedici tarafndanhangi orandaaklandn gsterir. Regresyon, bamsz deikenlerin (X) deerleri iin bamldeikenin (Y)alaca deeri tahminetmeyeyarar.ki deikenarasnday=f(x)gibi birbant oluur. rnein, bir bankannmterileri zerindeyapt "mteri deeri aratrmasndaelde ettii "mteri stats - ya ve "mteri stats - geliri apraz izelgelerindenelde edilen sonular birletirilerek bir yorum yaplabilir ancak bu hem ok zor hem deyanltc olabilir.Buiki aprazizelgeyi birlikteincelediimizdeher yagrubundakimteri ve mteri olmayanlar arasndaki farkn greli nemi hesaba katlmam olurve bunu gz ard etmek yanltc olabilir. Bu nedenle ikiden fazla deiken arasndakiilikiyi incelerken regresyon analizi gibi ok deikenli analiz yntemlerinebavurulmaldr.Ayn ekilde bankann mteri deeri aratrmasnda bu deer zerinde ya, ve geliringayet etkili tahmin ediciler, eitim dzeyinin daha az etkili bir tahmin edici olduunu,fakat aile bireylerinin saysnn ise etkiliolmadngsterirken, dorusalregresyon,mteri deeri zerinde dier btn tahmin edicilerin e zamanl etkilerini inceleyerekher bir tahmin edicinin tek ve greli nemini elde etmemizi salar. Buyzdenregresyon apraz izelgelemeden ya da dier basit iki deikenli yntemlerden dahagl bir tekniktir.+..D *a'"?r Anali;i Faktr analizi; ou kez aratrmalarda kullanlan ok saydaki deikeninaslndabirkatemel deikenleifadeedilebilipedilemeyeceininmerakedildii durumlarda kullanlr. Faktr analizi, birbirleriyle ilikili veri yaplarn birbirinde bamsz ve dahaaz sayda yeni veri yapsna dntrmek, bir oluumu, nedeniakladklar varsaylan deikenleri gruplayarak ortak faktrleri ortayakoymak,bir oluumuetkileyendeikenleri gruplamak, majr veminrfaktrleri tanmlamak amacyla bavurulan bir yntemdir.Birbiriyleilikili oksaydadeikeni bir arayagetirerekaz saydakavramsalolarak anlaml yeni deikenler bulmay,kefetmeyi amalayan ok deikenli biristatistiktir.Veri miktar ok fazla olduu zaman veri madencilii algoritmalarnn almas vesonu retmesi ok uzun srebilir. Veriyi azaltma baary artrr. Veri azaltmayntemlerinden biri olan faktr analizi uygulanrken:-Veri madencilii uygulamas iin gerekli olan faktrler seilir.- Faktrler altkmesi kullanlarak elde edilen snflarn dalmlar gerek dalmaeit ya da ok yakn olmaldr. 30>RNE59:Okul mdrlerininfakl liderlikdavranlarnnretmenlerin itatminineetkilerininlldbir aratrmayaptnz dnn. Buaratrmadamdrlerinfarkl liderlikdavranlarn (rnek, Otokritik, Katlmc, Destekleyici vb.) ayr ayrdeerlendirmeniz gerekecektir. Belki anket ncesi bu tr bir gruplandrma yapm daolabilirsiniz. Bu durumda dahi yaptnz gruplandrmann ne derecede doru olduunuFaktr Analiziile saysal olarak dorulamanzyararlolacaktr. nk sizin katlmcliderlik davran olarak tanmladnz bir davran retmenler tarafndan destekleyiciliderlik davran olarak yorumlanm olabilir. Bu durumda bu soru ya ankettenkartlmal ya da destekleyici liderlik kategorisinde deerlendirmeye alnmaldr. Anketncesi hibir kategorizasyon yaplmad durumlarda ise Faktr Analizi esiz bir aratr.Sorular siziniingruplandrr.Bundansonrasizekalansadeceherbirgrubaisimvermektir. +..J Ka!an /erileriZaman deikeniyle ilikilibir deiken hakknda, elde edilen gzlem deerlerinizamana gre sralanm olarak gsteren serilere L;a!an serileriM denir. Zaman serilerini konu alan almalarn genelinde, serilerin gzlem deerlerieitaralkl zaman noktalarnda elde edilmitir. Gelecek olaylar ya da koullar tahmin etmeye?n1?r9denir. Veri tabanzerinden elde edilen verilerle zaman serileri oluturulur. Oluturulan zaman serileriilegerekli zmlemeler yaplr ve ngr ilemi ile gelecee ynelik tahminlerde bulunulur.Bu noktada veri madenciliinden yararlanlmas, istenilen verilere daha kolaybir ekildeulalmasn salar.Bu, ayn zamandamaliyet vezamandandatasarruf salanacaanlamna gelmektedir.>RNE51H2Hkmet politikalarnn oluturulabilmesi iin isizlik oran, vergioran, elektrik tketimi, kii bana denmilli gelir gibi lkenin zelliklerini ortayakarabilecek faktrler ile ilgili ngrlerde bulunulmas gerekmektedir. Bu ngr ilemisonucunda lkenin gelecekte hangi alanlarda sorunlar artacak gibi gzkyorsa oalanlarda sorunlar zmleyebilecek ilgili politikalar ge kalnmadan hkmet tarafndanyrrle konulmaldr. >RNE5 11: Bir spermarkette, mart aynn son haftasndanisan aynn ilk haftasiin A marka ekerden ne kadar sipari verilmesi gerektiine dair bir tahmindebulunabilmek adna; son 2 ayda haftalar ierisinde A marka ekerin sat miktarna(kg)ilikin, veri taban zerinden ulalan verilerle bir zaman serisi elde edilmitir. Buna gre;HAFTALAREKER MKTARI(kg)ubat 1.hafta 165ubat 2.hafta 170ubat 3.hafta 180ubat 4.hafta 198Mart 1.hafta 200Mart 2.hafta 202Mart 3.hafta 207Mart 4.hafta 210+31Bu zaman serisine gre u ngrde bulunulabilir: "Oluturulan bu zaman serisinegre A marka ekerin sat miktarnda son 8 haftada srekli bir art gzlenmitir. Bunagre ok byk bir olaslkla nisan aynn ilk haftasnda da Amarka ekerin satmiktarnda art olacaktr. Budurumda,nisan aynn ilk haftas iin mart aynn sonhaftasnda bugne kadar satlan 210 kg.dan daha fazla sipari verilmesi gerekir.Zaman serileri genel olarak"kartezyenkoordinatlbir grafikle gsterilir.xeksenindezaman deikeninin klar, y ekseninde ise bu klar itibariyle y deikenininald deerler yani gzlem deerleri yer alr. Zamanserileri ortalamadangsterdii sapmalaragre"duraanve"duraanolmayan olmak zere ikiye ayrlmaktadr. Ele alnan zaman serisinin ortalamas ve varyans simetrik bir deimegstermiyorsa bu tr zaman serilerine "duraan olmayan zaman serileri denir.Gerek hayatta zaman serilerinin ou duraan deildir, dolaysyla serilerinortalamas zamanla deimektedir. zellikle parasal veriler duraan olmayan zamanserilerindenoluur.Duraanolmayanzamanserilerininuygunbir modeleoturtulmasmmkn deildir. Bunun iin de bu tr veriler zerinde alrken serininduraanlatrlmas gerekmektedir.Literatrde zamandan etkilenmeyen, ortalamas, varyans ve kovaryans sabit olanserilereL;a#(7 d$raanserilerMad verilir vegeni anlamdaLd$raanl('Molarakbilinir. Gl duraanlkta sonlu ortalama ve varyansa gerek yoktur. Tek denklemli zamanserilerinde zayf duraanlk ve duraanlk arasnda bir fark yoktur. Herhangi bir zt serisininduraan olmas artlar u ekilde zetlenebilir: sabit aritmetik ortalama: E(zt)=

sabit varyans:Var(zt)=2gecikme saysna bal kovaryans:cov(zt, zt+k)= Duraan zaman serilerinde ard arda gelen iki deer arasndaki fark zamann32kendisinden kaynaklanmamakta, sadece zaman aralndan kaynaklanmaktadr. Bunedenle serinin ortalamas zamanla deimemektedir.+..I 5ali"e 5-n"r-lGnmzde serbest piyasa ekonomisi nedeniyle firmalar arasnda yaananrekabet artlar, reticileri minimum maliyetle yksek kalitede rn retmeyezorlamaktadr.rnkalitesi, alcnnyadatketicininkararn etkilemedegiderekdahafazla neme sahip olmaktadr. Kalite kontrol ne"ir#zellikle 1980li yllardan itibaren bilinlenen tketicilerin hatal rn yada hizmetekar tutumlar, tketiciisteklerinin karlanmasnn ve tketicitatmininin salanmasnnkanlmaz olduunu gstermitir.Btn bu gelimeler kalite kontrol kavramn daberaberinde getirmitir. KALTE KONTROL :Kalite isteklerini salamak iin kullanlan uygulama teknikleri vefaaliyetleridir.$statistiksel Kalite KontrolGittikeartantketici ihtiyalar vebunabal olarakgenileyenretimhacmi,muayeneye dayal bir denetimsisteminin uygulanmasn kimi zaman olanaksz kimizaman da yksek maliyetli klmaya balaynca retilen rnlerin kalite dzeylerininaratrlmas ve varsa kalite deiiminin belirlenmesi iin Lis"a"is"i'sel 'ali"e '-n"r-l9"e'ni'leriMnden yararlanlmaya balanmtr. Bu amala rnlerin tamamn muayene etmek yerine, belirli zaman aralklarndaprosesi yeterincetemsil edebileceknitelikterneklemler ekilir veburneklemlerdengelensonularadayanarak proses hakknda tahminde bulunulur. Gemiteki bilgilerebaklarakgeleceeyneliktahminlerdebulunulmasndaveri madencilii yntemleri birok alanda olduu gibi kalite kontrolde de kolaylk salar.$statistiksel kalite kontrol tanm%Bir rnn en ekonomik, en yararl ayn zamanda bir pazara sahip olacak biimderetimini salamak zere, istatistiksel prensip ve yntemlerin retimin btnaamalarnda uygulanmasdr.Kalite Kontrol ve &eri Ma"enciliiVeri taban zerinden elde edilen veriler zerinde uygulanan kalite kontrolyntemleriyle, kalite dzeyinin istenilen standartlara uygun olup olmad aratrlr. Eerkalitedzeyi istenilenstandartlarauygun deilse,kaliteyiistenilen seviyeyekartmakamacyla eitli nlemler alnr. Kalite kontrolde veri madenciliinden yararlanlmas, veriye daha abuk ve kolayulalmasn, dolaysyla zaman ve maliyetten tasarruf edilmesini salar.

VER MADENCL @FG@LAMA/4NA >RNE5LERVeri madencilii, gnmzde pek ok sektrde nemli kullanm alanlarna sahiptir.33Bugnbirok nemli firmann, bulunduu konuma gelmesinde dorukullanlan verimadencilii teknikleri ve uygulamalar nemli yer tekil etmektedir.Biyome"ikal iin veri ma"encilii uy'ulamalarDNA dizilimi 4 ana blok(nkleotit)tan oluur. Bunlar ; Adenin(A), Sitozin(S),Guanin(G) ve Timin(T) dir.Bunkleotitler birbirine sarl bir a olutururlar. Belirli bir srada dizilenbunkleotitlerin oluturduu yapya gen denir.nsanda yaklak 100.000 gen vardr.Hastalklara yol aan gen sralama rneklerini binlerce gen arasndan bulmak oldukazorbir itir.Veri madenciliindegelitirilensralamarnekanalizi vebenzerlikaramametotlar DNA verisi zerinde analiz yapmay kolaylatrmtr.Kampanyalar"a veri ma"encilii uy'ulamalarBu uygulamada bir bankada gerekletirilen bir pazarlama kampanyas rnei yeralmaktadr. Bu kampanyada ama deme davran Li#iM olan bireysel kredi kullanclarnakredi kart sunmaktr.Kampanya iin ncelikle deme davran "iyi olanlarn belirlenmesi gerekir.Bu kampanyada "iyideme davranl mterinin tanm ilgili departman yneticilerininkarlkl gr alverileri sonunda saptanmtr.

ncelikle; Kredi demesini sresi iinde yapanlar ve Kredi demesini sresi iinde yapmayanlar filtreleme yntemiyle ayrtrlmtr.demesini zamannda yapmayanlar ise gecikme srelerine gre snflandrlmtr: Kredi geri demesini belli bir zamandan fazla geciktirenler Kredi geri demesini belli bir zamandan fazla geciktirmeyenlerdemesini belli bir zamandan fazla geciktirmeyenler bu kez geciktirme saylarnagre snflandrlmtr: Bir kez geciktirenler Birden fazla geciktirenlerok karmak gibi grnen bu snflandrmalar, veri ambarlarnda depolanan verilerkullanlarakonbinlercemevcut mteri iinteknolojikdestekle, okksabir sredeyaplmtr ve deme davran "iyi olan mteriler tespit edilerek kredi kart hedef pazarbelirlenmitir. Bu pazar; 1=Kredi demesini sresi iinde yapanlar 2=Kredi demesini sresi iinde yapmayanlar arasnda demesini belli bir zamandanfazla geciktirmeyenler=Kredi demesini sresi iinde yapmayanlar arasnda demesini belli bir zamandanfazla geciktirenler iinden bir kez geciktirenlerden olumaktadr. 34(eraken"e sat) sektr*n"e veri ma"encilii uy'ulamalarAmerikada2milyar dolar yatrm olan15eyalette129maazas bulunanbirfirma yaplan almalarla u sonuca varlmtr: "Maazaya gelen mteriler,promosyonlu rnlerin bulunduu sol taraftaki raflara ynelmekte ve alveri iin dierblmleri gezmeye ihtiya duymamaktadr. Busonuardndanmaazanndekorundadeiiklikyaplmvesatlardaartgzlenmitir.Salk i+met sektr*n"e veri ma"encilii uy'ulamasna rneklerMapInfo irketi, haritalama teknolojisini kullanarak hastalarn youn olarakbulunduu blgeleri iaretlemekte ve bu sayede bu blgelere daha iyi hizmetsunabilmektedir. Rochester Kanser Merkezi Blm, aratrmalarndaKnowledgeSEEKER adl kararaac tekniini kullanrT*rkiye,"en -rnekler

ANA AFA5 Sigorta lemleri ve demelerden Sorumlu Genel Mdr Yardmcs AliErlat "SAS Veri Ambar (Data Warehouse) ile tespit edilmi sahtekrlklarla ilgili kayplarailikinveri kmeleri arasndaki ilikileri ortayakararak, mteri verilerini blmlereayrabiliyoruz. AXA OYAK, sigorta demelerinin %5inin hileli ilemlerden kaynaklandnortaya kard; bunlar bugn dzeltiliyor ve gelecekte de nlenecek. Sigortademelerimizin%5-7arasndaazaldn gvenlesyleyebilirim. Ayn zamanda, pazarpaymz da artrdk. Bunlar, SAS kullanarak veri madencilii ve analiz prosesiilemlerimizin iki dorudan sonucudur. deerlendirmesini yapyor.

T@R5CELL, SAS'la balatt KrediDerecelendirme Projesi ilemterilerin farkldeme davranlar hakknda yeni bilgilere sahip olmu ve doru deme modellerikurmutur.Byleliklemteri memnuniyetini artrmannyan sra, tahsilat srecindekimaliyet ve riskleri azaltarak byk bir avantaj salamtr.

T65, lkemizde ulusal ve uluslararas boyutta yararlar salayaca inancyla, enutaki kullancdan, karar vericiye kadar geni bir yelpaze iinde yer alan tm kurum vekurulularn veri ve bilgi ihtiyacn gidermeyi amalamaktadr. te bu noktada SAS'n Zeks zmleri'nin nemli paralarndan biri olan Analiz ve Raporlama zmleri, szkonusu utan uca ihtiyalara yant vermektedir. Trkiye'nin milyarlarca verisini kii,kurum ve zel sektrn ihtiyalarna gre bilgiye dntrmektedir.35