8
Dubinska analiza podataka – određeni postupci u području deskriptivne analize Mihaela Vranić Sveučilište u Zagrebu Fakultet elektrotehnike i računarstva Sažetak: Današnji informacijski sustavi omogućuju pohranu ogromnih količina podataka. Metode dubinske analize podataka razvijene su da bi riješile mnoge probleme koji se pojavljuju pri njihovom iskorištavanju. Deskriptivna analiza podataka, čije su najpoznatije metode stvaranje asocijacijskih pravila i grupiranje, nudi niz rješenja ali i daljnjih izazova. Ključne riječi: dubinska analiza podataka, deskriptivna dubinska analiza podataka, transakcijski podaci, stvaranje asocijacijskih pravila, grupiranje 1. UVOD Kada govorimo o informacijskim sustavima, ono što ih u ovome stoljeću između ostalog obilježava jesu ogromne količine podataka koje se pohranjuju – govorimo već o petabajtima podataka. Ipak, često se govori o tome kako se tvrtke „utapaju“ u podacima, a u isto vrijeme „gladuju“ za informacijama i znanjem. Za dobivanje određenih informacija iz podataka se odavno koristi statistika, dok se u posljednje vrijeme pojavila disciplina dubinska analiza podataka koja koristeći mogućnosti suvremenih računala omogućuje pronalaženje korisnih i primjenjivih modela i uzoraka u ogromnim skupovima podataka. Neki autori razlikuju dva stila dubinske analize podataka: nadzirano i nenadzirano učenje [1]. Nadzirano učenje (eng. directed data mining) podrazumijeva pristup „odozgo prema dolje“ i koristi se kada analitičar zna što traži ili što želi predvidjeti. Stoga se ovaj stil često naziva prediktivnim modeliranjem. Model je na kraju crna kutija za koju nije toliko bitno kako funkcionira već davanje dobrih rezultata na testnim podacima. Tu se radi o primjeni znanja stečenih u prošlosti na budućnost. S druge je strane nenadzirano učenje (eng. undirected data mining) koje se često naziva i deskriptivnim modeliranjem te podrazumijeva pristup „odozdo prema gore“. Ono podrazumijeva pronalaženje uzoraka koji vrijede za dane podatke, a na osnovu kojih se može doći do određenih spoznaja o dijelu svijeta koji podaci opisuju. Tek ekspert iz domene problema koji se istražuje može donositi zaključke o tome koji su uzorci važni te je često nužna žustra interakcija između eksperta i sustava. Kod ovih je modela važna logika na osnovu koje sustav pronalazi određeni uzorak te se sustav ne može promatrati kao crna kutija. Ponekad se događa da se pronađu uzorci koje nije moguće logički objasniti – interpretirati. Deskriptivno se modeliranje često koristi i kao uvod u prediktivno učenje. Ovaj će se rad prvenstveno baviti deskriptivnim metodama dubinske analize podataka. Iako se razvila na bazi više disciplina kao što su statistika, umjetna inteligencija i strojno učenje, koje su i same međusobno povezane, dubinska analiza podataka je razvila bogatu paletu metoda za pronalaženje znanja u velikim skupovima podataka. Ponekad se zaboravljaju uvjeti korištenja pojedinih metoda i njihovih nadogradnji, stoga se u posljednje vrijeme posebno stavlja naglasak na potrebu trojakog povezivanja: statistike, dubinske analize podataka i praktičnih problema [2]. Upravo sagledavanje sva tri segmenta omogućuje i nosi daljnji napredak. Jednostavna upotreba dubinske analiza podataka bez zdrave statističke baze i zaključivanja nije u mogućnosti kvalitetno riješiti praktične probleme jer su u tom slučaju zaključci i dobivena znanja upitni. S druge strane statistička analiza koju nije u mogućnosti skalirati na velike skupove podataka ili ju nije moguće primijeniti na praktični problem također nije zadovoljavajuća. Tek zdravo povezivanje statistike i dubinske analize podataka omogućuje istinsko rješavanje praktičnih problema. Stoga tom povezivanju streme vodeći stručnjaci iz ovih područja u svojim daljnjim istraživanjima. Osim navedenog, danas je u fokusu potreba za novim algoritmima koji prevladavaju ograničenja postojećih tehnika u svladavanju izazova koje postavljaju novi tipovi podataka koji se prikupljaju. Podaci se danas često opisuju kao: heterogeni, visoko-dimenzionalni, raspršeni u prostoru, prostorno- vremenski i stalno nadolazeći podaci (eng. streaming). Naposljetku je bitno imati na umu važnost komunikacije između dizajnera modela dubinske analize i eksperata iz domene primjene modela, budući da je izvrsno poznavanje domene problema nužno za dizajniranje i konačno korištenje samih modela. Stoga su mogućnosti korištenja deskriptivnih modela i njihovo unaprjeđenje vrlo važni te se tu otkriva cijeli spektar izazova u daljnjim istraživanjima. Uvodu u te aktivnosti posvećen je ovaj rad. U drugom poglavlju prikazani su osnovni koncepti dubinske analize te je predstavljen model kojim se opisuju sve aktivnosti vezane uz nju. Treće poglavlje posvećeno je podacima jer bez njihovog dobrog poznavanja nije moguće učiniti kvalitetnu analizu. Poseban je naglasak dan na vrijednosti koje odskaču. U četvrtom poglavlju opisane su najvažnije metode deskriptivnog modeliranja dok su u petom poglavlju opisane određene mogućnosti unaprjeđenja u predstavljenom području. Na kraju je dan zaključak. 2. DUBINSKA ANALIZA PODATAKA 2.1. Definicija i osnovno o području Engleski naziv Data Mining se kod nas najčće prevodi kao dubinska analiza podataka, dubinska pretraga podataka, inteligentna analiza, svrdlanje podataka ili pak

Kvalifik Clanak Mihaela Vranic

Embed Size (px)

DESCRIPTION

Web, rudarenje,

Citation preview

  • Dubinska analiza podataka odreeni postupci u podruju deskriptivne analize

    Mihaela Vrani Sveuilite u Zagrebu

    Fakultet elektrotehnike i raunarstva

    Saetak: Dananji informacijski sustavi omoguuju pohranu ogromnih koliina podataka. Metode dubinske analize podataka razvijene su da bi rijeile mnoge probleme koji se pojavljuju pri njihovom iskoritavanju. Deskriptivna analiza podataka, ije su najpoznatije metode stvaranje asocijacijskih pravila i grupiranje, nudi niz rjeenja ali i daljnjih izazova.

    Kljune rijei: dubinska analiza podataka, deskriptivna dubinska analiza podataka, transakcijski podaci, stvaranje asocijacijskih pravila, grupiranje

    1. UVOD

    Kada govorimo o informacijskim sustavima, ono to ih u ovome stoljeu izmeu ostalog obiljeava jesu ogromne koliine podataka koje se pohranjuju govorimo ve o petabajtima podataka. Ipak, esto se govori o tome kako se tvrtke utapaju u podacima, a u isto vrijeme gladuju za informacijama i znanjem.

    Za dobivanje odreenih informacija iz podataka se odavno koristi statistika, dok se u posljednje vrijeme pojavila disciplina dubinska analiza podataka koja koristei mogunosti suvremenih raunala omoguuje pronalaenje korisnih i primjenjivih modela i uzoraka u ogromnim skupovima podataka.

    Neki autori razlikuju dva stila dubinske analize podataka: nadzirano i nenadzirano uenje [1]. Nadzirano uenje (eng. directed data mining) podrazumijeva pristup odozgo prema dolje i koristi se kada analitiar zna to trai ili to eli predvidjeti. Stoga se ovaj stil esto naziva prediktivnim modeliranjem. Model je na kraju crna kutija za koju nije toliko bitno kako funkcionira ve davanje dobrih rezultata na testnim podacima. Tu se radi o primjeni znanja steenih u prolosti na budunost.

    S druge je strane nenadzirano uenje (eng. undirected data mining) koje se esto naziva i deskriptivnim modeliranjem te podrazumijeva pristup odozdo prema gore. Ono podrazumijeva pronalaenje uzoraka koji vrijede za dane podatke, a na osnovu kojih se moe doi do odreenih spoznaja o dijelu svijeta koji podaci opisuju. Tek ekspert iz domene problema koji se istrauje moe donositi zakljuke o tome koji su uzorci vani te je esto nuna ustra interakcija izmeu eksperta i sustava. Kod ovih je modela vana logika na osnovu koje sustav pronalazi odreeni uzorak te se sustav ne moe promatrati kao crna kutija. Ponekad se dogaa da se pronau uzorci koje nije mogue logiki objasniti interpretirati. Deskriptivno se modeliranje esto koristi i kao uvod u prediktivno uenje.

    Ovaj e se rad prvenstveno baviti deskriptivnim metodama dubinske analize podataka.

    Iako se razvila na bazi vie disciplina kao to su statistika, umjetna inteligencija i strojno uenje, koje su i same meusobno povezane, dubinska analiza podataka je razvila bogatu paletu metoda za pronalaenje znanja u velikim skupovima podataka. Ponekad se zaboravljaju uvjeti koritenja pojedinih metoda i njihovih nadogradnji, stoga se u posljednje vrijeme posebno stavlja naglasak na potrebu trojakog povezivanja: statistike, dubinske analize

    podataka i praktinih problema [2]. Upravo sagledavanje sva tri segmenta omoguuje i nosi daljnji napredak.

    Jednostavna upotreba dubinske analiza podataka bez zdrave statistike baze i zakljuivanja nije u mogunosti kvalitetno rijeiti praktine probleme jer su u tom sluaju zakljuci i dobivena znanja upitni. S druge strane statistika analiza koju nije u mogunosti skalirati na velike skupove podataka ili ju nije mogue primijeniti na praktini problem takoer nije zadovoljavajua. Tek zdravo povezivanje statistike i dubinske analize podataka omoguuje istinsko rjeavanje praktinih problema. Stoga tom povezivanju streme vodei strunjaci iz ovih podruja u svojim daljnjim istraivanjima.

    Osim navedenog, danas je u fokusu potreba za novim algoritmima koji prevladavaju ogranienja postojeih tehnika u svladavanju izazova koje postavljaju novi tipovi podataka koji se prikupljaju. Podaci se danas esto opisuju kao: heterogeni, visoko-dimenzionalni, raspreni u prostoru, prostorno- vremenski i stalno nadolazei podaci (eng. streaming). Naposljetku je bitno imati na umu vanost komunikacije izmeu dizajnera modela dubinske analize i eksperata iz domene primjene modela, budui da je izvrsno poznavanje domene problema nuno za dizajniranje i konano koritenje samih modela. Stoga su mogunosti koritenja deskriptivnih modela i njihovo unaprjeenje vrlo vani te se tu otkriva cijeli spektar izazova u daljnjim istraivanjima. Uvodu u te aktivnosti posveen je ovaj rad.

    U drugom poglavlju prikazani su osnovni koncepti dubinske analize te je predstavljen model kojim se opisuju sve aktivnosti vezane uz nju. Tree poglavlje posveeno je podacima jer bez njihovog dobrog poznavanja nije mogue uiniti kvalitetnu analizu. Poseban je naglasak dan na vrijednosti koje odskau. U etvrtom poglavlju opisane su najvanije metode deskriptivnog modeliranja dok su u petom poglavlju opisane odreene mogunosti unaprjeenja u predstavljenom podruju. Na kraju je dan zakljuak.

    2. DUBINSKA ANALIZA PODATAKA

    2.1. Definicija i osnovno o podruju

    Engleski naziv Data Mining se kod nas najee prevodi kao dubinska analiza podataka, dubinska pretraga podataka, inteligentna analiza, svrdlanje podataka ili pak

  • rudarenje podataka. U ovome radu e se koristiti naziv dubinska analiza podataka ili pak skraenica DM.

    Za dubinsku analizu podataka postoji niz definicija. Jedna od humoristinih je: 'Muenje podataka dok ne priznaju...., a muite li ih dovoljno dugo priznat e bilo to.'

    Iako je humoristina, ova definicija upozorava na potrebu shvaanja algoritama koji se pri dubinskoj analizi podataka upotrebljavaju te na kritinost pri promatranju rezultata. Rezultati moraju imati neki smisao ili teoretsku podlogu odnosno moraju biti objanjivi te upotrebljivi. Od niza definicija sljedea je najcjelovitija i najvie odgovara pristupu u ovome radu: Dubinska analiza podataka je analiza (esto velikih) opservacijskih podatkovnih setova s ciljem pronalaenja neoekivanih veza ili prikaza podataka koji su za vlasnika podataka novi i korisni[3].

    Spomenuti veze i prikazi se esto nazivaju modelima ili uzorcima. Oni se pak mogu izraziti kao npr. linearne jednadbe, pravila, segmenti, grafovi, stablaste strukture i sl.

    Kada se govori o opservacijskim podacima onda se misli na one koji nisu prikupljeni s ciljem dubinske analize. Najee se dubinska analiza podataka izvodi nad podacima koji su prikupljani zbog praenja raznih transakcija ili operativnih dogaaja u specifinim sredinama. Zbog toga se dubinska analiza podataka esto naziva sekundarnom te je to i glavna razlika izmeu nje i statistike.

    Ve su u uvodu navedeni osnovni stilovi dubinske analize podataka. Metode koje se koriste u prediktivnoj analizi su najee: klasifikacija, regresija i stabla odluivanja. Metode koje se koriste u deskriptivnoj analizi su najee: asocijacijska pravila, segmentiranje (klasteriranje - Cluster analysis) te opis i vizualizacija.

    Dubinska analiza podataka se danas upotrebljava u najsofisticiranijim znanstvenim istraivanjima i eksperimentima. S druge strane, svjesni toga ili ne, dubinska analiza podataka postala je dio svakodnevnog ivota veine ljudi bilo da primjerice koriste internetske pretraivae ili u trenucima koritenja kreditnih kartica, mobitela i slino. Tvrtke koje danas najee koriste razliite metode dubinske analize podataka u svome poslovanju su telekomunikacijske kompanije, maloprodajni lanci i financijske institucije. Oni su ti koji imaju sredstava za takove sustave i u mogunosti su ostvariti velike razlike u zaradi delikatnim promjenama u poslovanju i marketingu.

    2.2. CRISP-DM - model opisa dubinske analize podataka Nekoliko je modela koji opisuju dubinsku analizu

    podataka. Nastali su u razliito vrijeme i uz razliite motivacije. Stoga iz razliitih kuteva gledanja opisuju DM. Jedan od najreferenciranijih modela je model CRISP-DM (eng. CRoss Industry Standard Process for Data Mining) koji definira dubinsku analizu podataka kao iterativni proces koji se sastoji od vie faza i opisuje uobiajene pristupe koje koriste strunjaci iz ovog podruja da bi rijeili odreeni problem [4]. Model CRISP je razvijen od strane strunjaka iz vie kompanija s razliitim iskustvima i znanjima, a pod pokroviteljstvom Europske Unije. Prvi puta je predstavljen 1999. godine i sastoji se od est osnovnih faza koje su prikazane na slici (Slika 1). Sekvencijalno prolaenje kroz faze nije strogo odreeno.

    esto je potrebno vraanje na prethodne faze procesa. Kretanje meu fazama ovisi o rezultatu svake pojedine faze. Strelice pokazuju najvanije i najee ovisnosti meu fazama.

    Slika 1 Model CRISP dubinske analize podataka

    Prednost modela CRISP je njegova neutralnost s obzirom na upotrebljavani alat i industriju u kojoj se primjenjuje. On daje stabilnost i osnovne smjernice za odvijanja procesa DM analize.

    Vanjski krug na slici simbolizira cikliku prirodu same dubinske analize podataka. Proces dubinske analize ne zavrava primjenom nekog stvorenog modela. esto samo stvaranje tog modela, kao i on sam, budi nova pitanja i zahtijeva nove, esto bolje usredotoene analize.

    Objanjenje osnovnih faza modela CRISP: 1. Razumijevanje problema Ova inicijalna faza je fokusirana na razumijevanje

    ciljeva projekta i zahtjeva iz perspektive poslovanja. Oni se pretvaraju u definiciju problema i preliminarni plan za ispunjavanje ciljeva.

    2. Razumijevanje podataka Ova faza poinje s inicijalnim prikupljanjem podataka i

    nastavlja s aktivnostima upoznavanja podataka s obzirom na znaenje, karakteristike, istou i slino

    3. Priprema podataka U ovu fazu, kao njezine najvanije odrednice, spadaju

    odabir jedinica promatranja i varijabli, kao i razliite transformacije i ienje podataka. Ova faza se poklapa sa fazama ekstrakcije i transformacije ETL procesa (Extraction, Transformation and Loading).

    4. Modeliranje Modeliranje podrazumijeva odabir razliitih tehnika

    modeliranja i njihovu primjenu na ulazni podatkovni set. U tom se procesu takoer parametri modela kalibriraju na optimalne vrijednosti. esto se odreeni problem moe rijeiti pomou nekoliko razliitih metoda. Odreene metode, pak, zahtijevaju podatke u odreenom obliku tako da je esto potrebno vraanje na fazu pripreme podataka gdje se podaci pripremaju za primjenu odreene tehnike.

    U ovoj se fazi, prije samog modeliranja odluuje nad kojim e se podacima raditi model, nad kojima e se kalibrirati parametri modela i nad kojim e se testirati rad

  • modela. U tu svrhu se podatkovni set dijeli na tri dijela, najee odvojena:

    i. TRENIRAJUI PODATKOVNI SET (eng. train set, training set) predstavlja one podatke pomou kojih se model izgrauje.

    ii. VALIDACIJSKI PODATKOVNI SET (eng. validate set) pomou tih podataka se optimiziraju parametri modela i poboljavaju njegove preformanse.

    iii. TESTNI PODATKOVNI SET (eng. test set) - ine ga podaci koji nisu koriteni za izgradnju modela i na njima se ispituje koliko je dobiveni model dobar.

    Ako je podatkovni set mali, tada postoje posebne

    metode koje omoguuju maksimalno iskoritavanje svih podataka. To su metode ukrtene validacije (eng. cross validation) [5]. Izbor pojedinih jedinica promatranja u odreeni podatkovni set, najee se ini sluajnim odabirom.

    5. Evaluacija Modele je potrebno detaljnije razmotriti i utvrditi da li

    zaista dobro rjeavaju postavljeni poslovni problem. U ovoj je fazi kljuno utvrditi da li postoji neka zakonitost, veza meu podacima ili pitanje koje nije bilo dobro razmotreno i uzeto u obzir pri modeliranju. Rezultat ove faze je odluka da li e se s dobivenim DM modelom ii u primjenu.

    6. Primjena DM proces ne zavrava kreiranjem modela. ak i u

    sluajevima deskriptivne analize, gdje se model ne primjenjuje nad novim podacima u svrhu predvianja, potrebno je dobivene rezultate prezentirati na nain da budu razumljivi korisniku DM analiza. esto se dobiveni modeli upotrebljavaju nad svjeim podacima, a u svrhu donoenja boljih odluka. Ova faza se s jedne strane moe sastojati samo od generiranja izvjetaja, dok s druge strane, a ovisno o zahtjevima, moe biti vrlo kompleksna. Gledano od strane samih izvoaa ove faze, nju esto ne izvodi sam strunjak (ili tim) koji je proveo DM analizu, ve korisnik koji je analizu naruio. U svakome sluaju bitno je da izvoa bude u potpunosti svjestan granica modela i svih akcija koje su preduvjet za njegovu uspjenu primjenu.

    Razliiti alati namijenjeni dubinskoj analizi podataka esto predstavljaju svoj pogled na proces dubinske analize. Najee nude neto drugaije pogled na faze u procesu dubinske analize podataka te su usredotoeni na aktivnosti koje se odvijaju nakon uoavanja odreenog problema te ne obuhvaaju fazu primjene - osim ako se radi o specijaliziranim alatima namijenjenim npr. CRM-u (primjerice za formiranje liste kandidata za odreenu marketinku kampanju i slino).

    3. PODACI ZA DUBINSKU ANALIZU

    Svaka analiza poinje od podataka upravo se u njima krije mogunost objanjavanja stvarnosti te upravo oni omoguuju kreiranje razliitih teorija o dijelu stvarnosti koji nas zanima ([1], [3], [5]). Analize stoga poinju upoznavanjem s podacima i tu se koriste razni vizualni prikazi karakteristika podataka. Ono to se ovdje javlja kao potekoa je ogromna koliina podataka koju treba analizirati. Konani cilj dubinske analize podataka je prijelaz od istraivanja podataka prema objanjavanju

    podataka i dobivenih rezultata te konano primjeni dobivenih zakljuaka. Da bi dubinska analiza podataka bila uspjena, mora se oslanjati na statistiku bazu koja pak mora biti skalirana na velike koliine podataka. Statistika je ta koja opravdava konanu primjenu dobivenih znanja.

    Mnogi problemi koji su vezani uz upotrebu dubinske analize podataka veu se ve uz same podatke nad kojima se analiza vri. Neki od glavnih problema izviru iz same prirode prikupljanja podataka dubinska analiza je esto sekundarna upotreba tih podataka jer oni su najee prikupljani za drugu svrhu. Stoga se tu esto javlja problem nedostajuih i netonih podataka. Dodatne potekoe ine visoka dimenzionalnost podataka, a ponekad i njihova nestrukturiranost.

    3.1.Vrste podataka

    Dubinska analiza podataka zahtijeva ulazne podatke u obliku tablica. Te se tablice esto nazivaju podatkovnim setovima (eng. data sets) nad kojima se vri analiza. Pri tome redovi (retci) predstavljaju jedinice akcije, odnosno jedinice promatranja, opservacije, predstavnike populacije odnosno interesantne entitete koje je potrebno istraiti. Stupci (kolone) pri tome uvaju vrijednosti odreenih atributa, varijabli, obiljeja koje se veu uz svaku jedinicu promatranja. Te varijable poprimaju vrijednosti iz odreenih domena i ravnaju se prema razliitim distribucijama. U nekim sluajevima, ulazne varijable mogu biti dijelovi teksta ili pak slike.

    Varijable odnosno stupci u podatkovnom setu mogu igrati razne uloge: ulazne, ciljne, ignorirane, identifikacijske, kolone teina (pondera) i dr.

    Prema prirodi informacije koju sadre, varijable poprimaju vrijednosti koje se ravnaju prema jednoj od etiri razliite skale: nominalnoj, ordinalnoj (ureajnoj), intervalnoj ili odnosnoj (omjernoj, kvocijentnoj, racionalnoj). Prije dubinske analize podataka potrebno je dobro poznavati varijable i skale kojima pripadaju. Te je informacije potrebno osigurati kao dodatni ulazni meta podatak za odreeni algoritam dubinske analize podataka. Skale podataka imaju svoja odreena svojstva te e o pripadnosti podataka odreenim skalama ovisiti mogui i smisleni postupci nad njima. Dok je npr. za nominalnu skalu karakteristino da razliite vrijednosti ne moemo staviti ni u odreeni poredak, s podacima ije vrijednosti pripadaju odnosnoj skali moemo raunati te jednake razlike brojeva predstavljaju jednake razlike mjerenog svojstva, prisutna je apsolutna nula te jednaki brojani omjeri znae i jednake odnose u mjerenoj pojavi. Za ordinalnu skalu je karakteristino to da meu vrijednostima moemo uspostaviti odreeni poredak ali se razlike izmeu podataka ne mogu urediti (za razliku od intervalne skale).

    Kada se govori o izvoritu podataka, tada ih moemo podijeliti na interne (nastaju i pohranjuju se unutar organizacije) i eksterne.

    Kada se postavlja pitanje koliko je podataka dovoljno, tada je odgovor: to vie to bolje. Ipak, ponekad se javlja problem da ima previe podataka koji se ne mogu obraditi u realnom vremenu s trenutno dostupnom tehnologijom. Tada se vri analiza nad reprezentativnim uzorkom. Taj uzorak ne mora biti uvijek sluajni uzorak nad cijelom populacijom. U sluaju da se istrauje rijedak dogaaj (kao to je npr. sluaj prijevare u financijskoj instituciji) takav

  • uzorak ne bi bio dovoljno dobar za formiranje modela. Tada se u uzorku poveava zastupljenost onih jedinki promatranja koje iskazuju odreeno svojstvo. Taj se uzorak naziva stratificiranim. Uz ovakav uzorak te podatak o realnoj pojavnosti nekog dogaaja (koji e u ovome uzorku biti prezastupljen) model e dati tonija konana predvianja.

    Uzorci s kojima se najee radi u DM analizama su prigodni (eng. convenience). U statistici se takvi uzorci ne koriste osim za preliminarna istraivanja. Ipak, pri dubinskoj analizi podataka ponekad su oni sve to imamo na raspolaganju.

    3.2. Priprema podataka

    Problemi koji se danas javljaju pri implementaciji dubinskih analiza podataka jesu najee vezani uz same podatke i njihovu pripremu. Proces koji obuhvaa ove aktivnosti i zahtjeva posebnu panju se sakriva iza naziva ETL proces (eng. Extraction, Transformation and Loading). Ovaj proces je nuno dobro odraditi da bi se kasnije mogli napraviti dobri modeli ili pak izluiti uzorci. On je baza za sve daljnje aktivnosti, a esto odnosi i do 80% vremena cjelokupne dubinske analize podataka. ETL je nastao i prije pojave dubinske analize podataka i poslovne inteligencije. Potreba za njim se pokazala ve pri oblikovanju skladita podataka.

    Kao to mu i ime kae, ETL se sastoji od tri glavna dijela koji su redom:

    1. ekstrahiranje (izvlaenje) podataka iz raznih izvora,

    2. transformacija podataka da bi se zadovoljile poslovne potrebe,

    3. uitavanje, odnosno punjenje podataka u ciljni sustav.

    Izvorno su podaci najee kreirani i smjeteni unutar razliitih sustava. Ti sustavi pristupaju podacima na drugaiji nain, drugaije ih definiraju te koriste razliite formate. Izvori podataka, uz baze podataka, su esto i razliiti tablini formati i tekstualne datoteke s razliitim razdjelnicima (graninicima, eng. delimiters). Korak ekstrahiranja podataka podrazumijeva sve radnje koje je potrebno obaviti prije faze transformacije ETL procesa.

    Transformacija podataka podrazumijeva niz pravila i funkcija koje se izvode nad podacima, a ovise o ulaznim podacima i eljenom podatkovnom setu s kojim se moe dalje raditi. Ponekad je to vrlo kratak proces, a ponekad vrlo dugotrajan i zahtjevan te trai dodatne analize ulaznih podataka. Transformacije koje se nad podacima tipino izvode su: izbor odreenih varijabli (kolona, stupaca) s kojima e

    se u nastavku raditi usklaivanje kodiranih vrijednosti i njihovo

    prilagoavanje sustavu u koji se uitavaju izraunavanje nove vrijednosti (npr. ako ciljni sustav

    zahtjeva jedininu cijenu proizvoda a podaci sadre vrijednosti cijene za vie proizvoda i samu koliinu proizvoda; u tome sluaju emo dijeljenjem ulaznih vrijednosti dobiti onu koju sustav trai)

    sjedinjavanje podataka iz razliitih izvora u ovisnosti o samim podacima sjedinjavanje je mogue obaviti

    sljubljivanjem tablica jedne iza druge (to odgovara operaciji unije iz relacijske algebre) ili pak spajanjem tablica prema razliitim uvjetima (u relacijskoj algebri to odgovara razliitim join operacijama)

    sumiranje podataka (odabir odreene, zadovoljavajue razine opisa promatranog sustava)

    generiranje nadomjesnih kljueva dijeljenje varijable (npr. ako imamo jednu varijablu

    koja predstavlja datum i ujedinjuje podatak o danu, mjesecu i godini, a za ciljni sustav potrebno je imati te podatke razdvojene)

    transponiranje tablice (odgovara transponiranju matrice preokree stupce u retke i obrnuto).

    Konano dobiveni podaci se uitavaju u sustav analize ili u skladite podataka ovisno o postavljenom cilju. Sustavu analize potrebno je dostaviti i metapodatke o tome da li je neka od varijabli identifikator. Takoer je potrebno iz analize iskljuiti sve sinonime ciljne varijable. Od ostalih direktno meuovisnih varijabli potrebno je ostaviti u analizi samo one reprezentativne koje se ne mogu izvesti iz ostalih (barem ne prema dosadanjim znanjima o podacima). Na taj nain se izbjegava pronalaenje trivijalnih ovisnosti koje su otprije poznate i model inicijalno ne preferira neke injenice nad drugima. Baratanje s vrijednostima koje odskau

    Ponekad vrijednosti koje odskau jako utjeu na model i zakljuke koji iz njega proizlaze, a mogue je da su pogrene. U tome sluaju strunjak, koji dobro poznaje podatke, odluuje to e s njima uiniti. Mogua je primjena razliitih strategija. U nekim sluajevima se vrijednosti ostavljaju takvima kakve jesu. Ponekad se redovi koji sadre takove podatke briu iz seta podataka. Strunjak takoer moe izabrati ignoriranje nekih stupaca. esto se stree vrijednosti zamjenjuju nekim drugima umjesto takve vrijednosti upie se da podatak ne postoji (null), ili se upie prosjek varijable za cijelu populaciju. U nekim sluajevima dobro je postaviti vrijednost na razumni minimum ili maksimum.

    3.3. Izvori podataka

    Podaci koji se koriste u dubinskoj analizi mogu potjecati iz razliitih izvora. To mogu biti: relacijske baze podataka, skladita podataka, razliiti nestandardizirani sustavi koji pohranjuju podatke u datoteke specifine strukture, transakcijski podaci i drugi [6].

    Dananji informacijski sustavi omoguuju pohranu ogromnih koliina podataka. Meu ostalim, pohranjuju se i transakcijski podaci koji imaju svoje specifinosti te esto nisu odgovarajue iskoriteni za dobivanje novih informacija i saznanja. Transakcijski podaci opisuju odreeni dogaaj transakciju i kao takvi uvijek imaju i dimenziju vremena. S obzirom na tip transakcije koju opisuju, ti podaci sadre reference na odreene objekte. Tipine transakcije su financijske prirode (narudbe, rauni, uplate) ili opisuju odreene segmente poslovanja (planovi, zabiljebe o odreenim akcijama) ili se npr. tiu logistike (dostava, evidencija skladitenja, evidencija dostave) i slino. Meu ostalim, vrlo zanimljivim za istraivanje pokazali su se transakcijski podaci maloprodajnih lanaca. Tu je svaka transakcija opisana: datumom kupnje, identifikatorom kupca, listom artikala.

  • Preko atributa identifikatora kupca moe se doi do dodatnih podataka o kupcima koji su transakciju ostvarili dok se preko liste artikala moe doi do dodatnih informacija o svakome od artikala gdje se pokazuju vanima: npr. cijena dotinog artikla, proizvoa, bivanje na akciji i slino. Transakcijski podaci mogu opisivati i navike korisnika Interneta pohranjujui trojke podataka: identifikator korisnika, web stranica, vrijeme. Iz spomenutih se podataka mogu izvui razliiti zakljuci o koritenju nekih Internet lokacija i nainima navigacije kroz njih. Upravo nad ovakvim podacima najvie je upotrebljavana metoda otkrivanja asocijacijskih pravila koja uz odreene preduvjete kao rezultat daje razliita pravila o tome kod kojih je artikala vjerojatnija zajednika pojava u potroakoj koarici.

    4. METODE DESKRIPTIVNE DUBINSKE ANALIZE PODATAKA

    Generalni pristupi rjeavanju problema pri dubinskoj analizi podataka se nazivaju tehnikama, odnosno metodama dubinske analize. Za ocjenjivanje prediktivnih modela razvijene su razliite funkcije ocjene (tablice tonosti predvianja (confusion matrix) ili pak kumulativni grafovi dobitka (cumulative lift charts), vjerojatnost pogrene klasifikacije, suma kvadratne greke). Kod deskriptivnog modeliranja neto je tea situacija pri ocjenjivanju modela. U konanici vano je odrediti da li pronaeni uzorci uistinu odgovaraju realnom stanju te da li su primjenjivi. Tu odluku donosi ekspert iz domene problema dok se uinci neke odluke tek vide kroz vrijeme. Te je uinke teko mjeriti zbog tekoa eliminiranja ostalih parametara koji utjeu na konano funkcioniranje sustava u kojem se stvaraju analizirani podaci.

    Vano je napomenuti da prolaskom vremena od gradnje modela do njegove upotrebe (bilo da se radi o deskriptivnom ili prediktivnom modeliranju) performanse modela degradiraju. to je vremenska razlika vea, to je pojava vie izraena. Stoga je potrebno model nakon nekog vremena ponovno izgraditi.

    Kada se odabiru metode kojima e se podaci analizirati, uvijek se preporua krenuti od onih jednostavnijih. Ako se izabere pogrena metoda, lako se moe dogoditi da se previdi neka rudimentarna zakonitost. Za odabir prave metode, odnosno algoritma potrebno je iskustvo. U praksi se pokazalo da varijacije meu algoritmima imaju mnogo manji utjecaj na rezultate dubinske analize od same pripreme podataka.

    U ovome radu poblie su prikazane deskriptivne metode asocijacijska pravila i grupiranje.

    4.1. Asocijacijska pravila

    Metoda otkrivanja asocijacijskih pravila je dobro poznata i esto koritena metoda dubinske analize podataka. Ona otkriva uzorke koji se u podacima javljaju tj. zakonitosti koje se tiu odreenog aspekta promatranih podataka. Problem koji se javlja kod otkrivanja uzoraka jest taj da je potencijalnih uzoraka jako mnogo. injenica da su oni meusobno povezani olakava i njihovo pronalaenje. Tu se koriste koncepti generalizacije odnosno specijalizacije u svrhu lakeg pronalazaka konanih uzoraka tj. pravila (u sluaju da vrijedi neko pravilo vrijedi

    i njegova generalizacija). Postojei algoritmi prolaze nekoliko puta kroz itanje ulaznih podataka tako da je njihova uinkovitost dosta dobra i kod velikih podatkovnih setova. U nekim je sluajevima takoer mogue uzorkovanje ulaznih podataka.

    Pravila su po svojoj prirodi diskretna tj. i lijeva i desna strana pravila poprimaju vrijednosti 1 ili 0 (istina ili la). Zbog toga su pravila prikladna upravo za modeliranje diskretnih, kategorijskih varijabli. Uz odreene prilagodbe ulaznih podataka, pravila je mogue izgraditi i za podatke ije varijable poprimaju vrijednosti iz skupa realnih brojeva. U tom je sluaju potrebno napraviti kvantizaciju tih varijabli. Iako je mogue za to koristiti i kompleksne funkcije, najee se rabe jednostavne diskretizacije po svakoj varijabli zasebno.

    Izgraeni model asocijacijskih pravila ini skup vjerojatnosnih izjava koje opisuju zajedniko pojavljivanje odreenih objekata u transakcijama s odreenom vjerojatnosti [7]. U sluaju da dobivenih pravila nema previe ona se jednostavno interpretiraju i primjenjuju. Izjave, odnosno pravila su jednostavne strukture: 'Ako A onda B' ili krae: 'A B', gdje su A i B jedan ili vie elemenata transakcija (najee artikli ili grupacije artikala) te je AB=. Stroi, matematiki zapis asocijacijskog pravila jest:

    ( (A1=1) ... (Ak=1) ) ( (Ak+1=1) ... (Ak+i=1)).

    esto se krae zapisuje:

    ( A1 ... Ak ) ( Ak+1 ... Ak+i).

    Struktura (A1=1) ... (Ak=1) se naziva skupom elemenata (eng. itemset) te je pronalaenje zanimljivih skupina tj. onih koje se esto pojavljuju (eng. frequent itemsets) najvaniji zadatak algoritama koji slue za otkrivanje asocijacijskih pravila.

    Sva pravila koja mogu biti generirana nisu jednako zanimljiva ili znaajna. Stoga su uvedeni odreeni parametri te se pri generiranju pravila postavljaju odreena ogranienja na njih kako bi se dobila najupotrebljivija pravila. Najpoznatiji parametri su potpora i pouzdanost.

    Potpora (ili podrka, eng. support) nekog elementa A (ili pak grupe elemenata) je vjerojatnost pojavljivanja tog elementa u sluajno odabranoj transakciji:

    p(A)supp(A)potpora(A) ==

    atransakcij jukupan broA artikl sadre koje atransakcij broj

    potpora(A) =

    Pouzdanost pravila (eng. confidence) A B je odreena izrazom:

    A sadre koje atransakcij brojBi Ai sadre koje atransakcij broj

    B)(Apouzdanost =

    p(A)B)p(A,

    potpora(A)B) (A potpora

    B)(Apouzdanost ==

    Pouzdanost zapravo kazuje kolika je vjerojatnost pojavljivanja elementa transakcije (ili grupcije elemenata) B u transakciji ako znamo da je element (ili grupcija elemenata) A sadran u transakciji. Openito gledajui, pravila s najveom pouzdanou su ujedno i najvrednija. Ipak, ponekad ta pravila 'rade' loije nego kod nasuminog

  • izbora transakcije gdje e se pojaviti element B. Zbog toga je uvedena i nova mjera nazvana poboljanje:

    B)lift(AB)e(Apoboljanj =

    ji transakcinasumicnoj u Bpojavest vjerojatno pravila pouzdanost

    B)lift(A =

    p(B)p(A)B)p(A,

    B)lift(A1=

    Algoritam rezultira asocijacijskim pravilima koja zadovoljavaju specificirane mjere analitiara: minimalne potporu, pouzdanost i poboljanje (mogue je i birati koje parametre e algoritam uzimati u obzir).

    Jedan od nedostataka ove metode je dobivanje velikog broja pravila koja se ponavljaju ili koja se preklapaju. Pravila su esto nepregledna i teko primjenjiva za izoliranje korisnih informacija.

    4.2. Grupiranje

    Grupiranje se esto naziva i segmentiranje, klasteriranje, a engleski mu je naziv Automatic Cluster Detection ili Cluster Analysis. U daljnjem tekstu e se nazivi segment, grupa ili grupacija koristiti kao sinonimi.

    Ova metoda deskriptivnog modeliranja koristi se kada analitiar pretpostavlja da postoje prirodne grupacije jedinki unutar populacije. Takoer se koristi i za smanjenje kompleksnosti upotrebe drugih metoda nad podacima, i to na nain da se daljnja analiza vri nad pojedinim segmentima (klasterima). Postoji nekoliko pristupa za formiranje samih segmenata te na taj nain razlikujemo razliite metode [6]:

    1. metode podjele kree se od stanja u kojem su sve jedinice (zapisi, entiteti) u jednome segmentu. Nakon toga se segment dijeli na dva ili vie manjih segmenata. Proces se ponavlja dok se svaka instanca (objekt promatranja) ne nae u zasebnom segmentu. Tokom cijelog procesa se pojedinim podjelama pripisuje ocjena koja se na kraju koristi za odreivanje najbolje razine segmentacije. Tu spada i jedan od najpoznatijih algoritama: algoritam k-srednjih vrijednost.

    2. hijerarhijske metode stvaraju hijerarhijsku dekompoziciju podacima opisanih objekata. Nihova je osnovna podjela na aglomerativne ('bottom up') ili partitivne ('top-down'). Aglomerativni algoritmi poinju na nain da svaki element stave u zaseban segment koje onda spajaju u uzastopne, vee segmente. Partitivni algoritmi poinju rad s cjelokupnim skupom podataka koje onda dijele u uzastopne manje segmente. Prednost hijerarhijskog grupiranja je u tome to analitiar moe proizvoljno birati razinu na kojoj e promatrati oformljene segmente.

    3. metode bazirane na gustoi grupiraju objekte na osnovu 'gustoe'. Te metode poveavaju segmente na osnovu gustoe susjednih objekata ili pak prema posebno definiranoj funkciji gustoe.

    4. metode bazirane na mrei prvo kvantiziraju prostor objekata u konaan broj elija koje formiraju mreu i

    onda stvaraju grupacije na dobivenoj mrenoj strukturi.

    5. metode bazirane na modelu kreu s postavljenim hipotezama za svaki segment i smjetaju objekte na nain da najbolje pristaju modelu.

    6. metode za visokodimenzionalne podatke posebne metode razvijene za ovakav tip podataka. esto se primjenjuju primjerice na tekstualne podatke.

    7. metode bazirane na ogranienjima grupiraju objekte na osnovu ogranienja zadanih od strane aplikacija ili pak od strane korisnika.

    8. detekcija odskauih vrijednosti slui za detekciju i objanjavanje neuobiajenog smjetaja objekata u prostoru razapetom varijablama. Koristi se primjerice za otkrivanje prijevara u bankarstvu, usmjereni marketing, medicinske analize i drugo.

    Osnovni principi grupiranja biti e prikazani na primjeru jednog od najee koritenih algoritama: algoritma k-srednjih vrijednosti.

    Ovaj algoritam najbolje radi kada su ulazni podaci uglavnom numeriki (kada ga ine kvantitativne varijable). Prema vrijednostima koje pojedine varijable poprimaju, svaki zapis (jedinka promatranja) se smjeta u multidimenzionalnom prostoru zapisa (svaka varijabla predstavlja odreenu dimenziju). Unutar tog multidimenzionalnog prostora jedinke esto stvaraju prirodne grupacije (segmente, odnosno klastere). Segmente karakterizira mala udaljenost meu pripadnicima jednog segmenta i vea udaljenost meu pripadnicima razliitih segmenata. Kada je rije o udaljenosti, onda se najee koristi Euklidska udaljenost. Udaljenost izmeu i-te i j-te jedinice promatranja se tako rauna prema formuli:

    ( )2/1

    1

    2)()(),(

    =

    =

    p

    aaaE jxixjid

    )(iax predstavlja vrijednost a-te varijable (atributa) za i-tu jedinku promatranja (zapis),

    )( jax predstavlja vrijednost a-te varijable za j-tu jedinku promatranja, jedinke se nalaze u p-dimenzionalnom prostoru (entitetima se pridruuje p

    varijabli). Da bi ovakvo raunanje udaljenosti imalo smisla i da se

    ne bi preferirala niti jedna injenica nad drugom, potrebno je varijable normalizirati.

    Jedinice promatranja se pridruuju segmentima u iterativnom postupku pri emu se zadaje 'k' koji predstavlja pretpostavljeni broj postojeih segmenata. Proces poinje odabirom centroida (sredita segmenata) kao sluajno odabranim zapisima. U daljnjim koracima ta se sredita pomiu na toke u p-dimenzionalnom prostoru koje najee ne predstavljaju niti jedan konkretan zapis, a izraunavaju se kao sredina tom segmentu pridjeljenih opservacija. Kada centroidi prestanu kroz iteracije mijenjati mjesto, dolo se do gotovog modela. Model se najee ocjenjuje na osnovu rasipanja zapisa unutar svakog pojedinog segmenta i na osnovu udaljenosti meu segmentima.

    Ponekad konani model ovisi o sluajno odabranim poetnim centroidima. Zato bi postupak trebalo ponoviti s razliitim poetnim uvjetima i usporediti rezultate.

  • Najprikladniji 'k', tj. broj prirodnih segmenta je esto nepoznat. Stoga analitiari stvaraju nekoliko modela pa biraju najprikladniji za interpretaciju. Postoje odreeni algoritmi koji omoguuju pronalaenje najboljeg broja segmenata unutar nekog raspona.

    Pri grupiranju posebnu panju treba posvetiti mjerama udaljenosti. U tekstu je ve spomenuta Euklidska udaljenost. To je ljudima najprirodnije odreivanje udaljenosti u prostoru u kojem se kreu (esto je koriten naziv zrana udaljenost). Ipak, s obzirom na karakteristike podataka, analitiar moe birati i izmeu ostalih mjera udaljenosti (kao to su Manhattan udaljenost, ebievljeva udaljenost, Mahalonobisova udaljenost itd. [8]). Ono to im je svima zajedniko jesu sljedea svojstva (d predstavlja mjeru udaljenosti, a i i j su razliite jedinke promatranja):

    1. d(i,j) >= 0; 2. d(i,i) = 0; 3. d(i,j) = d(j,i); 4. d(i,j)

  • otkrivanje zanimljivih asocijacijskih pravila, a da se ne narui privatnost podataka [13].

    Asocijacijska pravila esto se koriste i za provjeru postavljenih poveznica nekog internetskog portala. Ako asocijacijska pravila iznau da se link koristi esto tada je oito dobro postavljen, ako se pak iznae negativno asocijacijsko pravilo tada se radi o krivo postavljenoj poveznici.

    Neka se istraivanja bave pronalaenjem asocijacijskih pravila nad nepotpunim i zagaenim podacima te odreenim postupcima ublaavaju taj problem.

    Kod grupiranja veliki su izazovi: skalabilnost, mogunost rada s razliitim tipovima atributa, otkrivanje grupacija koje su specifinog oblika, ugradnja ekspertnih znanja iz domene problema, mogunost rada s neistim podacima, visoka dimenzionalnost podataka, interpretacija segmenata i dr.

    Kada se govori o povezanosti izmeu dubinske analize podataka i skladita podataka (kao njihovog izorita), tada postoji vie razina povezanosti: od nepovezanih sustava do integriranja algoritama dubinske analize u sama skladita podataka. Istraivanja ovih potonjih pokazuju se vrlo zanimljivima. Na tritu ve postoje neke baze podataka koje imaju ugraene odreene funkcionalnosti dubinske analize ([14]).

    Jedno od novijih podruja primjene dubinske analize je obrazovanje te je tu razvijena i sasvim nova disciplina (eng. educational data mining). Neke od mogunosti primjene odreenih metoda prikazane su u [15] i [16].

    6. ZAKLJUAK

    Upotreba dubinske analize podataka uzela je velik zamah te se uvelike razvila u posljednjih 10 godina. Ipak, jo je mnogo neistraenih podruja i mogunosti poboljanja, a nove mogunosti upotrebe bilo da se radi o znanstvenim sredinama ili poslovnim okruenjima svakodnevno se pojavljuju. to se tie poslovnih okruenja, u posljednje vrijeme su vrlo zanimljivi preporuiteljski sustavi koji koriste upravo razliite metode dubinske analize podataka prilagoavajui ih svojim specifinostima. Postoje mogunosti poboljanja razvijenih algoritama za odreene specifine probleme, mogunosti boljeg baratanja s podacima, kako s onim kvalitetnim i tonim, tako i s onim 'neistim'. Izazovi kao to su utjecaj same tehnike na krajnje rezultate i eliminacija pristranosti analitiara te s druge strane inkorporiranje domenskog ekspertnog znanja u same metode i dalje predstavljaju izazove. U radu je prikazan okvir dubinske analize podataka dok su neke metode detaljnije razraene uz prikaz najnovijih istraivanja i ostvarenja u njihovoj primjeni. Takoer su detaljnije prikazane odreene mogunosti ostvarivanja napretka.

    LITERATURA

    [1] Berry, M.J.A. & Linoff, G.S. (2000)., Mastering Data Mining, Wiley: New York, 2000.

    [2] Goodman, A.; Kamath, C. & Kumar, V. (2007).: Editorial Data Analysis in the 21st Century,

    Statistical Analysis and Data Mining, Vol. 1, No. 1. (2008), pp 1-3, 1932-1864, John Wiley \& Sons, Inc., USA

    [3] Hand, D.; Mannila, H.; Smyth, P. (2001). Principles of Data Mining, The MIT Press, ISBN: 026208290, USA

    [4] Skupina autora: 'CRISP_DM 1.0, Step by step data mining Guide', http://www.crisp-dm.org/CRISPWP-0800.pdf

    [5] I. H. Witten, E. Frank: Data Mining: 'Practical Machine Learning Tools and Techniques (Second Edition)', Morgan Kaufmann, June 2005

    [6] Han, J. & Kamber, M. (2006).: Data Mining Concepts and Techniques, Morgan Kaufmann Publishers, ISBN:1-55860-901-6, San Francisco, USA

    [7] Agrawal, R.; Imielinski, T. & Swami, A. (1993).: Mining Association Rules Between Sets of Items in Large Databases, Proceedings of the 1993 ACM SIGMOD international conference on Management of data, pp 207-216, 0-89791-592-5, May 25-28, 1993, Washington, D.C., United States

    [8] Dalbelo Bai, B.; Bogunovi N.: Otkrivanje znanja u skupovima podataka, biljeke s predavanja (2006./2007.)

    [9] Pasquier, N.; Taouil, R.; Bastide, Y.; Stumme, G. & Lakhal, L. (2005).: Generating a condensed representation for association rules. Journal of Intelligent Information Systems, Vol. 24, No. 1. (January 2005), pp 29-60, 0925-9902

    [10] Cheung, D. W. ; Wang, L.; Yiu, S. M. & Zhou B. (2007). Density-Based Mining of Quantitative Association Rules, In: Knowledge Discovery and Data Mining. Current Issues and New Applications, 257-268, Springer Berlin/Heidelberg, 978-3-540-67382-8, Germany

    [11] Xu, Y. & Li, Y. (2007).: Mining Non-Redundant Association Rules Based on Concise Bases. International Journal of Pattern Recognition and Artificial Intelligence, Vol. 21, No. 4. (June 2007), pp 659-675, 0218-0014

    [12] Orange softver namijenjen dubinskoj analizi podataka zasnovan na komponentama, dostupan na: http://www.ailab.si/orange/

    [13] Wong, W.K. i grupa autora (2007): Security in Outsourcing of Association Rule Mining, VLDB, Vienna, 2007.

    [14] Oracle Data Mining Administrator's Guide (11g release 1 (11.1)), April 2008., Oracle Corporation

    [15] Vrani, M.; Pintar, D.; Skoir, Z.: The use of data mining in education environment, Proceedings of Contel, Zagreb, 2007.

    [16] Vrani, M.; Pintar, D.; Skoir, Z.: Data Mining and Statistical Analyses for High Education Improvement, Proceedings of MIPRO 2008, pp 164-169