63
TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić PREVENTIVNO DJELOVANJE NA KRIMINALNE AKTIVNOSTI BIG DATA TEHNOLOGIJOM DIPLOMSKI RAD br. I 452 Zagreb, siječanj 2015.

TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ

Specijalizacija informatika

Luka Petrić

PREVENTIVNO DJELOVANJE NA KRIMINALNE AKTIVNOSTI

BIG DATA TEHNOLOGIJOM

DIPLOMSKI RAD br. I 452

Zagreb, siječanj 2015.

Page 2: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ

Specijalizacija informatika

Luka Petrić

JMBAG: 0246018522

PREVENTIVNO DJELOVANJE NA KRIMINALNE AKTIVNOSTI

BIG DATA TEHNOLOGIJOM

DIPLOMSKI RAD br. I 452

Povjerenstvo:

Zagreb, siječanj 2015.

Page 3: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić
Page 4: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić
Page 5: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

I

Sažetak

Tema diplomskog rada je preventivno djelovanje na kriminalne aktivnosti big data

tehnologijom. U velikoj mjeri rad je predstavljen kroz teoretska načela sve prisutnije big data

tehnologije koja su popraćena konkretnim primjerima iz prakse.

Svaka cjelina, osim uvoda, u kojem se iznosi sama problematika rada, osim teoretskog

dijela sadrži i primjer iz prakse. Kao osnovna tema rada je prikazana konkretna primjena big

data tehnologije u prevenciji kriminaliteta. Primjer je odabran iz razloga što zahtjeva davanje

odgovora na jedno od najkompleksnijih pitanja „Što bi bilo kad bi bilo ?“ Te kao takav

zahtjeva primjenu velikih količina podataka tj. big data načela u punom smislu te riječi.

Page 6: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

II

Sadržaj 1. Uvod ...............................................................................................................................................1

2. PODATAK KAO RESURS ....................................................................................................................3

3. OVISNOST O PODATKOVNOJ ODREĐENOSTI ....................................................................................6

3.1. Kvantificiranje ..........................................................................................................................7

4. VREDNOVANJE PODATAKA ............................................................................................................ 10

4.1. Opcionalna vrijednost podataka ............................................................................................. 11

4.2. Ponovno korištenje podataka ................................................................................................. 12

4.3. Kombinacija podataka ............................................................................................................ 14

4.4. Procjena vrijednosti podataka ................................................................................................ 15

4.5. Određivanje cijene podataka .................................................................................................. 17

5. PREDIKTIVNA ANALITIKA ............................................................................................................... 19

5.1. Što možemo predvidjeti ......................................................................................................... 19

5.2. Međuljudski odnosi i opravdanost predviđanja ...................................................................... 20

6. PREVENTIVNO POLICIJSKO DJELOVANJE ........................................................................................ 22

6.1. Izrada predviđanja .................................................................................................................. 23

6.1.1. Hot - spot analiza ............................................................................................................. 25

6.1.2. Heurističke metode ......................................................................................................... 33

6.1.3. Regresijske metode ......................................................................................................... 36

6.1.4. Near – repeat metoda ..................................................................................................... 38

6.2. Ulazne varijable metoda ......................................................................................................... 39

6.3. Vremensko prostorna analitika ............................................................................................... 42

7. PRIMJER IZ HRVATSKE ................................................................................................................... 47

ZAKLJUČAK ....................................................................................................................................... 52

Summary .......................................................................................................................................... 54

Page 7: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

III

Popis oznaka i kratica

IBM -američka tvrtka koja je jedna od pionira u razvoju računarstva i informacijskih

tehnologija (eng. International Business Machines).

OCR -računalni program za optičko prepoznavanje znakova (eng. Optical Character

Recognition).

CAPTCHA - potpuno automatizirani javni Turingov test za razlikovanje računala od ljudi

(eng.Completely Automated Public Turing test to tell Computers and Humans Apart ).

AOL - američka multinacionalna medijska korporacija (eng. America Online).

NSA -Središnja sigurnosna služba (eng. National Security Agency/Central Security Service,

NSA/CSS).

LAPD –odjel Los Angeles policije (eng. Los Angeles Police Department)

BJA -ured za pomoć pravosuđu (eng. Bureau of Justice Assistance)

NJA -nacionalni ured za pomoć pravosuđu

GIS -geografski informacijski sustav (eng. Geographic Information System)

KDE -naziv funkcije (eng. Kernel Density Estimation )

PAI -indeks pouzdanosti procjene (eng. Prediction Accuracy Index)

ST-GAM -naziv modela (eng. Spatiotemporal Generalized Additive Model)

LST-GAM -naziv modela (eng. . Local Spatiotemporal Generalized Additive Model )

HGSS -Hrvatska gorska služba spašavanja

UNDP – program Ujedinjenih naroda za razvoj (eng. United Nations Development Program)

TK25 -osnovna službena državna karta (Topografska Karta 25)

Page 8: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

IV

Popis slika

Slika 1 Primjer grid mapp metode

Slika 2 Rezultat korištenja Crime Stat softverskog alata

Slika 3 Primjena KDE funkcije (konturni prikaz)

Slika 4 Primjena KDE funkcije (toplinski prikaz)

Slika 5 Manualna primjena grid mapping metode

Slika 6 Quantum GIS softverski alat (dva podatkovna sloja)

Slika 7 Quantum GIS softverski alat (tri podatkovna sloja)

Slika 8 Quantum GIS softverski alat (četiri podatkovna sloja)

Page 9: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

V

Page 10: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

1

1. Uvod

Prema definiciji, ljudski rad se definira kao svrsishodna i svjesno organizirana

djelatnost ljudi radi postizanja nekog korisnog učinka. Dok se u apstraktnom smislu

predstavlja utrošak ljudske radne snage: intelektualnog napora, mišićnog napora, psihološkog

stresa i vremena da bi se postigao neki cilj i kao takav predstavlja sredstvo razmjene.

Vodeći se tom definicijom, primjerice, pišući ovaj diplomski rad, nedvojbeno su

prisutni svi elementi koji definiraju rad kao takav. Nadalje iz toga proizlazi da je konačni

produkt svojevrsno sredstvo razmjene, koje ima svoju vrijednost. Povlačeći paralelu između

definicije rada i ovog diplomskog rada možemo vidjeti da i ovaj diplomski rad ima svoju

vrijednosti iako predstavlja u osnovi hrpu podataka koji nužno nemaju fizičku komponentu.

Da podatci imaju vrijednost ljudi su shvatili već u najranijim danima svoga postojanja

stvarajući raznorazne slike i tekstove u kojima je bilo pohranjeno određeno znanje, određena

vrijednost. Kako se je čovjek s vremenom intelektualno razvijao možemo reći kako je i sve

više vrijednosti pohranjivao u podatke.

Ta čovjekova djelatnost traje već stoljećima, te se može primijetiti kako je s

vremenom evoluirala ne samo u smislu obima već i u načinima primjene akumulirane

vrijednosti. Evolucijski lanac stvaranja i primjene podataka najveće promjene doživljava u

današnjim danima u kojima je u potpunosti riješen, nazovimo problem stvaranja podataka, a

težnja usmjerena na samu akumuliranu vrijednost.

Razlog tome je prvenstveno pojava računala koja su u prvi mah omogućila lako

stvaranje novih podataka, a nakon toga i izvođenje kompleksnih analiza nad podacima.

Pojavom mogućnosti kompleksnih analiza koje po složenosti nadilaze čovjekove umne

sposobnosti obrade podataka, javila se i do današnjih dana neviđena mogućnost stvaranja veće

vrijednosti kombinacijom analiza nad manjim jedinicama podataka tj. mogućnost veće

iskoristivosti podataka.

Otkrivanje skrivenog potencijala u današnje vrijeme dovodi do potpune promjene u

odnosu prema podatcima, prvenstveno što otkrivanje novih, skrivenih vrijednosti podataka

ponekad ima direktan učinak i na financijskom planu, a što je još bitnije i u onom segmentu

života koji je po prioritetu iznad svih financijskih planova. Zadiranje u ta poprilično osjetljiva

Page 11: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

2

područja života neizbježno za sobom povlači činjenicu da se u praksi ne biraju sredstva što za

posljedicu ima niz kako pozitivnih ali i, u društvu uvijek primjetnijih, negativnih efekata.

Da bih se ostvarili pozitivni efekti novog sagledavanja podatkovne vrijednosti,

nedvojbeno je potrebno riješiti probleme signifikantnih negativnih efekata koji snažno utječu

na stupanj skepticizma od strane društva. Paradoksalno je da rješenje tog problema leži

također u podatcima. Naime rješenje je u stvaranju novih zakona kojima se regulira ponašanje

na ovom području, što je ništa drugo nego stvaranje novih podataka, te u boljem upoznavanju

javnosti s pozitivnim stranama ali isto tako ne izostavljajući negativne efekte ovog novog

pristupa, što je ekvivalentno analizi podataka od strane šire javnosti o ovoj temi.

Page 12: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

3

2. PODATAK KAO RESURS

Novi trend u pristupu podatcima najbolje je opisao IBM-ov stručnjak za podatke Jeff

Jonas rečenicom: „Pustite da vam podatci govore“. Inače veliki zagovornik Big Data1

tehnologije ovom rečenicom je naglasio postojanje ogromnih podatkovnih potencijala kojima

se trenutno raspolaže kao i postojanje mogućnosti izvlačenja dodatnih vrijednosti iz tih

podataka tj. mogućnosti da „podatci progovore“ .[1]

Taj novi pristup u radu s podatcima na prvi pogled se čini potpuno prirodan i

jednostavan zbog tehnološkog razvoja i eksponencijalnog rasta procesorske moći, što je

dijelom točno. Bez tehnoloških mogućnosti kojima danas raspolažemo ovakav pristup je

nemoguć jer nadilazi analitičke mogućnosti čovjeka. Kada ovaj pristup analiziramo kroz

prizmu jednostavnosti možemo pasti u zamku te se isto tako osloniti na moć današnjih

tehnoloških mogućnosti, preskačući jedan krucijalan korak, a to je prilagodba načina

razmišljanja na osnovu kojeg se primjenjuje tehnologija te u konačnici polučuju rezultati.

U osnovi možemo razlikovati tri temeljna pomaka u načinu razmišljanja:

- stavljanje naglaska na količini podataka, rad s ogromnim količinama podataka

- ne inzistiranje na potpunoj točnosti podataka koliko na količini

- primjena korelacijskih metoda

U mnogim situacijama društvo zadržava stari pristup podatcima, što se tiče njihove

količine i volje za skupljanjem. Jednostavno nije još razvijena svijest o slobodi u sferi

skupljanja podataka sa svih područja ljudskog djelovanja, upravo suprotno, u nekim

slučajevima naglasak se stavlja na razvoju sustava koji limitiraju količinu podataka s kojima

se radi. Nastojeći time nastaviti s primjenom zastarjelog načina gledanja na podatke koji su

podijeljeni na manje skupove ovisno o kontekstu na koji se odnose, ne aplicirajući pri tome

tehnološka dostignuća današnjice koja daju mogućnost sagledavanja skupa podataka kao

jedinstvenog entiteta koji ne robuje kontekstu koji je diktirao prvobitno prikupljanje.

Strah od rada s velikim količinama podataka potječe iz prošlosti kada je cjelokupna

obrada bila oslonjena na čovjekove umne sposobnosti. Naime postojalo je ograničenje u

1 Izraz "velika količina podataka" (eng. Big data) iz softverskog inženjerstva i računarskih nauka, opisuje setove podataka koji se povećavaju tako brzo da postaje mučno raditi pomoću "on-hand" tj. trenutno dostupnih alata za uređivanje baza podataka

Page 13: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

4

količini podataka koje čovjek može obraditi u koliko toliko razumnom roku. Najbolji primjer

za to je provedba popisa stanovništva kao jednog posla koji nije tolerirao, u prošlosti, ali u

nekim slučajevima i danas, tako željenu mogućnost smanjenja opsega podataka. Koliko je

bilo stresno i naporno raditi s velikim količinama podataka govori i činjenica da je obrada

popisa stanovništva u Americi u 19 st. trajala 8 godina. Kako bih se doskočilo konkretno

ovom spomenutom problemu u početku se počinje pribjegavati razvoju tehničkih rješenja.

Konkretno usvojeno tehničko rješenje je predstavljala tehnologija bušenih kartica razvijena od

strane IBM-a 2 koja rezultira ostvarenjem za to vrijeme nezamislivog skoka u brzini,

smanjivši vrijeme obrade podataka popisa stanovništva na svega godinu dana. [7]

Primjena nove tehnologije dovela do drastičnog pomaka, ali je pomak u vremenu ipak

postojao. Iako je pomak sada bio dosta kraći „samo godina dana“ imao je izravan učinak na

konačnu upotrebljivost podataka koji su praktički u trenutku objavljivanja već stvar prošlosti.

[1]

Zbog takvog stanja tehnologije od ključne važnosti za relevantnost podataka bila je

potreba djelovanja na same podatke oslanjajući se na statističke metode uzorkovanja (eng.

sampling). Početna ideja je bila odabrati takav uzorak koji će najbolje reprezentirati čitav

skup podataka, što je u osnovi uključivalo intuiciju statističara koji procjenjuje valjanost

uzorka. Takav pristup pokazao se potpunim promašajem što je 1934.g. Poljski statističar Jerzy

Neyman praktično dokazao otkrivši veliku netočnost koji ovakav pristup generira.

Brzo se zaključilo da razlog velikih odstupanja leži u uplitanju subjektivizma u

formiranju uzoraka. Kako bih se taj problem riješio ubrzo je prihvaćena metoda nasumičnog

uzorkovanja, koja se pokazala iznenađujuće korisnom, i što je najvažnije rezultirala je

zadovoljavajućim stupnjem točnosti. U 19 od 20 slučajeva pogreška je iznosila oko 3%,

nevažno da li se radilo o stotinama tisuća ili stotinama milijuna podataka. [1]

Uspjeh ove metode leži u matematičkoj činjenici prema kojoj marginalna vrijednost

informacije koju nosi svaki novi podataka, kako broj podataka postaje sve veći, je sve manja.

Ova metoda je brzo našla primjenu i na području proizvodnje omogućujući napredak u

kvaliteti lakšim i jeftinijim te je postala pandan tadašnjeg mjerenja.

Iako je ovaj način mjerenja imao široko područje primjene i rezultirao zadovoljavajućim

rezultatima za mnoga područja, postojala je slaba karika koja se odnosila na „uspješnost

2 IBM je američka tvrtka koja je jedna od pionira u razvoju računarstva i informacijskih tehnologija.

Page 14: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

5

slučajnosti“ u stvaranju uzorka koji mora biti slučajan, ali istovremeno mora na

zadovoljavajući način reprezentirati cijeli skup.

Kao što je već rečeno, metoda se oslanja na čistu matematiku smanjenja marginalne

vrijednosti što izravno diktira primjenu metode isključivo na makro razini. Nedjelotvornost

primjene metode na mikro razini onemogućila je primjenu kod primjerice analize pod

kategorija i manjih segmenata podataka. Manjkavost uzorkovanja najbolje se može predočiti

usporedbom sa starom fotografijom , koju kada gledamo iz daljine izgleda dobro ali kada

zumiramo postaje mutna i nejasna.

Spomenutom usporedbom, možemo i procijeniti prirodu uzorkovanja kao metode koja

je u biti samo alternativa koja u datom trenutku daje zadovoljavajući rezultati, ali istodobno

zanemaruje veliki spektar informacija skrivenih u dijelu podataka koje uzorak ne obuhvaća.

Metodom je naglasak stavljen samo na, za taj trenutak, interesantni dio promatranja, čime se

nastoji smanjiti cijena i vrijeme ispitivanja. Postavlja se pitanje koliko je to opravdano?

Primjerice metoda uzorkovanja je jedno vrijeme široko upotrebljavana u analiziranju

DNK 3 strukture u traganju za uzorcima koji upućuju na povećan rizik od raznoraznih

oboljenja. Metoda je davala zadovoljavajuće rezultate i u vremenskom i financijskom smislu

(cijena takvog testiranja 2007.g. iznosila je nekoliko stotina dolara). Na žalost ubrzo se

ustanovilo da je umjesto na prvi pogled ostvarene uštede u resursima ostvaren ogroman

gubitak gledajući kroz buduću primjenu prikupljenih podataka. Ovakvim načinom analize

zanemareni su svi oni podatci koji su izvan promatranih segmenata, a u kojima je u stvari

ključ napretka jer oni skrivaju ono što nam je nepoznato i kao takvo trebalo bi biti predmet

budućih istraživanja. Dokaz tome je i pomalo smiješna razlika u cijeni za „istu analizu DNK“

koja je u 2012. god. bila više od duplo veća u odnosu na 2007. god. te iznosila više od tisuću

dolara. [1]

Zanimljiv je podatak da je čovjek koji je bio pionir u mnogo čemu Steve Jobs4, ovog puta

ne u potpunosti svojom zaslugom, postao je u jednu ruku začetnik primjene novog načina

gledanja na podatke, kroz uzimanje u obzir latentne vrijednosti, zagovarajući podatkovnu

cjelinu nad segmentom. Koliko takav pristup donosi prednosti, poglavito u specifičnim

3 Dezoksiribonukleinska kiselina - DNK - je primarni genetički materijal. Ona je osnovni nosilac genetičke informacije (gena) u sveukupnom živom svijetu. 4 Steven Paul Jobs poznat je kao osnivač tvrtke Apple Computer. Bio je jedan je od najutjecajnijih ljudi u svijetu računalne industrije. Dana 30. lipnja 2004. Jobs je operiran od rijetke vrste tumora gušterače. Preminuo je 5. listopada 2011. u 56. godini.

Page 15: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

6

djelatnostima kao što je medicina najbolje govore riječi Steve Jobs-a: „Ja ili ću biti jedan od

prvih koji će pobijediti ovu vrstu raka ili ću biti jedan od zadnjih koji je od njega umro.“ Što u

praksi potvrđuje vrijednost podataka kao cjeline a ne kao segmenta, u konkretnom slučaju to

je značilo godinu života više.

3. OVISNOST O PODATKOVNOJ ODREĐENOSTI

Kako se jasno može uočiti, čak u mnogo slučajeva i kvantificirati prednost cjeline u

odnosu na segment. S vremenom se javila potreba prikupljanja podataka o svemu, kao

svojevrsni pokušaj prikaza svijeta kroz podatke.

Važnost svih podataka i mogućnost učenja iz njih otkrio je nesuđeni brigadir

Američke ratne mornarice Matthew Fontaine Maury davne 1839.g. Maury je uvidio potencijal

u starim pomorskim dnevnicima u kojima su bili na prvi pogled bezvrijedni podatci

(temperatura mora, morske struje, trenutne vremenske prilike) koji su stvarno to i bili kada su

se promatrali pojedinačno. Sklapanjem podataka u jednu cjelinu otkrivene su pravilnosti u

kretanjima vrijednosti bitnih za planiranje plovidbe.

Kolika je bila važnost prikupljenih podataka govori i cjelokupan sustav stvoren za

učinkovitu manipulaciju zapisima (eng. logs) prikupljenih tijekom plovidbe, koja je

omogućavala identifikaciju i razmatranje svakog zapisa na osnovu više pokazatelja, što je

razumljivo u ono vrijeme bilo limitirano dostupnom tehnologijom. [1]

Pandan takve ideje upravljanja zapisima u današnje vrijeme predstavlja Googlov

algoritam PageRank. Iako se PageRank ne upotrebljava za potrebe sređivanja log zapisa,

takvu ideju je uspješno prenio na analizu web poveznica (linkova) koje grupira na temelju

dodijeljene brojčane vrijednosti u razrede kojima je reprezentirana relevantnost svake web

stranice. U utvrđivanju razreda linka tj. web stranice iskorišteno je mnogo pokazatelja kao što

su relevantnosti ključnih riječi, broj zabilježenih posjeta te čitav splet odnosa među linkovima

u smislu glasa stranice A za stranicu B kroz link sa stranice A na stranicu B. Iza ove priče

stoji i mnoštvo drugih pokazatelja koji nisu otkriveni od strane Googla kako bih se spriječio

eventualni utjecaj od strane korisnika. [4]

Page 16: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

7

Za Maury-a možemo reći de je začetnik teorije koja vrijednost velikih količina

podataka objašnjava kroz sumiranje svih vrijednosti najmanjih jedinica od kojih se skup

sastoji. Da je to tako potvrđuje primjena takvog razmišljanja u praktičnom djelovanju nekih

najuspješnijih tvrtki današnjice, kao što Amazon, Yahoo i već spomenuti Google.

Za razliku od spomenutog razmišljanja, u današnje vrijeme se događa još jedan

evolucijski skok što se tiče svijeta podataka. Naime, da bih smo imali povod za skupljanje

podataka logično je da mora postojati i cilj zbog kojeg podatke skupljamo. U današnje

vrijeme se ta „logična veza“ povoda i cilja često gubi, i što je zanimljivo rezultira stvaranjem

ekstra vrijednosti podataka.

U današnje vrijeme uz trend povećane tendencije ka skupljanju što je moguće više, po

mogućnosti „svih podataka“ javlja se i težnja ka povezivanju podataka iz različitih područja

što praktično omogućuje ostvarenje više ciljeva iz jednog povoda. Primjer toga je istraživanje

znanstvenika Shigeomi Koshimizu-a o mogućnosti podatkovnog prikaza načina na koji

čovjek sjedi korištenjem većeg broja senzora. Kao što se može vidjeti iz predmeta

istraživanja, povod je bio isključivo znatiželja. Dok je povezivanjem s interesima u auto

industriji rezultirao stvaranjem jako sigurnog sustava protiv krađe automobila i sustava

informiranja o promjenama u stanju fokusiranosti vozača. Ovo je očiti primjer kako nešto što

naizgled nema nikakav podatkovni potencijal može producirati kvalitetne informacije. [1]

3.1. Kvantificiranje

Želja za prikazivanjem svijeta kroz podatke traje od kad postoji čovječanstvo, te

možemo reći da su metode bilježenja podataka pratile evolucijski put homo sapiensa5. Dugo

vremena sustavi prikupljanja podataka okarakterizirani su sa dvije temeljne radnje, a to je

mogućnost zapisa podataka i mogućnost interpretacije istih podataka.

Prvi šire primjenjiv sustav je rimski brojevni sustav, čija je upotreba bila dosta

ograničena iz razloga što je, u većini slučajeva, samo do neke mjere omogućavao, za

ozbiljnije korištenje podataka nužnu treću značajku sustava, a to je mogućnost provedbe

analize nad podatcima.

5 lat. Homo sapiens − umni čovjek.

Page 17: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

8

Pojavom arapskog brojevnog sustava problem analize podataka je riješen na

zadovoljavajući način čak i za potrebe u budućnosti zbog lakog obavljanja operacija nad

sustavom od strane čovjeka, ali što je još važnije lake pretvorbe u sustave razumljive

računalu, omogućavajući time automatizaciju u provođenju matematičkih operacija.

Rješavanje problema kvantificiranja stvari i pojava uvelike je zaslužno za stupanj

napretka ostvaren do današnjih dana. Svjesni koliko je spomenuto rješenje donijelo koristi za

cijelo društvo, potencijal daljnjeg razvoja na podatkovnom planu u zadnje vrijeme počeo se

tražiti i na drugim poljima kao što su tekst, geografska lokacija, sustavi interakcije itd. u

kojima se također nastoji naći treća komponenta koja daje mogućnost analize.

Rješavanje spomenutog problema na području teksta Google je započeo 2004.g.

pokretanjem projekta koji je za cilj imao omogućiti pretraživanje i pristup svakoj knjizi putem

interneta. Prvotni pristup je bio kroz opću digitalizaciju u svim značajnijim svjetskim

knjižnicama kroz postupak skeniranja svake stranice. Tim postupkom je na zadovoljavajući

način ostvaren pristup sadržaju ali mogućnost pretraživanja ostvarena je samo do određene

razine. Korisnik je mogao pretraživanjem doći do željene knjige, ali analiza sadržaja nije bila

moguća od strane računala, već je zahtijevala analizu od strane korisnika. [1]

Rješenje ovog problema bilo je u primjeni OCR6 softvera koji ne stvara, za računalo

nerazumljivu sliku stranice, nego tekst kojeg je moguće pretraživati. [11] Otvaranjem

mogućnosti pretraživanja otvorio se je čitav spektar mogućih analiza bilo na određenom,

užem segmentu, ili čak u cjelini nad čitavim izdavaštvom (nad cijelom bazom). Stvorila se

mogućnost provođenja širokog spektra analiza nad tekstom, do te mjere da je moguće utvrditi

učestalost upotrebe određenih riječi i na taj način u nekoj mjeri prodrijeti u tokove

razmišljanja na globalnom planu. [5] U akademskom svijetu ovako nešto dočekano je s

oduševljenjem, što je bio slučaj kod većine, dok je manji dio, mahom politički vrh u nekim

zemljama bio primoran na ostavke zbog otkrivenog plagiranja. [1]

Realno gledajući, ostvarivanje ovakvih mogućnosti analiziranja, kako u pogledu

obuhvata, tako i u složenosti za mnoge bih značilo ostvarenje konačnog cilja. Uzimajući u

obzir neiscrpnu vrijednost podataka tj. njihovu latentnu vrijednost, riječ konačno gubi

značenje, te iz toga proizlazi kako prethodno spomenute analitičke mogućnosti predstavljaju

samo cilj određene faze. Tako je primjerice Google kao pionir ovakvog načina razmišljanja

6 Optičko prepoznavanje znakova (eng. Optical Character Recognition, OCR)uključuje računalni softver koji je dizajniran tako da prevodi sliku otisnutog teksta s papira (koju obično učitamo sa skenera) u editabilni teks.

Page 18: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

9

uspješno implementirao rezultate ovih analiza u razvoju servisa za prevođenje, sagledavajući

ga kao matematički problem koji kao input koristi statistiku provedenih analiza, a kao output

daje kvalitetno prevođenje zbog kvalitetne supstitucije riječi jednog govornog područja u

drugi. Koja je isključivo proizrasla iz analitičkih sposobnosti koje tekstu daju dimenziju

podatka.

Ovakvim pristupom iz skupine podataka, nebitno kojeg su oblika, moguće je izvući

sve ono što je od interesa za korisnika. Primjerice Amazon je na osnovu istog skupa podataka

kao i Google (analizirajući digitalizirane knjižnice) stvorio poveznice između članaka u

raznim knjigama i na taj način ostvario povećanje prodaje predlažući korisnicima kupnju

literature koja je po sadržaju srodna s onom koju trenutno čitaju. [1]

Iz ovoga vidimo kako latentna vrijednost podataka uvijek postoji, a kakav će oblik poprimiti

ovisi samo o korisniku.

Page 19: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

10

4. VREDNOVANJE PODATAKA

Koliku vrijednost imaju podatci, naročito kada na njih gledamo na globalnoj razini.

Najbolje možemo uočiti na primjeru vrijednosti koju generira upotreba jedne jedine riječi od

strane korisnika.

Naime radi se o projektu CAPTCHA7 , koji na osnovu jedne riječi generira višestruke

koristi koje u nekim pogledima nije moguće posve financijski niti izraziti. Prvobitni cilj

projekta je zaustavljanje nereda na internetu u pravom smislu te riječi zbog gomilanja spam

poruka u mail sandučićima kako poslovnih tako i privatnih računa korisnika . Cilj je postignut

kroz korištenje slikovnog prikaza teksta čitljivog čovjeku, ali ne i računalu, barem ne u

razumnim vremenskim okvirima. Korisnik je praktički upisivanjem niza znakova prikazanih u

obliku iskrivljenog teksta na slici u poseban prostor dokazao da se iza mail adrese krije

stvarna osoba a ne računalo spremno za generiranje spam poruka. [8]

Primjenom ovog rješenja postignute je ogroman napredak na polju sigurnosti što je

rezultiralo primjenom CAPTCHA u milijunskim razmjerima. Kako se radilo zaista o

ogromnom poslu sagledamo li činjenicu da milijuni ljudi svakodnevno upisuju nasumično

generirani niz znakova. Autor projekta Luise von Ahen se dosjetio kako proširiti prvobitni

CAPTCHA projekt usmjeravajući tako ogromnu aktivnost u stvaranje korisnog produkta.

Luise von Ahen pokrenuo je projekt pod nazivom ReCAPTCHA koji umjesto

slučajno generiranog niza znakova koristi po dvije riječi koje nije mogao prepoznati OCR

softver u procesu digitalizacije pisanih materijala pokrenutog od strane projekta Google

Books8 .[12]

O veličini posla koji je tim postupkom napravljen govori podatak da je trideset godina

izdavaštva New York Timesa digitalizirano unutar godine dana u razdoblju od 2012.g. do

2013.g. a samo zahvaljujući činjenici da je iskorištena vrijednost upisivanja 100 milijuna

CAPTCHA izraza svaki dan, o čemu je i sustav sam izvijestio.

7 Skraćenica CAPTCHA nastala je 2000. godine, a osmislili su je Luis von Ahn, Manuel Blum, Nicholas J. Hopper (svi sa Carnegie Mellon University), i John Langford(tada u IBM-u). Skraćenica dolazi od engleskog Completely Automated Public Turing test to tell Computers and Humans Apart (u prijevodu: potpuno automatizirani javni Turingov test za razlikovanje računala od ljudi). 8 Google knjige je Google-ova tražilica zadužena za pretragu punog teksta knjiga koje Google skenira i pohranjuje u svoju digitalnu bazu podataka. Nekada se ta usluga nazivala Google Print, a pod tim nazivom je i predstavljena na Frankfurtskom sajmu knjiga u listopadu 2004. god.

Page 20: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

11

Razmotrimo li što to znači u financijskom smislu, dolazimo do ogromne svote koja

ovim postupkom podatkovne manipulacije postaje ništa drugo nego čista ušteda.

Pretpostavimo li da smo za ovaj posao angažirali zaposlenike. Uzmimo li da prosječno

vrijeme ispisa jednog ReCAPTCHA izraza traje 10 sekundi te se posao ponovi otprilike 100

milijuna puta dnevno. Dobivamo potrebu za više od pola milijuna radnih sati dnevno za

obavljanje ovog obima posla. Minimalna satnica u SAD-u iznosi 7.25$, što na dnevnoj bazi

iznosi 2 milijuna dolara, a godišnje nevjerojatnih 750 milijuna dolara. 2009.g. Google je

otkupio tehnologiju i inkorporirao je u cca. 200 000 web stranica, uključujući Facebook,

Twitter i Craigslist.

Priča o ReCAPTCHA tehnologiji naglašava postojanje latentne vrijednosti svakog

podatka, čak i najjednostavnije poslovne transakcije koja u eri Big Data revolucije posjeduje u

mnogo slučajeva veću vrijednost u financijskom smislu nego sama vrijednost obavljene

transakcije, ako je transakcija novčano izražena. Sve više se podatkovni resursi kompanija

promatraju kroz buduće upotrebe podataka, uzrokujući promjene čitavih poslovnih modela

kompanija. Poslovni modeli kompanija, naročito uspješnih poput Googla, Amazona,

Facebooka sve se više orijentiraju prema podatcima kao prema specifičnim materijalnim

resursima u proizvodnji , koji za razliku od klasičnih resursa ne gube na vrijednosti i gotovo

uvijek imaju neku vrijednost. Barem toliku da je trošak uklanjanja takvih podataka veći od

troška prikupljanja, koje u eri sveopće informatizacije postaje izrazito jeftino i jednostavno,

tako rekući usputno.

4.1. Opcionalna vrijednost podataka

Ujedno čini razliku između podataka kao resursa i klasičnih proizvodnih resursa.

Ostvarena je u smislu generiranja podataka za striktno određenu primarnu upotrebu koja se ne

mora podudarati s upotrebom tih istih podataka u njihovoj ne samo sekundarnoj nego

narednoj cikličkoj upotrebi.

Primarna upotreba podataka najčešće rezultira ostvarenjem vrlo male očite vrijednosti

podataka u usporedbi s ukupnom sadržanom vrijednosti. Inovativne kompanije kao što je

primjerice IBM svjesne su da svaki podatak posjeduje, ako povučemo paralelu s fizičkim

Page 21: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

12

svijetom, svojevrsnu potencijalnu energiju. Neupitno je da energija postoji samo ju je

potrebno osloboditi kroz cikličku primjenu podatka.

IBM je primjerice za potrebe pronalaženja optimuma u izgradnji infrastrukture

opskrbe energijom električnih automobila stvorio klasični primjer višestrukog korištenja

podataka, od primarne pa sve do stadija upotrebe koja graniči s područjem kojeg analiza

obuhvaća.

Primarna upotreba ostvarena je kroz upotrebu podataka prikupljenih od strane

indikatora napunjenosti baterija u automobilima u regulaciji stabilnosti naponske mreže. Dok

je sekundarna upotreba ostvarena u kalkulaciji optimalnih lokacija postaja za punjenje i

servisiranje pri čemu su u obzir uzeti podatci o trenutnoj lokaciji vozila kao i podatci o

prijašnjoj potrošnji vozila i o vršnim opterećenjima naponske mreže. [1]

Slično kako su u navedenom primjeru povijesni podatci o vršnim naponskim

opterećenjima iskorišteni u analizi, iako su se u vrijeme prikupljanja možda činili besmisleni,

tako je potrebno gledati na sve podatke kroz prizmu buduće primjene.

4.2. Ponovno korištenje podataka

Kada govorimo o ponovnom korištenju podataka za potrebe budućnosti, iskustva su

dovela do pomalo apsurdnog zaključka. Podatci koji su se prvobitno činili najnekorisnijima i

prema kojima se odnosilo kao prema nusproduktu ujedno su skrivala i najveći potencijal

buduće upotrebe.

Primjer takvih podataka su podatci o pretraživanju web stranica. Kako su ti podatci u

potpunosti generirani od strane korisnika u sebi sadrže sve one podatke koji su interesantni

svim stranama koji na korisnike usluga pretraživača gledaju kao na potencijalne klijente. Tako

se iz tih podataka mogu iščitati preferencije klijenata u bilo kojem segmentu, trgovina (npr.

koja je boja odjeće trenutno aktualna), financije (npr. interes za turističkim lokacijama daje

pouzdanu prognozu o prihodima od turizma), tržište nekretnina (npr. ponuda i potražnja za

nekretninama određene vrste) i sl .[1]

Page 22: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

13

Koliki se u pozadini novčani potencijal krije može se vidjeti na primjeru dvije velike

tvrtke, Amazona i telekomunikacijske tvrtke AOL9, [9] koje su upravo na području podataka

izgradile svoj uspjeh odnosno neuspjeh. Iako je tvrtka AOL kao komunikacijski posrednik

tvrtke Amazon imala veću priliku za uspjeh, zbog neznanja ili pohlepe za kratkoročnim

profitom, tvrtka je slikovito govoreći potpisala buduće propadanje prodajom prikupljenih

podataka o pretraživanjima korisnika prije i u toku kupnje na Amazon-ovim stranicama.

[1][9]

U svijetu sve više postaje pravilo da tko posjeduje podatke osvaja tržište. Google je

tako prvenstveno na osnovu podatkovne moći koju posjeduje zasjeo na vrh svjetskog tržišta, u

mnogim segmentima. U segmentima tržišta u kojima nije imao početne potencijale kao

konkurencija, kroz stvaranje monopola nad podatcima postaje lider. Početkom 2007.g.

Google se počeo interesirati za razvoj sustava prepoznavanja govora. Tržište je na tom

području već imalo lidera, tvrtku Nuance10. Tvrtka je tada za razliku od Googla imala tržišnu

moć ali ne i znanje i djelom spretnost na području podataka. Potpisivanjem ugovora s

Googlom tvrtka prihvaća ulogu vlasnika softverskih rješenja na tom području pri čemu

zanemaruje vlasništvo nad prikupljenim podatcima. Svi podatci prikupljeni od dana

potpisivanja ugovora pripali su Googlu koji na osnovu toga gradi na tržištu traženu

funkcionalnu vezu zvukovnog zapisa i odgovarajućeg teksta, te možemo reći da od autsajdera

postaje lider i u ovom segmentu. [1][13]

Zahvaljujući ovakvim novim trendovima u poslovanju koji su bazirani isključivo na

podatke, neke su se tvrtke iznenada našle na iznenađujuće dobrom položaju unutar

informacijskog vrijednosnog lanca. U tu skupinu sretnika spadaju prije svega mobilni

operateri koji na vrlo lak način prikupljaju podatke koji možda i nisu pretjerano značajni za

njihove tvrtke, ali stavljanjem u drugi kontekst od strane drugih tvrtki postaju izrazito

dragocjene. Primjerice, mobilni operateri prikupljaju podatke o lokaciji pretplatnika, taj

podatak konkretno u njihovom slučaju ima vrlo usku tehničku primjenu u preusmjeravanju

poziva. Stavljanjem takvih podataka u drugi kontekst pokreče se jedan čitavi poslovni svijet u

njihovoj pozadini. Omogućene su marketinške aktivnosti na razini svakog pretplatnika, koji

ovisno o trenutnoj lokaciji dobiva promotivni materijal, donose se planovi o rješavanju uzroka

9 eng.America Online, američka multinacionalna medijska korporacija sa sjedištem u New Yorku. Temeljni biznis korporacije je digitalna distribucija sadržaja, proizvoda i servisa korisnicima. 10 eng. Nuance Communications, američka multinacionalna softverska kompanija. Trenutni poslovni proizvodi usredotočeni na automatsko prepoznavanje govora, telefonski upravljive sustave i optičko prepoznavanje znakova.

Page 23: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

14

prometnih gužvi, na osnovu brzine promjene lokacija pretplatnika u prometu, a u konačnici

podatci koriste u razvoju same tehnologije koja ih generira, jer predstavljaju performanse

samog sustava.

Kako se radi o relativno osjetljivim podatcima jedno vrijeme operateri nisu bili voljni

prosljeđivati takvu vrstu informacija trećim stranama, ali je u toj priči o zaštiti privatnosti ipak

na kraju presudila korist koju podatci generiraju, koja se često puta, na veliko zadovoljstvo

operatera može izraziti novčano. Tako je primjerice 2012.g. veliki Španjolski tele operater

Telefonica11 čak osnovala sestrinsku firmu Telefonica Digital Insights čija je misija isključivo

prodavanje agregiranih lokacijskih podataka korisnika trećim stranama. [1]

4.3. Kombinacija podataka

Glavna ideja koju zastupa Big Data revolucija je generiranje i obrada što većih

količina podataka. Kako bih se oformila što veća podatkovna masa stvorena je ideja o

rekombinaciji, ne nužno po sadržaju srodnih podatkovnih segmenata, u izgradnji jedne

podatkovne cjeline. U takvom pristupu jedini ograničavajući uvjet rekombinacije je

povezanost segmenata na temelju jednog atributa koji je zajednički za sve uključene

podatkovne segmente.

Konkretan primjer ovakvog pristupa je provođenje ispitivanja o utjecaju mobilnih

telefona na nastanak karcinoma, 2011.god. u Danskoj. Poučeni greškama u prethodnim

ispitivanjima zbog malih podatkovnih obuhvata, analitičari su se odlučili na uključivanje svih

raspoloživih podataka o vlasnicima mobilnih telefona od 1987.god. (kada su se pojavili prvi

mobiteli u Danskoj) do 1995.g. što je uključivalo 358 403 pretplatnika. Za konkretnu analizu

neophodno je bilo također uključiti i podatke o oboljelima od karcinoma centralnog živčanog

sustava , što je u analizu uključilo dodatnih 10 729 osoba. Kako bih se u analizu uključile

činjenice o drugačijim životnim navikama različitih slojeva društva koje na ovom području

također imaju neupitno značenje, spomenutim podatkovnim segmentima pretplatnika i

oboljelih priključeni su i podatkovni segmenti o stupnju obrazovanja i raspoloživom dohotku.

[1]

Tek nakon detaljne podatkovne pripreme pristupilo se i konkretnim analizama koje su

trebale potvrditi ili negirati tvrdnje o većoj stopi oboljenja kod mobilnih pretplatnika i

11 Španjolski telekomunikacijski operater koji je po veličini peti u svijetu.

Page 24: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

15

odgonetnuti da li osobe koje duže vremena posjeduju mobilni telefon imaju veće šanse za

oboljenje.

Kvaliteta ovakvo provedenog ispitivanja pokazala se neupitnom. U ispitivanje je

uključen svaki registrirani slučaj oboljenja i približno svaki pretplatnik s čime nije ostavljen

prostor nikakvoj sumnji u relevantnost konačnog zaključka zbog moguće statističke pogreške

uzorka. Jedina možemo reći „greška“ je u tome što se zaključak nije podudarao s medijskim

nagađanjima o štetnosti mobilnih telefona, te je zbog toga relevantnost istraživanja ostala

upitna u javnosti, ali ne i u znanstvenim krugovima u kojima je metoda rekombinacije više

nego prepoznata.

4.4. Procjena vrijednosti podataka

Neupitno je da podatkovni potencijal može generirati dobit. Prilikom toga treba biti

oprezan i imati na umu vremensku dimenziju kojima su podatci određeni. Oslanjajući se

isključivo na podatke ne uzimajući u obzir razdoblje iz kojeg potječu dobivamo rezultate koji

ne odaju stvarnu sliku trenutnih događanja, nego je ta slika vezana za vrijeme nastanka

podataka, i kao takva je ne upotrebljiva u trenutnoj situaciji.

Takvu pojavu možemo smatrati svojevrsnim opadanjem vrijednosti podataka. Kada

podatkovna vrijednost padne ispod razine koja više ne daje dodatnu vrijednost, korištenje

takvih podatkovnih resursa treba prestati. Izostanak vremenskog praćenja podataka može

rezultirati i smanjenjem vrijednosti novih podataka zbog greške koju generiraju stari podatci

koji ako na vrijeme nisu uklonjeni ili zanemareni također ulaze u procese analize pa je ukupna

greška analize veća.

Iako je teoretski lako, na temelju dodane vrijednosti, procijeniti koji su podatci

relevantni a koji ne, u praksi to i nije baš jednostavno. Nije jednostavno iz dva razloga.

Postoje podatci koji su podložni promjenama kao primjerice preferencije kupaca.

Relevantnost takvih podataka u praksi se najčešće procjenjuje kroz traženje podatkovnih

odstupanja sadašnjih podataka od prošlih. Na primjeru preferencija kupaca, to znači da se

kupovne navike prate stalnim uspoređivanjem trenutne kupnje s kupnjom u prošlosti na

temelju čega se prognozira kupnja u budućnosti, koja može biti ispravna ili ne, a to ovisi

upravo o podatkovnim promjenama. [1]

Page 25: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

16

Uz ovakve podatke postoje i podatci koji reprezentiraju stvari i pojave čija je promjena

vrlo rijetka, a u nekim slučajevima niti ne postoji. Ti podatci su u analizama ujedno i

najvredniji, jer njihovo korištenje praktično ne generira pogreške zbog eventualne ne

relevantnosti . Koliko su vrijedni govori i velika gramzljivost tvrtki da ih zadrži čak i unatoč

zakonskim propisima koji nalažu brisanje nekih podataka nakon određenog vremenskog

perioda. Takav je slučaj sa podatcima o povijesti pretraživanja koje prikuplja Google. Kako

bih izbjegao neusklađenost sa zakonskim odredbama, Google je uveo jednu vrst

deanonimizacije korisničkih pretraživanja tako što briše posljednji digit adrese pretraživanja

nakon devet mjeseci. Na ovaj način i dalje ima mogućnost provođenja analiza ali ne na

individualnoj razini, što je prema trenutnim odredbama unutar zakonskih okvira.

Na tom području opravdanosti ili ne opravdanosti čuvanja podataka trenutno je

aktualan slučaj „Brad from Derbyshire“ . Brad iz Derbyshirea dobio je otkaz nakon što je

njegov šef preko tražilice našao podatak o kaznenoj prijavi koju je dobio zbog vožnje u

pijanom stanju.

Zbog toga je na Europskom sudu tražio da se njegovi osobni podaci izbrišu iz Googleove

tražilice kako mu se u budućnosti ne bi događale slične situacije, smatrajući pritom da pisani

zapis o njegovoj grešci iz prošlosti onemogućava njegovo poslovno napredovanje. Sud je, na

veliko iznenađenje, presudio u njegovu korist.

Ovim slučajem Europljani su dobili pravo na „online zaborav“. Linkovi na „nebitne“

ili „vremenski nevažeće“ podatke na zahtjev korisnika mogu biti izbrisani.

Google je izjavio da će zahtjeve procesirati uzimajući u obzir nužan balans između

zaštite privatnosti i prava javnosti na pristup informacijama te da će s posebnom pažnjom

gledati na zahtjeve koji se odnose na podatke vezane uz financijske prevare, kršenja pravila

struke, kaznene prijave, osude i slično.

Naime, više od polovice zahtjeva poslanih Googleu iz Ujedinjenom Kraljevstva odnosi se na

brisanje podataka vezanih uz neke oblike kriminalne prošlosti.

Podaci su se počeli uklanjati sredinom lipnja 2014.god., a rezultati na koje će biti

primijenjena ova praksa, bit će posebno označeni.

Sve odluke o ovim slučajevima donositi isključivo osoblje Googlea, što je odmak od

Googleove prakse korištenja algoritama.

Ova će se praksa se odnosi samo na zemlje na koje se odnose odluke Europskog suda

za ljudska prava, a zahtjevi se podnose putem online formulara. Osim slike koja služi kao

Page 26: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

17

dokaz identiteta, pojedinci koji podnose zahtjev moraju navesti linkove koji su

„problematični“, navesti državljanstvo i dati smisleno objašnjenje.

Koliko je ovo područje interesantno, govore ne baš riječi odobravanja odluke suda od

strane šefa Googla, Larry Page, koji je slučaj prokomentirao riječima „ovakve prakse

potkopavaju inovativnost i pomažu represivnim režimima“. Ali konačnu riječ će svakako

donijeti korisnici ne korištenjem ili korištenjem ove mogućnosti. [6]

4.5. Određivanje cijene podataka

Iako je vrijednost podataka, kako u poslovnom, tako i u privatnom životu prepoznata.

Došlo je do manjkavosti u utvrđivanju konkretnih cijena podataka u utvrđivanju

knjigovodstvenih vrijednosti tvrtki.

Vrijednost tvrtki čije je poslovanje bazirano isključivo na podatcima ispravno je

percipirana od strane burze, dok kada se ista tvrtka gleda kroz klasičnu knjigovodstvenu

vrijednost dolazi do drastičnog odstupanja.

Uzmemo li za primjer tvrtku Facebook, kao klasični primjer tvrtke čiji je posao

baziran isključivo na podatcima, možemo vidjeti veliko odstupanje procijenjene burzovne

vrijednosti koja iznosi cca. $ 104 milijarde i vrijednosti fizičke imovine, koja ujedno

predstavlja knjigovodstvenu vrijednost, koja iznosi $ 6.3 milijarde. Ova silna razlika u

vrijednosti predstavlja ništa, „samo podatke“ s kojima tvrtka radi.

Na izostanak vrijednosti podataka u iskazivanju knjigovodstvene vrijednosti tvrtke

(konkretno Facebook-a) upozorio je Doug Laney, predsjednik kompanije Gartner (vodeća

svjetska tvrtka za informacijsko tehnološka istraživanja). U svom istraživanju istaknuo je da

Facebook iako posjeduje „samo podatke“ u vrijednosnom smislu govoreći posjeduje 2.1

trilijun jedinica kojima trguje, kao što su lajkovi, uploadani materijali i komentari za koje se

zna da je prikupio u periodu od 2009. do 2011.god. (danas je ta brojka još impresivnija).

Nadalje u istraživanju je naveo i konkretnu vrijednost svake takve podatkovne stavke koja je

cca. 5 centa, što daje sasvim drugi pogled na Facebook gdje svaki korisnik prosječno vrijedi

100 dolara. [1]

Pojavila se potreba da se knjigovodstveni načini vrednovanja prilagode pravilima

trgovanja novom vrstom dobara kojih u trgovinskim tokovima 1930.god., kada je aktualni

Page 27: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

18

knjigovodstveni sustav formiran, nije niti bilo. Početni koraci u rješavanju ovog problema

ostvareni su uvođenjem pojma nematerijalne imovine u knjigovodstvene kalkulacije.

Nematerijalna imovina u osnovi trebala bih obuhvaćati sve one vrijednosti koje tvrtka

posjeduje, a nemaju fizičku komponentu, kao što su brand, talent, strategija, podatci i sl.

U praksi, uvođenjem nove stavke bilance, konkretnih pomaka nije bilo iz razloga ne

postojanja nekog, možemo reći standardiziranog načina procjene vrijednosti imovine tog tipa.

Značajniji pomak se dogodio u glavama investitora koji su počeli percipirati podatkovne

potencijale tvrtki i utjecati na formiranje realnije tržišne vrijednosti.

Problem u uspostavi odgovarajućeg načina vrednovanja podataka je u činjenici da je

latentna vrijednost podataka uvijek prisutna, što implicira nemogućnost korištenja vrijednosti

generirane primarnom upotrebom kao referentne. [1]

Jedino što je na području latentne tj. skrivene, buduće vrijednosti podataka poznato to

su tehnološke mogućnosti koje neka konkretna tvrtka posjeduje u analiziranju podataka. Na

temelju tehnoloških potencijala tvrtki može se do neke mjere procijeniti stupanj korištenja

podataka i na neki način stvoriti pozitivnija klima na tržištu podataka kroz reguliranje

monopolske moći najvećih tvrtki. Naime mnogo puta se dogodilo da se tzv. sirovi podatkovni

materijal otkupi od strane velikih tvrtki kao što je Google, Amazon .. za neke male fiksne

naknade te se na temelju toga ostvari basnoslovni profit zbog netransparentnosti u načinu i

trajanju upotrebe.

Tehnološke/analitičke mogućnosti u najvećoj mjeri su zaslužne za veći stupanj

iskoristivosti podataka. Uzimanjem u obzir te činjenice u trgovini podatcima sve više se

formiraju ugovori bez fiksne naknade za korištenje, nego su naknade isključivo bazirane na

postotcima od ostvarene buduće dobiti. Kako se niti na ovaj način ne može u potpunosti

procijeniti stvarna podatkovna vrijednosti, u praksi se ide čak do te mjere da se podatci radije

proglase javnima nego da se daju ekskluzivna prava samo jednoj tvrtki na njihovo korištenje.

Page 28: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

19

5. PREDIKTIVNA ANALITIKA

Predikitvna analitika je praksa ekstrahiranja informacija iz postojećih podataka kako bi

utvrdili uzorke, te kako bi predvidjeli buduće ishode i trendove. Prediktivni modeli se tipično

koriste za „proricanje“ vjerojatnih događaja u budućnosti s određenom razinom pouzdanosti.

Ovako pojednostavljeno predstavljanje podatkovne analitike nedvojbeno podsjeća na

proricanje budućnosti iz kristalne kugle na osnovu trenutno dostupnih podataka. Naravno, ima

nekih poveznica, međutim naše kristalne kugle su softveri za rudarenje podataka koji nam

putem određenih algoritama rudarenja podataka i povijesnih podataka „proriću“ što će se

dogoditi u budućnosti.

U poslovnom smislu prediktivna analitika služi za predviđanje nekih stvari koje nam

„obični“ alati za poslovnu inteligenciju ne mogu obaviti, a to se ponajviše odnosi na bolje

razumijevanje kupaca, proizvoda, partnera a u krajnju ruku, sa gledišta navedene teme, čitave

populacije na određenom prostoru kako bi identificirali potencijalne rizike te utvrdili

adekvatne odgovore za njihovu prevenciju.

5.1. Što možemo predvidjeti

Pravo bi pitanje bilo : „ Što ne možemo predvidjeti “ ? Veliki broj stvari je lako

predvidiv, međutim za to su potrebni kvalitetni podaci. Međutim vratimo se tristo godina

unatrag i upoznajmo Johna Graunta, prvog data scientista (znanstvenika podataka) i

znanstvenika amatera. Inače John je živio u vrijeme najveće kuge koja je tada harala i u svojoj

„knjizi“ Bills of Mortality je spojio sve podatke o umrlima i htio je na osnovu uzoraka znati tko

je umro od kuge, a tko od neke druge bolesti, te je došao do zaključaka koji su za to vrijeme

bili fascinantni. Smatra se da je J.Graunt otac statistike i rudarenja podataka, jer je po prvi puta

gledajući u podatke koje je prikupio našao ono vrijedno, a to su uzorci koje golim oko ne

možemo vidjeti. Međutim, danas su stvari nešto drugačije i danas ljude uglavnom zamjenjuju

računala i softverski proizvodi, međutim ne u potpunosti. Vratimo se na prediktivnu analitiku i

počnimo od predviđanja najkompleksnije stvari, a to su ljudi i njihova ponašanja. Smatrate da

ljudska ponašanja nisu predvidiva? Antropolozi smatraju da smo itekako predvidivi i da je naš

svaki korak lako predvidjeti. Zamislite svoj put od kuće do posla i zamislite da svaki put kad

otključate vrata od kuće, upalite auto i odete na posao zapravo kreirate podatke o svom

Page 29: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

20

ponašanju. Da te podatke možemo nekako realno izraziti, lako bi mogli predvidjeti kad ćemo

se dignuti, otključati vrata od kuće, upaliti auto i kojim ćemo putem ići na posao. Policija Los

Angelesa 12(LAPD) je upravo ovo primijenila na svom problemu, odnosno na problemu

kriminala. Cjelokupna ideja predviđanja kriminala utemeljena je na tzv. preslikavanju poznatih

oblika ponašanja reprezentiranih kroz podatke na trenutnu situaciju. Od svih podataka iz

prošlosti su našli način kako predvidjeti sljedeći korak kriminalaca na točno određenoj lokaciji

i u točno određeno vrijeme. Zvuči nemoguće, međutim ova metoda je smanjila 5% općeg

kriminala i 20% krađa auta u LA-u. Na prvu nije puno, ali gledajući da Los Angeles nije mali

grad, ova brojka je fascinantna. Algoritam radi na jednostavan način i to na primjeru stvarnog

događaja.

Inače zanimljivo je da je ideja za stvaranje algoritama za predviđanje kriminaliteta

proizašla iz istraživanja posvećenih predviđanju potresa. Znanstvenici su u istraživanju

zaključili kako je uz današnju tehnologiju ipak nemoguće predvidjeti epicentar potresa, ali kako

se sa dosta velikim stupnjem preciznosti može predvidjeti nastanak manjih potresa koji nastaju

nakon velikih potresa. Taj otkriveni, možemo reći domino efekt, koji vjerno preslikava temeljnu

ideju o prolongiranju prošlosti na sadašnjost, znanstvenici su uspješno preslikali na predviđanje

ponašanja građana i dobili neočekivano dobre rezultate.

Koliko ovo zvučalo „uvrnuto“ to je realnost i sve će se više vremena posvećivati

izučavanju ovog područja i razvijanju novih algoritama za predviđanje stvarnih događaja.

5.2. Međuljudski odnosi i opravdanost predviđanja

Prije daljnjeg razmatranja teme korištenja prediktivnih metoda u preventivi kriminala,

potrebno je utvrditi da li tako nešto ima smisla i u praksi ili je riječ samo o pukoj teoriji.

Prediktivna analitika opravdanost na ovom području crpi iz same činjenice da se već neko

vrijeme primjenjuje u praksi u nekoliko američkih gradova. Naime kako je provođenje zakona

i pridržavanje određenih oblika ponašanja temelj ispravnog funkcioniranja bilo koje zajednice,

uvođenje novih metoda na ovom području nužno zahtjeva i ostvarenje konkretnih rezultata. S

12 Policijski odjel Los Angelesa (engleski: Los Angeles Police Department, LAPD) je policijski odjel uprave Grada Los Angelesa u američkoj federalnoj državi Kalifornija.

Page 30: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

21

toga da navedena tehnologija nema opravdanost za sigurno ne bi dobila notu praktičnosti, nego

bi se zadržala samo na nivou teorije.

Određena predviđanja tj. točnije rečeno određene geoprostorne i statističke analize u

navedene svrhe provode se već desetljećima. Jedina je razlika što je posljednjih godina analitika

počela koristiti veće količine podataka, možemo reći počela je živjeti u duhu Big data

revolucije.

Korištenjem veće količine podataka porastao je stupanj relevantnosti analiza a time i

oslonjenost policije na IT tehnologije. Da se ne radi o nekakvoj naučnoj fantastici koja koristi

neku tajnu vrstu softvera koja je poznata samo određenom krugu ljudi, kao što je često

propagirano kroz medije. Govori i činjenica da je gotovo sav softver svoju prvobitnu primjenu

imao u komercijalne svrhe te je kao takav bio razvijen od strane privatnih softverskih kompanija

i sveučilišta.

Većina softverskih alata, možemo reći, da je imala svojevrsnu testnu fazu unutar

poslovnih okruženja velikih kompanija koje su korištenjem prediktivne analitike uspješno

mijenjale primjerice prodajne strategije i ustaljenu poslovnu praksu, na opće zadovoljstvo kako

kupaca, koji najčešće nisu bili svjesni razloga poboljšanja usluge, tako i na vlastito kroz veće

profite. (Primjer Walmart-a.)

Kako su se novi softverski paketi pokazali uspješnima u komercijalnom svijetu, njihova

primjena na području provođenja zakona značila je jednostavno rečeno ništa drugo nego

promjenu podataka uključenih u analizu. Ako je primjerice u poslovno svijetu bila riječ o analizi

podataka o prijašnjim kupovnim navikama potrošača radi prognoziranja budućih transakcija, u

svijetu prediktivnog policijskog djelovanja to uključuje podatke o dosjeima građana radi

prognoze budućih kriminalnih aktivnosti.

Glavna ideja u ovom za sada relativno novom segmentu primjene prediktivne analitike

je poboljšanje percepcije situacije na taktičkoj i strateškoj razini u razvoju strategija efikasnog

i efektivnog policijskog djelovanja. S podizanjem svjesnosti i upoznatosti s novom

tehnologijom s vremenom raste i razina razumijevanja bihevioralnih karakteristika što dovodi

do većeg stupnja preventivnosti kriminalnih djela koja je svima u interesu.

Page 31: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

22

Pri tome treba shvatiti, kao što je ranije rečeno, da nije pronađena tzv. kristalna kugla

koja proriče budućnost. Radi se u suštini o „najobičnijoj“ prognozi koja, važno je naglasiti,

manipulira brojevima a ne kao što je u medijima pa čak i na filmskom platnu (film Minority

report13) propagirano, ljudima. Svakoj novoj tehnologiji, pa tako i ovoj, zajedničko je da

„prolazi ili pada na ljudskom faktoru“.

6. PREVENTIVNO POLICIJSKO DJELOVANJE

Iako metode predviđanja kriminala postoje već dulji niz godina, tek nedavno je nova

tehnologija omogućila prelazak sa naglašeno heurističkog pristupa na napredne matematičke

algoritme.

Potvrdu postojanja tog velikog zaokreta u funkcioniranju policijskog nadzora, prvi je u

javnost iznio William J. Bratton šef LAPD-a. Tijekom 2008.g. Bratton je naširoko javnosti

nastojao predočiti velike uspjehe novih modela predviđanja i trenutnog nadzora gradske

sigurnosti u odnosu na prijašnje metode. Osim zbog uključivanja javnosti 2008.g. bila je

značajna i po uključivanju kako stručnjaka s područja tehnologije tako s područja

zakonodavstva. Suradnja s velikim brojem vanjskih suradnika proizašla je iz uspješne

suradnje Brattona s čelnicima Ureda za pomoć pravosuđu (BJA) i Nacionalnog ureda za

pravosuđe (NJI).

U studenom 2009.g. održan je prvi simpozij koji je također imao velikog odjeka u

podizanju aktualnosti novo predstavljenih modela. Stvorio se velik interes od strane

potencijalnih vanjskih suradnika koji su pokazali volju za sudjelovanje u projektu koji ima

potencijala ne samo na nivou jednog grada (Loss Angelos-a) nego i na nivou cijele države.

Stvorena je i mreža ureda u većim gradovima u kojima su zainteresirane tvrtke mogle predati

zahtjeve za partnerstvom ponudom softverskih rješenja.

Prvi simpozij je definitivno ispunio svoju zadaću tj. stvorio svojevrsni temelj daljnjeg

razvoja kroz stvaranje stabilne mreže suradnika. Kako bi se taj veliki interes kvalitetno

usmjerio ka stvaranju što funkcionalnijeg sustava kako u tehničkom tako i u

13 triler u kojem je radnja smještena u godinu 2053. u kojoj postoji takva tehnologija koja može rekreirati ljudske snove, te ih hologramski prikazati.

Page 32: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

23

zakonodavstvenom smislu, u lipnju 2010.g. održan je drugi simpozij. Glavne teme simpozija

su bile izazovi, uspjesi, ograničenja i skalabilnost sustava. Sudionici su se složili da je za

funkcionalnost nedvojbeno nužna podatkovna povezanost kao i razumljivo velike analitičke

mogućnosti.

U periodu poslije drugog simpozija jača medijska popraćenost ovog područja,

posebice je veliku medijsku pažnju privuklo uvođenje softverskog paketa PredPol u

gradovima Santa Cruz i Los Angeles. S velikom medijskom popraćenosti dolazi i do pojave

„pokvarenog telefona“ koja se manifestira kroz iskrivljavanje stvarnih činjenica radi stvaranja

što većeg interesa u javnosti. Tako je primjerice IBM u reklami svog softverskog rješenja dao

primjer u kojem policijski službenik ulazi u prodavaonicu neposredno prije pljačkaša.

Takva popraćenost od strane medija, u osnovi je rezultirala stvaranjem dobre podloge

za implementaciju sustava, jer je praktički stvoren novi pojam „predictive policing“ koji

odjednom postaje tema razgovora u znanstvenim, političkim, novinarskim krugovima, ali i u

javnosti. Međutim u manjoj mjeri djeluje i spomenuti „efekt pokvarenog telefona“ koji je

pratitelj svim promjenama u društvu. Javljaju se raznorazni samozvani znanstvenici koji svoje

spoznaje temelje na reklamama i novinskoj štampi te nameću sumnje u kršenje ljudskih prava

i sloboda. Ali u tom silnom medijskom prepucavanju, važna je činjenica da su svoje interese

na ovom području prepoznali analitičari i istražitelji koji su vlastite pristupe u radu u velikoj

mjeri unaprijedili. Tu su i sami policijski službenici koji mogu obavljati isti opseg poslova s

daleko manje resursa, zatim privatni sektor kroz angažman u razvoju softvera, privatne

zaštitarske kuće, vojska itd.

Program preventivnog policijskog djelovanja trenutno je uspješno implementiran u

nekoliko američkih država kao što su: California, Washington, South Carolina, Arizona,

Tennessee i Llionois. Da je potencijal prepoznat govori i podataka da je program počeo sa

implementacijom i u neameričkim državama. Primjenjuje se u nekim gradovima Ujedinjenog

kraljevstva.

6.1. Izrada predviđanja

Na osnovu ovako jednostavnog naslova, može se stvoriti pogrešna slika koja

kompleksnost problema predviđanja stavlja u drugi plan, a fokusira se samo na konačni

rezultat procjene. Iako kada gledamo konačni rezultat imamo dojam kao da se radi o

Page 33: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

24

jedinstvenom softverskom rješenju, u stvari se radi o nizu metoda koje su u mnogo čemu

različite ali sinergijom generiraju cjelokupni sliku konkretnog problema kroz odgovore na

pitanja kada, gdje, tko i što.

Tako korištene metode možemo podijeliti u skupine s obzirom na to koje od ova četiri

odgovora daju.

-Hot spot analiza, statistička regresija, rudarenje podataka i metoda analize

periodičnosti se obično koriste kako bih se dobio odgovor na pitanje gdje će najvjerojatnije

kriminalna aktivnost nastupiti u određenom vremenskom intervalu a time i tko je potencijalno

ugrožen takvim vjerojatnim razvojem događaja.

-Vremenske i prostorno-vremenske metode se obično, kao što možemo pretpostaviti,

koriste u procjeni vremena nastanka kriminalnih dijela, a dijelom također daju procjenu

potencijalno ugrožene skupine koja se u to vrijeme također nalazi na istom području.

-Kako se predikcije odnose na određeno geografsko područje metodom procjene

rizičnosti terena u obzir se uzimaju geografske značajke područja razmatranja koje također,

ali na jednom drugom nivou, daju odgovor na pitanje gdje.

Spomenute analitičke metode osim što se razlikuju po namjeni, također se razlikuju i po

kompleksnosti. Spomenutih šest analitičkih kategorija: hot spot analiza, regresijska metoda,

rudarenje podataka, metoda analize periodičnosti, prostorno-vremenska analiza i metoda

procjene rizičnosti terena, s obzirom na kompleksnost se mogu podijeliti u četiri kategorije:

-Klasične statističke tehnike – uključuje standardne statističke procese, kao što su

većine vrsta regresijskih metoda, rudarenje podataka i analiza vremenskih serija.

-Jednostavne metode – nemaju velikih resursnih zahtjeva niti što se tiče hardverske

opreme niti velike količine ulaznih podataka. Velik broj istraživačkih metoda spada u ovu

kategoriju.

-Kompleksne aplikacije – svoju kompleksnost duguju inovativnim metodama na

kojima su bazirane a koje ujedno zahtijevaju raspoloživost velikih količina ulaznih podataka

kao i sukladno tome respektabilne hardverske performanse. Većina današnjih metoda

rudarenja podataka također zahtjeva spomenute preduvjete.

-Prilagođene metode – metode čija je upotreba isključivo orijentirana ka prediktivnom

policijskom djelovanju. Ova kategorija u osnovi obuhvaća sve do sada spomenute kategorije

Page 34: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

25

čije metode su izmijenjene i prilagođene konkretnom području. Primjer takve prilagodbe je

klasična statistička metoda koja umjesto brojčanih rezultata stvara grafički prikaz interesnih

točaka na geografskoj karti promatranog područja.

6.1.1. Hot - spot analiza

Hot spot analiza tj. metoda predviđanja točaka interesa je jedna od najstarijih metoda

identificiranja točaka alokacije resursa u reduciranju kriminala ali i općenito jedna od prvih

metoda primijenjenih u korištenju većeg skupa podataka. Razlog dosta česte primjene je

mogućnost brzog izdvajanja one grupe podataka koja možemo reći, iskače iz okvira kojim je

određena podatkovna cjelina, koja u ovom slučaju ima i konkretnu geografsku reprezentaciju.

Hot spot analizom se u okvirima prediktivnog policijskog djelovanja identificiraju

lokacije na kojima je vjerojatnost nastupanja kriminalnih aktivnosti veća u odnosu na

cjelokupno područje promatranja. Procjena se temelji na identifikaciji uzoraka podataka koji

upućuju na kriminalnu aktivnost iz povijesne baze kriminalnih delikata. Osnovna

pretpostavka analize je konzistentnost kriminalnih aktivnosti tj. svojevrsno preslikavanje

činjeničnih stanja bliže prošlosti na trenutnu i situaciju u bližoj budućnosti.

Primjenjivost rezultata dobivenih metodom u velikoj mjeri ovisi o određivanju

spomenutog podatkovnog okvira, svojevrsne podatkovne anomalije, dijela u odnosu na skup.

Pri tome postoje dvije krajnosti. Prva krajnost je da iz skupa podataka izdvajamo podatke čija

je vrijednost strogo precizirana. Takav pristup identificira vrlo malo područje interesa te

stavlja u drugi plan sva druga područja čija je razlika u podatkovnoj određenosti možda i vrlo

mala u odnosu na precizirane vrijednosti, čime su zanemarene moguće vrlo interesantne

lokacije.

Druga krajnost bi bila kada su ti podatkovni okviri previše općenito određeni, što

dovodi do generiranja velikog broja točaka interesa koje zbog broja nije moguće adekvatno

procesirati.

Primjena metode započinje vrlo jednostavnim pristupom koji se sastoji od podjele

skupa podataka, koji je u konkretnom slučaju grafički predočen geografskom kartom

područja, na segmente stvaranjem svojevrsne mreže tzv. pristup grid mapping-a.

Page 35: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

26

Nakon metode grid mapping-a koja je najjednostavnija i gotovo polazišna u hot spot

analizi, u konkretnom problemu lociranja mjesta interesa fokus se stavlja na složenije

matematičke metode kao što su covering ellipses i kernel density estimation, o kojima će biti

riječi u nastavku.

Grid Mapping

Kao što je već spomenuto, postupak utvrđivanja točaka interesa započinje grid

mapping metodom, koja izgleda prilično jednostavno, prije svega zbog jednostavne grafičke

reprezentacije koja nije ništa drugo nego mreža koja pokriva određeno geografsko područje,

po čemu je u konačnici metoda dobila i ime.

Pozadina priče i nije tako jednostavna jer se iza „jednostavnog grafičkog prikaza“

kriju dva moguća problema. Prvi je možemo reći teoretske prirode a odnosi se na miješanje

dvaju pojmova kako od strane analitičara tako i od krajnjih korisnika. Naime grid mapping

metoda je prvenstveno orijentirana, kao i što joj ime govori na mapiranje koje u kontekstu o

kojem raspravljamo ima značenje određivanja zastupljenosti neke pojave, odnosno vrste

kriminala na nekom području. Često se pojam mapiranja poistovjećuje s pojmom lociranja,

dakako pojam mapiranja u određenoj mjeri ne isključuje lociranje jer je mapirano područje

također određeno lokacijskim podatcima, ali ove dva pojma je potrebno razgraničiti možemo

reći zbog nesavršenosti metode kada je riječ o određivanju točne lokacije.

Prilikom pokretanja projekta kartiranja nekog područja, neovisno o tome što želimo

mapirati, na pitanje koji je cilj projekta, u velikom broju slučajeva odgovor bi bio izrada karte

nekog područja. Odgovor je potpuno logičan ali ne i u potpunosti točan. Takav odgovor bi bio

prihvatljiv prije dvadesetak godina ali ne i danas. U današnjim kartografskim projektima

grafički prikaz geografske karte ima sekundarno značenje, primarni prikaz je onaj ne grafičke

prirode, tj. onaj u bazi podataka.

Upravo zbog toga što primarno postaje podatkovno a sekundarno grafičko, u nekim

slučajevima dolazi do nedostataka kada je određivanje lokacije u pitanju. Može se dogoditi da

je mapirana točka interesa zajednička za dvije ćelije pa na taj način točka nije u potpunosti

točno lokacijski određena.

Page 36: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

27

Kako su u pozadini podatci, pri čemu treba naglasiti da se radi o velikoj količini

podataka zbog potrebe za nalaženjem skrivenih odnosa i svojevrsnih pravila u kretanju istih.

Ne smije se zanemariti i činjenica da velika količina podataka za sobom povlači i duži

vremenski rok (od nekoliko mjeseci) na koji se razmatrani podatci odnose. Zbog toga dolazi i

do ne savršenosti i u pogledu točnosti cjelokupnog prikaza, naročito kada se dogodi tzv. „bad

lack“ koji predstavlja pojavu nekih podataka unutar spomenutih nekoliko mjeseci promatranja

koji predstavljaju iznimku a ne pravilo u kretanju parametara na nekom području, što direktno

utječe na konačni rezultat.

Tehnologija čija je primjena uobičajena u ovakvoj vrsti projekata je tehnologija

geoinformacijskog sustava. U najstrožem smislu to je računalni sustav sposoban za

integriranje, spremanje, uređivanje, analiziranje i prikazivanje geografskih informacija, i kao

takav predstavlja oruđe za izradu pametne karte koja osim grafičkog prikaza karte za koji smo

rekli da ima sekundarno značenje, dopušta korisnicima stvaranje interaktivnih upita,

analiziranje prostornih informacija i uređivanje podataka. Te skoro da predstavlja sustav po

mjeri upravo za ovakvu vrstu projekta. Međutim rad u GIS sustavima zahtjeva određenu

razinu znanja i prakse pa se ponekad koriste i drugi softverski alati. Primjerice grid mapping

prikaz moguće dobiti i primjenom, za mnoge korisnike, jednostavnijeg i pristupačnijeg

softvera kao što je Excel. Primjerice grid mapp prikaz na slijedećoj slici napravljen je pomoću

Excela.

Page 37: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

28

slika 1 (Grid mapss prikaz počinjenih pljački u Washingtonu)

Covering Ellipses

Sukladno nazivu metoda se koristi za traženje veza između mapiranih kriminalnih

delikata kroz stvaranje elipsa koje obuhvaćaju cijeli klaster promatranih događanja na nekom

području. Metoda je dosta popularna, prije svega što omogućuje jednostavan matematički

izračun niza elipsa koje zatvaraju klastere promatranih pojava ali i dijelom što je metoda

funkcionalna u CrimeStat softveru, koji je ujedno i jedan od popularnijih softvera jer je

besplatan, a i prilagođen je za rad u windows operacijskim sustavima.

Page 38: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

29

CrimeStat softver je možemo reći, jedan od alata GIS 14sustava jer ima mogućnost

rada s GIS datotekama a uz to je idealan upravo za spomenutu primjenu izračuna elipsa jer

zahtjeva da svi ulazni podatci imaju dodijeljene geografske koordinate pa je izračun, kao što

je rečeno matematički prilično jednostavan. Kao dodatak, koji dakako doprinosi njegovoj

širokoj primjeni je i rad u tri vrste koordinatnih sustava: sferni, projekcijski i kartezijev

koordinatni sustav.

Inicijalno formirane elipse obuhvaćale su dosta prostora koji nije od interesa s obzirom

na zastupljenost kriminala iz razloga što točke interesa (eng. hot spots) u većini slučajeva ne

formiraju idealne elipse. Međutim nove implementacije softvera eliminirale su ovaj problem

kroz prilagođavanje elipsa s obzirom na geografsku koordinatu s najvećim stupnjem

zastupljenosti promatrane pojave.

U praksi kombinira se stari inicijalni pristup formiranja elipse s obzirom na geografske

koordinate pri čemu su sve kriminalne aktivnosti geografski grupirane i novi pristup

detaljnijeg određivanja s obzirom na intenzitet (na žarište) događanja. Što u praksi znači

pouzdanije i detaljnije definiranje područja na koja se šalju policijske patrole.

Ogledni primjer ovakvog načina funkcioniranja je metoda hijerarhijskog klasteriranja

(eng. nearest neighbor hierarchical clustering). NNH identificira grupu događaja koji su

prostorno bliski. Ovom hijerarhijskom rutinom klasteriranja grupiraju se promatrane točke s

obzirom na postavljene kriterije te se utvrđuje udaljenost između svake od točaka promatranja

što rezultira grupiranjem u jedan klaster samo onih točaka koje zadovoljavaju s obzirom na

prag udaljenosti. Na slijedećoj slici je prikazan primjer generiran CrimeStat softverskim

alatom.

14 Geografski informacijski sustav (GIS) je sustav za upravljanje prostornim podacima i osobinama pridruženih njima. U najstrožem smislu to je računalni sustav sposoban za integriranje, spremanje, uređivanje, analiziranje i prikazivanje geografskih informacija.

Page 39: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

30

slika 2 (Grafički prikaz metode hijerarhijskog klasteriranja na području Washingtona)

Iako ovakav pristup kroz dva koraka rezultira većom točnosti i fokusiranosti na

signifikantne točke, ovakav pristup karakteriziraju i dva nedostatka:

• ovakvim pristupom formira se nekoliko elipsi, koje za neiskusnog korisnika

imaju jednak prioritet što se tiče poduzimanja konkretnih mjera. Može se reći

da se za kvalitetnu primjenu zahtjeva određena razina znanja i iskustva, jer je

ponekad potrebno odabrati „najbolje“ rješenje, a uz to u startu je potrebno na

temelju vlastite intuicije predefinirati broj točaka interesa što predstavlja još

veći zahtjev na znanje i iskustvo analitičara.

• svi korišteni podatci imaju jednaku težinu u formiranju konačnog rezultata pa

metodu također karakterizira osjetljivost na korištene podatke. Takva

osjetljivost je u nekim situacijama dobra ali najčešće zbog dužeg vremena na

Page 40: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

31

koji se promatrani podatci odnose stvara probleme jer nikada nije moguće sa

sigurnosti reći da su trendovi u kretanju pokazatelja korespondentni sa

situacijom na terenu.

Single and Dual Kernel Density Estimation

KDE također predstavlja jedan od pristupa identifikacije točaka interesa (eng. Hot

spots). Ideja je korištenjem kernel matematičke funkcije približno odrediti vjerojatnost

nastupa novih kriminalnih delikata kao i njihove potencijalne lokacije na nekom području,

matematičkim rječnikom rečeno, statistički interpolirati varijable od interesa.

KDE funkcija je takozvana eng. smooth funkcija koja za cilj ima obuhvatiti važne

obrasce u podatcima. U doslovnom smislu riječi kernel , označava jezgru ili središnji dio

predmeta.

Često se u računalnim znanostima odnosi na središnji dio operativnog sustava dok se u

geoprostornim analizama odnosi na metode koje uključuju računanja pomoću dobro

definiranog lokalnog susjedstva.

Kernel Density Estimation je tehnika generalizacije lokacija opažanja na cijelo

područje. Dok prostorna distribucija i statistika žarišta pružaju statistički pregled samih

podataka opažanja, tehnike interpolacije generaliziraju podatke opažanja na čitavo područje.

Tehnike interpolacije pružaju procjene gustoće za sve dijelove promatranog područja.

Procjena gustoće je varijabla intenziteta (eng. intensity variable) koja je procijenjena na

određenoj lokacij. Može se prikazati kao karta površina ili reljefna karta koja prikazuje

intenzitet na svim lokacijama.

Kernel funkcija se još jednostavnije može objasniti kao distribucija koja je

usredotočena na jednu točku (u ovom slučaju je to lokacija gdje je zabilježena kriminalna

aktivnost) i čija vrijednost ukazuje na relativni utjecaj vrijednosti na okolinu. Trenutno je

nekoliko kernel funkcija u upotrebi, CrimeStat nudi mogućnost korištenja čak njih pet. U

praksi se koristi više kernel funkcija iz razloga što svaka ima svoje prednosti i nedostatke, ali

Page 41: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

32

je većini zajedničko da vjerojatnost nastupa kriminalnog događaja u budućnosti opada s

udaljenošću od lokacije koja je uzeta u razmatranje odnosno na kojoj se delikt već dogodio.

Jednostruke KDE procjene (eng. single KDE estimates) koriste samo jednu varijablu,

kriminalni incident. Zbog očite ovisnosti između broja stanovnika na nekom području i broja

kriminalnih incidenata u upotrebi su i dvostruke KDE procjene (eng. dual KDE estimates)

koja osim varijable koja predstavlja kriminalni incident u obzir uzima i gustoću naseljenosti.

Jednostruka KDE analiza rezultira procjenom da se većina kriminala događa u

gradskim središtima, što je i razumljivo zbog toga što se u obzir uzima samo jedna varijabla

koja usmjerava cijelu analizu ka sagledavanju broja kriminalnih delikata. Ponekad takva

možemo reći ne realna analiza zadovoljava ali u svrhu stvaranja realnije slike često se koristi

dvostruka KDE analiza koja u obzir uzima i tzv. rizičnu skupinu građana. To ponekad vodi do

toga da je procijenjena mogućnost nastupa nekog kriminalnog događaja daleko veća

primjerice u rubnim dijelovima grada gdje je omjer stanovnika koji su već imali doticaja s

zakonom i ukupnog broja daleko veći nego primjerice u gradskom središtu.

Kako KDE analiza ne započinje pretpostavkom koliko točaka interesa (eng. hot spots)

bi moglo biti izbjegnut je glavni nedostatak elliptical covering analize, ali osjetljivost na ne

relevantne ulazne podatke ostala je ista, pa je kod korištenja potrebno voditi računa o tome.

Kao što je već spomenuto, za primjenu u praksi od velike važnosti je i mogućnost

grafičkog prikaza rezultata ove funkcije u obliku konturnih, toplinskih ili površinskih karata.

slika 3 (Konturni prikaz segmenta površine na kojem su prikazana mjesta uličnih razbojništva u Baltmore-u )

Page 42: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

33

slika 4 (Prikaz KDE analize nad podatcima koji predstavljaju slučaje zlostavljanja u Cologne-u , Njemačka)

2008.god. Spencer Chainey, Lisa Tompson i Sebastian Uhlig usporedili su rezultate

KDE analize sa drugim metodama mapiranja uključujući i elliptical covering analizu. Utvrdili

su kako KDE u odnosu na druge analize ima znatno veći PAI indeks (eng. prediction accuracy

index). U analizi su uspoređivali stopu pogodaka točaka kriminalnih delikata s ukupnom

površinom koja je predodređena kao prostor povećanog rizika, te se KDE analiza pokazala

kao moćan alat prediktivnog policijskog djelovanja.

6.1.2. Heurističke metode

U mnogim slučajevima tehnike preventivnog djelovanja uključuju upotrebu

heurističkih metoda.

Prema definiciji heuristika je znanost o mogućnostima znanstvenog istraživanja, i

odgovora na pitanja: Što se može naučno istražiti ? Što se ne može ? Što je aksiom ?

Heuristika obuhvaća metode i tehnike rješavanja problema, učenja i otkrivanja koji su

bazirani na iskustvu. Heurističke metode se koriste radi ubrzanja procesa pronalaženja

dovoljno dobrog rješenja u situacijama kada provođenje detaljnog istraživanja nije praktično.

Primjeri toga obuhvaćaju korištenje raznih uhodanih pravila, podatkovnog nagađanja,

intuicije i zdravog razuma.

Page 43: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

34

Ukratko rečeno, heuristika se može definirati kao korištenje lako dostupnih

informacija, čija primjena nije strogo određena. Upravo činjenica da laka dostupnost nekih

informacija ne utječe na njihovu korisnost donijela je velike promjene u praktičnom

korištenju prediktivnih sustava od strane korisnika odnosno policijskih analitičara. Došlo je

do svojevrsne ograničenosti na jednostavne matematičke strukture u provođenju analiza iz

razloga što su policijski službenici odnosno analitičari također dio geografskih prostora na

koje se analize odnose te imaju lak pristup velikom broju informacija iz okoline. Zdrav

razum, ali i praksa potvrđuje da je nepotrebno, čak u nekim slučajevima i kontraproduktivno

inzistirati na korištenju kompleksnih matematičkih struktura i tehnika da bi se u krajnjoj liniji

potvrdile informacije koje su većini dobro poznate.

Pogledamo li kakva je praksa u primjeni sustava, možemo vidjeti obilježja kojima je

definiran heuristički pristup. Jedan policijski analitičar je ukratko opisao naj korištenije

prediktivne tehnike u praksi riječima:

-U praksi su od velike koristi tzv. trenutne analize koje s obzirom na vrijeme i dan u

tjednu obavještavaju analitičare kada je najveća vjerojatnost za nastup određene vrste

kriminalnih delikata. Većina podataka prezentiraju se u slikovnom obliku kao

primjerice mape kriminalnih aktivnosti u protekla 24 sata što daje mogućnost

policijskim službenicima da stvore osjećaj o tome što se događa u njihovom okruženju

te kvalitetno apliciraju vlastita iskustvena znanja u prevenciji istih. Također moguće je

gotovo trenutno praćenje razine uspjeha odnosno neuspjeha u njihovom radu. Moguće

je vidjeti stopu određene vrste kriminala u tekućem tjednu i usporediti je primjerice sa

istim razdobljem prošle godine. Vrlo brzo je moguće uočiti fluktuacije u kretanju

ključnih pokazatelja što daje vremenski prostor za odgovarajuće postupke.

Većina analitičara se slaže kako je usvajanje heurističkih načela u praksi pun pogodak

što se tiče jednostavnosti, vremena a u krajnju ruku i funkcionalnosti. Upravo ta tri elementa,

funkcionalnost, jednostavnost i brzina karakteriziraju svaku široko primjenjivu metodu iza

koje stoje konkretni rezultati.

Slijedeće tri metode smatraju se heurističkim, što može kod korisnika stvoriti lažnu sliku

da se radi o metodama koje zbog, kao što je rečeno, jednostavnijih matematičkih algoritama i

elementarnijih informacija, ne generiraju nužno relevantne rezultate. Unatoč takvoj slici,

praksa pokazuje visok stupanj upotrebe baš ovih metoda:

Page 44: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

35

1. Manual identifikacija točaka interesa – koristeći ovu metodu analitičari koriste

vlastitu procjenu i iskustvo u definiranju područja koncentrirane aktivnosti. Iako je

ovo očigledan primjer neznanstvenog pristupa, bilježi visok stupanj primjene kako od

strane iskusnih tako i od analitičara početnika te ovakav pristup upotpunjen još s

određenim stupnjem pravnih znanja rezultira iznenađujuće velikim stupnjem točnosti.

2. Kvadratno tematsko mapiranje – manualna verzija grid mapping metode o kojoj je već

bilo riječi. Uključuje skup podataka koji je podijeljen s obzirom na geografsku

lokaciju gdje je nastupio što je grafički prezentirano kao skup poligona jednake

veličine čija boja determinirana heurističkim obilježjem odnosno brojem zabilježenih

incidenata. Analitičar također može na temelju vlastite procjene grupirati područja za

koja mu intuicija odnosno neki drugi pokazatelji govore da su područja visokog rizika,

kao što je prikazano na slici.

slika 5 (Tematska karta koja prikazuje područje s obzirom na broj krađa vozila)

3. Mapiranje s obzirom na područja nadležnosti –kao što ime govori, ova vrsta, možemo

reći pogleda na promatranu geografsku površinu formirana je na temelju pravnih

nadležnosti. Kao takva daje mogućnost formiranja poligona na koje je područje

podijeljeno u skladu s pravima nadležnosti, što u nekim situacijama olakšava posao,

ali u nekim unosi dodatne komplikacije. Razlog komplikacija u nekim slučajevima je u

izostavljanju onog dijela površine poligona koji je izvan umjetno stvorene granice

Page 45: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

36

nadležnosti, a u kojem se može nalaziti žarište kriminalnih aktivnosti. Ovom metodom,

odnosno kako smo je nazvali pogledom analitičar također može odabrati dva načina

na koja će donositi zaključak o rizičnosti nekog područja, na temelju jednostavnog

brojanja kriminalnih događanja ili kroz usporedbu stopa kriminala jednog područja i

cijeloga skupa.

6.1.3. Regresijske metode

Općenito govoreći, regresija podrazumijeva analizu oblika i smjera povezanosti i

analizu u smislu nezavisnih/zavisnih varijabli sa ciljem predikcije. U regresijskom modelu

poznavanje vrijednosti nezavisnih omogućuje predikciju vrijednosti zavisnih varijabli, pri

čemu je za naše razmatranje najznačajnija činjenica da kad god postoji značajna korelacija

između dvije varijable vrijednost jedne varijable se može iskoristiti za predikciju vrijednosti

druge.

Upravo zbog te činjenice u regresijskim modelima susrećemo prednost Big Data

pristupa. Kako se radi o varijablama kojima je možemo reći opisano neko područje, potpuno

je logično da slika nekog područja, kako podatkovna u bazi podataka, tako i grafički

prikazana će biti jasnija ako je detaljnije opisana kroz što je moguće veći broj varijabli.

Primjerice, regresijski model za predikciju provala, osim što će uključivati varijablu o

broju provala na promatranom području, također može obuhvaćati čitav niz drugih varijabli

koje čak na prvi pogled niti ne moraju biti u logičnoj vezi s modelom. Tako primjerice uz

spomenutu varijablu broja provala model može uključivati broj incidenata koji spadaju u

druge vrste kriminala, slučaje kršenja javnog reda i mira, broj kućanstava, broj napuštenih

kućanstava, podatak o registriranim prijestupnicima i sl.

Regresija metode u praksi mogu biti dosta osjetljive na volatilnost podataka i na

premalu količinu podataka, premda je taj problem kroz današnji tehnološki napredak riješen.

Primjena regresije je naročito primjerena situacijama u kojima je odgovor koji se nastoji

dobiti broj. Regresija u tom slučaju, naravno ako su spomenuta dva preduvjeta ispoštovana

daje dosta preciznu predikciju u vidu konkretnog broja i vjerojatnosti odstupanja odnosno

raspona kretanja. Na primjer: ako želimo dobiti odgovor na pitanje. Koliko će se provala

Page 46: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

37

dogoditi sljedeći tjedan ? Koristeći se regresijom odgovor može glasiti. Vjerojatno će ih biti 7,

ali sa 90-postotnom vjerojatnosti taj broj će biti između 5 i 10.

U prediktivnom policijskom djelovanju moguće je koristiti više regresijskih tehnika

koje su podijeljene s obzirom na matematičke odnose koji se ispituju na skupu ulaznih

podataka.

Tako razlikujemo tri tipa odnosa ulaznih varijabli:

Linearna regresija – linearni regresijski model predstavlja vezu između dvije ili više ulaznih

varijabli koja je matematički određena. Zašto je model dobio naziv „linearni“ ? Razlog je u

geometriji kojom je grafički predočen koja je ništa drugo nego linija koja u osnovi predstavlja

plan kretanja izlaznih varijabli modela na osnovu veličine ulaznih. U praktičnom smislu bi to

značilo da ako recimo želimo predvidjeti broj pljački sljedeći mjesec imamo sve potrebne

korake kako doći do konkretnog podatka. To može biti primjerice: broj pljački koji će se sa

određenim postotkom vjerojatnosti dogoditi slijedeći mjesec je jednak polovici broja pljački

počinjenih prošlog mjeseca plus jedna četvrtina od ukupnog broja slučajeva remećenja javnog

reda i mira prošlog mjeseca plus neka konstanta. Najčešće korištena metoda u kalkulaciji

najboljeg matematičkog odnosa ulaz i izlaza u konkretnom primjeru je metoda najmanjih

kvadrata.

Nelinearna regresija – za razliku od linearne regresije nije moguće jednostavno utvrditi

matematičku vezu između ulaza i izlaza koristeći se ponderiranim prosjecima. Za pronalazak

nelinearne veze među podatcima nije dovoljno slijediti već „postojeći recept“ nego je nužna

primjena logički a i vremenski znatno kompliciranijih algoritama.

Regression splines – iako je znatno kompliciranija od prethodno navedenih regresija,

teoretski ideju funkcioniranja je moguće jednostavno objasniti a glasila bi „podijeli pa

vladaj“. U donošenju zaključka koji se odnosi na čitav podatkovni skup ne koristi se samo

jedna regresija niti je njeno korištenje predviđeno na određenoj fazi analize. Kako se radi sa

možemo reći „zamršenim skupom podataka“ čije odnose nije lako matematički izraziti, a u

prilog toj kako smo je nazvali „zamršenosti“ pridonosi i velika količina podataka. Podatci

prije ulaska u model ne sagledavaju se samo kroz vrijednost koju imaju nego i kroz atribut

kojim su određeni. Gledajući to na primjeru procjene krađa automobila na nekom području,

pri čemu se pretpostavlja da promatrano područje nije jedna ulica ili jedan kvart. To bi značilo

da kako bi ispoštovali temeljnu ideju podatke prvo podijelimo na manje cjeline, to može biti

primjerice po geografskoj određenosti. Kako sada radimo s manjom količinom podataka,

Page 47: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

38

djelomično smo riješili problem „zamršenosti“ što se tiče količine podataka. Drugi problem je

spomenuti atribut kojim je varijabla određena, primjerice naša pretpostavka o krađi vozila

neće biti ni približno točna ako za najveću važnost za konačnu procjenu uzmemo varijablu

„boja vozila“, a zanemarimo primjerice atribute „godina proizvodnje“ i „stanje automobila“.

Nakon što je utvrđeno koji atributi najviše utječu na donošenje odluke potencijalnog

kradljivca o krađi moguće je prijeći na konkretnu vrijednost atributa u stvaranje konačne

procjene, ali bitno je naglasiti, procjene za manji dio podataka (za jednu regiju), dok će

konačna procjena za cijelo promatrano područje biti kombinacija svih manjih segmenata.

6.1.4. Near – repeat metoda

Već smo spomenuli kako kompleksnost podataka ne garantira nužno vrijednost istih i

da u mnogo slučajeva upravo oni naizgled beznačajni podatci generiraju najviše korisnih

informacija. U nekim slučajevima isti zaključak se može prenijeti na korištene metode.

Jedna od takvih metoda je near-repeat koja nije ništa drugo nego pretpostavka da će

buduće kriminalne aktivnosti imati slične značajke što se tiče vremena i lokacije, kao

registrirani prijestupi u bliskoj prošlosti.

Primjena ove metode proizašla je iz činjenice da unutar neke skupine podataka imamo

velik broj podataka koji se ponavljaju te da pronalaženje mogućih razloga ponavljanja može

rezultirati vrlo korisnim zaključcima. U samim početcima primjene ove metode, njena

uspješnost je također bila pretpostavka, ali primjena metode u praksi opravdala je prvobitnu

pretpostavku.

Ljudi slično kao i ovdje prikazane metode također svakodnevno rade s podatcima čiju

relevantnost dokazuju svakodnevno. Potpuno je prirodno i logično da će i čovjek u svom

životu slijediti onaj podatkovni uzorak koji se je već pokazao kao „dobitna kombinacija“.

Uočavanjem te pravilnost istražiteljima se ponudila mogućnost da korištenjem ionako

dostupnih podatkovnih uzoraka svakog kriminalnog delikta sa dosta velikim stupnjem

preciznosti mogu predvidjeti atribute sljedećeg.

Da su ljudi skloni slijediti uhodane uzorke ponašanja, govore stvarni primjeri iz

policijske prakse. Primjerice američki grad San Fernando tu činjenicu potvrdio je razmatrajući

slučaje provala, otkrivši nevjerojatan pravilnost u ponavljanju te vrste zločina. U periodu od

Page 48: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

39

2001.g. do 2005.g. u čak 100 slučajeva zabilježeno je ponavljanje kriminalnog djela u

vremenskom razmaku od 3 sata i unutar udaljenosti od 200 metara od prethodne pljačke.

Značajan stupanj ponavljanja zabilježen je i u gradu Beenleigh u Australiji gdje se

ustanovljena vjerojatnost od 7 posto da pojedinac postane žrtva pljačke za više od duplo

povećava, točnije rečeno na 16 posto, nakon nastupa prve pljačke, tj. vjerojatnost ponavljanja

ove vrste kriminalnog djela na istoj lokaciji je 16 posto.

Ovakav pristup, iako se u literaturi navodi kao metoda, kombiniran sa drugim,

prethodno objašnjenim metodama, kroz kompliciraniju matematičku podlogu generira izrazito

relevantne informacije. Informacije su do te mjere precizirane da je matematički potvrđeno da

se u gradiću Santa Clara u Californiji najviše provala događa utorkom i četvrtkom između

17:00 i 20:00 sati. Uz to su policijskim službenicima na terenu dostupne informacije Hot spot

analize što za sobom povlači i lokacije potencijalnih žrtava provalnika.

Učinkovitost ovakvog načina razmišljanja koje je bazirano na pretpostavci

prolongirane prošlosti dokazano je i u drugim slučajevima, primjerice u Japanu je ovaj način

razmišljanja učinkovito primijenjen na predviđanje potresa. Jednostavno rečeno lanac uzročno

posljedičnih veza je u većini slučajeva prisutan što se nikako ne smije zanemariti, a u

slučajevima kada slijed događaja izgleda nepovezan i zbunjujući razlog je najčešće u

„preskakanju pojedinih karika u lancu“.

6.2. Ulazne varijable metoda

O izboru ulaznih varijabli modela, odnosno o problemima koje isti može izazvati

rečeno je nešto u prethodnom poglavlju. Iako je u duhu Big Data pristupa podatcima, poželjno

koristiti što više podataka odnosno varijabli, teoretski u model je moguće staviti sve

raspoložive varijable. Problem takvog pristupa je u činjenici da kada je model pre-

kompleksan odnosno kada ima puno parametara dolazi do stvaranja slučajne greške,

takozvanog šuma u podatcima (eng. overfitting) umjesto logičnih međuodnosa. Da bi se to

izbjeglo postoje metode za izbor varijabli:

• Manual eksperimentiranje i korelacijska heuristika – cilj ove metode je

ispitivanje matematičke veze ulaznih i izlaznih varijabli modela tj. ispitivanje

Page 49: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

40

korelacijske povezanosti. Sve varijable koje predstavljaju potencijalne

kandidate modela prolaze kroz svojevrsni filter s kojim se iz modela izbacuju

varijable s nedovoljnim stupnjem korelacije te varijable kod kojih je korelacija

očigledna. Analitičari kroz eksperimentalni pristup prilagođavaju kriterije

spomenutog filtra kako bi u model bile uvrštene samo varijable koje u

statističkom smislu pridonose stvaranju predikcije prihvatljivog stupnja

pouzdanosti.

• Stupnjevita regresija – za ovu metodu možemo reći da je strogo heuristička

zbog iterativnog građenja modela. Naime metoda tj. njena izgradnja,

jednostavno govoreći, nije ništa drugo nego postupak pokušaja i pogreški.

Tijekom svake iteracije u model se uvrštava po jedna nova varijabla koja ima

za cilj „poboljšati“ model. Nakon uvrštavanja nove varijable, ako model nije

„poboljšan“ takva varijabla se jednostavno izbacuje te situacija ostaje ne

promijenjena. Iako je ova metoda dosta kritizirana unutar znanstvenih

krugova, rezultati govore da se unatoč pomalo, možemo reći, primitivnom

načinu funkcioniranja u konačnici generiraju jako dobri prediktivni modeli.

Ova jednostavna, ali učinkovita metoda primijenjena je čak i u razvoju nekih

softverskih paketa.

• Optimizacijske metode – primjenom ove metode rješava se spomenut problem

zamršenosti oko izbora ulaznih varijabli, na jedan matematički vrlo

kompliciran način da bi ga ovdje razmatrali. Uključuje primjenu naj

suvremenijih analitičkih modela današnjice, least-angle regresiju, lasso

regresiju i elastic net regulacijsku regresiju.

Page 50: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

41

VODEĆI POKAZATELJI REGRESIJSKE METODE

Pod pojmom vodeći pokazatelja, jednostavno rečeno, spadaju svi podatci koji

predstavljaju najveću važnost odnosno najveći izvor korisnih informacija. Iako takvi podatci

imaju ključnu važnost za uspješnost ne samo regresijske, nego i bilo koje druge prediktivne

metode to za sobom ne povlači i nužnu kompleksnost u njihovom prikupljanju i obrađivanju.

Jedini mogući ograničavajući faktor je u uočavanju takvih podataka. Osim što su takvi

podatci u velikom broju slučajeva prilično, možemo reći, „neupadljivi“ te se mogu činiti

poprilično nepotrebni i nebitni, dinamičnost okoline, konkretno promatrajući sa gledišta

prediktivnog policijskog djelovanja, zahtjeva i neprestanu potragu upravo za takvom vrstom

podataka.

Naime prosječnom podatkovnom analitičaru vremenska prognoza i kriminalne

aktivnosti su dvije poprilično nespojive stvari sve dok se nije pokazalo da visoke temperature

koreliraju s najtežim kriminalnim deliktima. Nadalje u policijskim poslovima ključna je i

proaktivnost za koju su također najbitniji relevantni pokazatelji. Neki podatci koji su bili

relevantni u neko razdoblju zbog dinamičnosti kako geografskih promjena prostora tako i

razmišljanja i prioriteta potencijalnih prestupnika, ne moraju više biti aktualni.

Problem u pronalaženju korisnik podataka tj. vodećih pokazatelja, u posljednje

vrijeme se rješava pristupom kojeg smo već dosta puta spomenuli u ovom radu, a ujedno je i

glavna filozofija Big data revolucije, a to je „po mogućnosti koristi sve podatka“. Istraživanja

su pokazala da analiza nad velikim podatkovnim serijama daje daleko bolje rezultate od

inzistiranja na kompleksnim metodama, čak se u mnogim slučajevima pokazalo da velika

podatkovna masa kompenzira i moguću irelevantnost podataka do neke mjere.

Dvojica podatkovnih analitičara Neill i Gorr činjenicu o vrijednosti velike podatkovne

mase u proaktivnom policijskom djelovanju pokazali su i praktično. U svom istraživanju

koristili su dvije skupine podataka. Jedna skupina su bili podatci o teškim kaznenim djelima, a

druga skupina su bili podatci, možemo reći potencijalnih pokazatelja, tj. podatci o manjim

prekršajima, kao što su remećenje javnog reda i mira i sl. U istraživanju skup podataka o

teškim kaznenim djelima predstavljao je skup zavisnih varijabli te su analitičari ispitivali

koliki broj tih djela je moguće bilo predvidjeti na temelju poznatih vodećih pokazatelja.

Rezultati su pokazali da je od 93 teških kaznenih djela, korištenjem vodećih podataka, bilo

Page 51: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

42

moguće otkriti čak njih 19. Slikovito rečeno, to je kao da devetnaest puta vidimo olujni oblak

ali se ipak odlučimo ostati vani.

6.3. Vremensko prostorna analitika

Uzevši u obzir sve do sada navedeno. U segmentu vremensko prostorne analitike u

razmatranje ćemo uzeti relaciju između samog kriminalnog dijela, koji je određen već

spomenutim atributima kao što su tip, lokacija, vrijeme te otkrivena pravilnost (eng. pattern), i

atribute kojima je određena okolina unutar koje promatramo događanja. To za sobom povlači

čitav niz novih parametara kojima je okolina određena i po svojima karakteristikama

specifična u odnosu na neku drugu lokaciju (primjerice drugi grad) i kao takva utječe na

„teoretsku“ analitiku.

Ideja vremensko prostorne analitike je ove dvije navedene skupine podataka

matematičkim metodama međusobno povezati te na odgovarajući način aplicirati u praksi,

koja je uvelike diktirana podatcima koji definiraju okolinu kao takvu.

Stavke koje ulaze u grupu podataka kojima je definirana okolina su primjerice:

• trenutačno aktualni događaji (npr. koncerti, nogometne utakmice i sl.)

• godišnje doba

• vremenska prognoza

• tipovi lokacija na kojima su počinjena kaznena djela (npr. park, igralište i sl.)

• geografske veze (npr. blizu autobusne stanice, 100 metara od banke i sl.)

• demografske i ekonomske okolnosti na nekom području

Svaki podatak ima određenu vrijednost u stvaranju konačne predikcije, kao što je već

spomenuto, konačnu predikciju možemo slikovito prikazati kao lanac te naglasak nije stavljen

na svaku kariku posebno nego na skup karika, što će reći da nije toliko bitna konkretna

vrijednost jedne jedinice podatka, već je bitno da nas ta podatkovna jedinca tj. karika, vodi ka

drugom podatku koji nam je do tada možda bio nepoznat.

Uvrštavanjem ovakve vrste podataka u analizu posljedica je shvaćanja dinamičnosti

okoline u kojoj se nalazimo koja se kao takva ne može razmatrati kroz prilično statične

matematičke modele koji prvenstveno apliciraju prošla događanja. Apliciranjem podataka

Page 52: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

43

kojima je opisana trenutna situacija a u mnogo slučajeva i situacija koja će nastupiti u bliskoj

budućnosti konačni rezultati analiza se drastično mijenjaju.

Primjerice uvrštavanjem u analizu podatak da je u tijeku nogometna utakmica u

predikciji lokacija kriminalnih djela naglasak se, osim sa poznatih lokacija već počinjenih

delikata, stavlja i na lokaciju koja se kroz prijašnja iskustva pokazala kao lokacija povezana sa

kriminalom, odnosno naglasak je stavljen na područje na kojem se kreću navijačke skupine.

Iako stvaranje ovakvih prognoza izgleda dosta komplicirano, što uistinu i je ako bih

smo tako nešto utvrđivali na „papiru“, u pozadini se nalaze najčešće jednostavne statističke

metode iz različitih oblasti statistike kao što su deskriptivna, inferencijalna i dvomjerna (eng.

bivariate statistics) statistika.

Konkretno koje će od dostupnih metoda biti iskorištene ovisi o konkretnoj situaciji i o

preferencijama analitičara. Primjerice u otkrivanju uzorka budućeg širenja kriminala,

prvenstveno pljački, autoriteti na tom području preporučuju korištenje jednostavne linearne

regresije u koju su uključene vrijednosti intervala između pojedinih pljački i vrijednost

opljačkane imovine. Suprotno tome razmišljanju pojedini analitičari pristupaju na način da u

obzir uzimaju prosječne vrijednosti mobilnosti kriminala na nekom području pa na temelju

toga određuju brzinu širenja za pojedine sektore promatranog područja.

TOPLINSKE MAPE

Kada govorimo o stvaranju bilo kakve predikcije ali i bilo kakvog plana djelovanja na

određenom geografskom prostoru, prvi korak je razmotriti ako već postoji ili stvoriti

geografsku kartu područja. U prethodnim cjelinama već smo imali priliku vidjeti kako izgleda

najčešće korišten geografski prikaz u svakodnevnom policijskom djelovanju tzv. toplinska

mapa (eng heat map). Prikaz koji smo do sada vidjeli, možemo reći da predstavlja

najjednostavniji pogled na neko područje samo kroz ništa drugo nego grafički prikaz jedne

varijable koja predstavlja broj kriminalnih incidenata u svakoj od ćelija na koje je prostor

podijeljen.

Čak i tako jednostavan prikaz, u pozadini kojeg je baza podataka koja nije ništa drugo

nego najjednostavnija Excel tablica sa podatcima od interesa, na brz i lako razumljiv način

daje hrpu korisnih informacija.

Page 53: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

44

Uvođenjem, u ovom poglavlju razmatrane, prostorno vremenske analize u priču o

preventivnom policijskom djelovanju. U pozadini tzv. toplinskih mapa nalazi se prava baza

podataka koja sadrži velik broj atributa kojima je jednoznačno određeno svako kazneno djelo.

Kako raspolažemo čitavim nizom atributa, zaključci mogu biti raznovrsni ovisno o atributu

kojeg uzimamo u obzir. Primjerice zaključak na osnovu podataka prikupljenih od strane

Washington D.C-a je da se provale najčešće događaju u jutarnjim satima a posebice oko 7 :00

dok se pljačke najčešće događaju u večernjim satima između 20:00 i 24:00 u toku radnog

tjedna, dok tijekom vikenda najveća koncentracija pljački je između 21:00 i 4:00.

Primjenom naprednijih softverskih rješenja, zaključci mogu biti formirani i oko nekih

drugih atributa od interesa. Primjerice iz atributa o vremenu može se donijeti zaključak da u

vrijeme velikih vrućina raste broj kriminalnih aktivnosti na nekom području.

Osim egzaktnih vrijednosti atributa, najnoviji softverski alati omogućavaju, možemo

reći, analizu čitavih pod profila stvorenih na temelju iskustva i istraživanja ponašanja

određenih društvenih skupina koji su predmet promatranja. Tako da jednostavno rečeno

napredniji softverski paketi imaju sposobnost da po potrebi vrše analizu čak i na

individualnoj razini uz neupitnu relevantnost ponuđenih informacija.

ST-GAM (Spatiotemporal Generalized Additive Model)

U prethodnom poglavlju smo se dotaknuli najnovijih softverskih rješenja i njihovih

mogućnosti. ST-GAM model predstavlja glavni segment velike većine najsuvremenijih

kompleksnih metoda koje se danas koriste u praksi. Razvijen je od strane dvaju istraživača

Xiaofeng Wang-a i Donald Brown-a na Sveučilištu u Verginiji. Predstavlja svojevrsno

proširenje klasičnog mrežnog regresijskog modela, u koji se uvrštavaju prostorno-vremenski

podatci koji opisuju svaku od ćelija na koje je promatrani prostor podijeljen.

Uključivanjem prostorno-vremenskih podataka, kao što su trenutna ekonomska

situacija, geografske lokacije građevina ili infrastrukturnih postrojenja za koje praksa

pokazuje da imaju veći stupanj rizika, društvena situacija i sl. Stvara se realna slika prostora

koja u sebi sadrži ključne faktore koji su prisutni u trenutku donošenja odluke od strane

pojedinca da počini kazneno djelo. Upravo ta mogućnost stvaranja relevantne slike situacije

neposredno prije počinjenja kaznenog djela je ključ uspjeha proaktivnog djelovanja policije.

Page 54: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

45

Za primijetiti je da se na ovaj način uključuje čitav spektar novih podataka, u stvari,

moguće je analizom obuhvatiti bilo koji podatak koji relevantno opisuje okolinu, jedini

preduvjet je da je podatak geografski određen. Geografska određenost je bitna kako bi se

podatak mogao obrađivati kroz GIS (eng. Geographic Information Systems) informacijske

sustave koima se stvara kartografski prikaz područja koji se pokazao najpogodniji u praksi.

U praksi se osim ST-GAM modela koji je dizajniran za predviđanje lokacije i vremena

kriminala za veći dio regije od interesa, također koristi i LST-GAM (eng. Local

Spatiotemporal Generalized Additive Model) model koji radi na istim principima ali definira

pater manjeg geografskog područja.

Ispitivanja ali što je još važnije, praksa je pokazala da su ova dva modela daleko

učinkovitija u odnosu na prethodno predstavljene iz razloga što se kroz modele uspjela

realizirati ideja stvarne proaktivnosti oslonjene na vremensko i prostorno određene (GIS)

podatke a ne kao što je prije slučaj bio na heuristička načela.

Analiza rizika geografskih lokacija

Analiza rizika geografskih lokacija u okvirima prostornog obuhvata koji promatramo

predstavlja skup tehnika koje imaju dva osnovna cilja: 1) izdvojiti lokacije za koje je praksa

pokazala da su direktno odnosno indirektno povezane sa kriminalnim aktivnostima i 2) na

temelju odrađenog prvog zadatka, stvoriti relevantne predikcije razine kriminaliteta u

područjima koja se nalaze blizu takvih, možemo reći, rizičnih mjesta.

Kao što smo već imali slučaj, i u ovom segmentu prediktivne analitike postoje dva

moguća pristupa. Jedan pristup je znatno jednostavniji, ali s time ponešto i ograničeniji u

okvirima nivoa relevantnosti koja se s njime postiže a predstavljen je kroz uhodana

heuristička načela, te drugi koji ima puno više potencijala što se tiče potreba u budućnosti a

zasnovan je na primjeni statističkih modela.

Pogledamo li konačni rezultat analize rizika terena, prikazan grafički, prikaz je

praktički identičan rezultatu koji je dobiven hot spot analizom, te sa stajališta krajnjeg

korisnika, koji je u ovom slučaju policijski službenik, praktički razlika niti ne postoji.

Razlika između ove dvije metode je u podatcima koji se nalaze u pozadini a u osnovi

su potpuno različiti. Hot spot metode fundamentalno spadaju u grupu klasterskih tehnika koje

u ovom slučaju na temelju klastera tj. događaja od interesa utvrđuju geografske lokacije

Page 55: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

46

promatranih događanja koje se potom grafički prikazuju na geografskoj karti. Metode koje

ulaze u okvire analiza koje se odnose na utvrđivanje rizika promatranog područja

karakterizira klasifikacijski pristup koji procijenjeni rizik nekog područja bazira na prisutnost

lokacija okarakteriziranih kao „prijetnja“ (npr. barovi, noćni klubovi i sl.).

Heuristički pristup RT modelu

Za ovaj pristup možemo reći da oslikava aktualni način korištenja podataka. Naime u

današnje vrijeme vrijednost podataka leži u podatkovnoj cjelini, koja je sastavljena od

zasebnih podatkovnih jedinica koje bez obzira na zasebnu vrijednost, koja je najčešće

zanemariva, imaju veliku važnost u formiranju cjeline.

Takva podatkovna manipulacija upravo je najjasnije prikazana kroz ovaj model,

prvenstveno što rezultat korištenja modela ima grafičku prezentaciju kroz geografsku kartu.

Stvaranje karte nekog područja nije ništa drugo nego slaganje slojeva podataka jedan na

drugi, što u konačnici formira jedinstveni prikaz svih podataka na jednom mjestu.

U primjeni geo-informacijskih sustava (GIS) iskorišten je podatak geografske

određenosti, koji je poznat za apsolutno svaki događaj, te kao zajednički atribut povezuje

druge segmente podataka koji mogu imati posve različitu atributnu određenost .

U praksi bi to značilo da prilikom stvaranja geografske reprezentacije RT modela

najprije koristimo sloj podataka koji definiraju ćelije na koje je područje podijeljeno. Zatim na

taj sloj mreže dodajemo sloj na kojem su lokacije objekata koji predstavljaju „prijetnju“.

Slijedeći podatkovni sloj su lokacije počinjenih kriminalnih djela, te se najčešće ovisno o

njihovom broju na nekom području tj. unutar neke ćelije računa njihova koncentracija.

Kombinacijom samo ova tri sloja dobiva se prilična jasna slika situacije na nekom

području. Ovisno o tome što želimo prikazati na geografskom prikazu područja dodajemo

odnosno uklanjamo slojeve podataka. Primjerice, u gradiću Irvington (New Jersey) 2011.g.

došlo je do naglog povećanja prisutnosti vatrenog oružja na ulicama, potrebno je bilo

ustanoviti koja su to područja na kojima se sa najvećim stupnjem vjerojatnosti može očekivati

upotreba vatrenog oružja. Kombinacijom tri sloja poznatih podataka, lokacije članova bandi,

lokacije objekata u koje takav tip ljudi najčešće zalazi i područja narko kartela, dobiven je

dosta pouzdan prikaz trenutne situacije, čime je dobiven podatkovni temelj za heurističke

metode formiranja zaključaka.

Page 56: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

47

7. PRIMJER IZ HRVATSKE

Iako je u radu naglasak stavljan na korištenje big data pristupa od strane policije, kako

bi smo spomenuli jedan ovoj tematici sličan projekt iz Hrvatske, odmaknut će mo se od teme i

upoznati se sa projektom kojeg uspješno provodi Hrvatska gorska služba spašavanja.

Naime Hrvatska gorska služba spašavanja je nositelj projekta po nazivom „Razvoj

inovativnih tehnologija u pustolovnom turizma“ financiranog sredstvima Europske unije

putem IPA programa prekogranične suradnje Hrvatska – Crna Gora. Vodeći projektni partneri

su Hrvatska gorska služba spašavanja15 (HGSS) u Republici Hrvatskoj i United Nations

Development Program (UNDP) CO Montenegro u Crnoj Gori.

Cilj projekta je, jednostavno rečeno, iskoristiti tehnološka rješenja u podizanju razine

sigurnosti u sferi pustolovnog turizma na ovim prostorima, koji je zadnjih godina doživio

procvat. Sve više turista je zainteresirano za provođenje godišnjeg odmora dalje od morske

obale, što uključuje planine, rijeke, jezera, speleo objekte, jednom riječju, geografsko

nepristupačne dijelove.

Za pokretanje projekta nije od presudne važnosti bila spomenuta geografska

nepristupačnost, već činjenica koja našu regiju stavlja u nepovoljan položaj u odnosu na

konkurente, a to je da su nam kanali „online“ distribucije i prikupljanja podataka dosta

nerazvijeni. U skladu s novim trendovima u turizmu, kroz ovaj projekt uvest će se inovacije u

kreiranju i promociji turističkih proizvoda pomoću ICT tehnologije. U okviru toga napravit će

se potpuno funkcionalan geoportal (web stranica na GIS platformi) te dvije mobilne aplikacije

koje će dovesti do lakšeg prikupljanja informacija i poboljšanja komunikacije s krajnjim

korisnicima.

Osim u ovom, trenutno aktualnom projektu, HGSS u svom radu već duže vremena

zagovara filozofiju podatkovne određenosti svih svojih aktivnosti „bilježi se doslovno svaki

korak“.

Već neko vrijeme je također aktualan projekt kartiranja planinskih dijelova Hrvatske.

Pri čemu je potrebno naglasiti, u ovom radu već nekoliko puta spomenutu činjenicu, da je

15 Hrvatska gorska služba spašavanja je nacionalna, dobrovoljna, stručna, humanitarna i nestranačka udruga javnog značaja čiji su osnovni ciljevi sprječavanje nesreća, spašavanje i pružanje prve medicinske pomoći u planini i na drugim nepristupačnim područjima.

Page 57: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

48

konačni cilj cijele priče prikupljanja podataka stvaranje baze podataka u pozadini. Pri tome se

naravno pridržava univerzalnog pravila, „prikupi podatke po mogućnosti sve“.

Pridržavanje spomenutih pravila detaljne podatkovne određenosti, u dosta slučajeva

izgleda poprilično apsurdno i besmisleno. Primjerice izlazak kartografa na teren osim

prikupljanja GPS tragova putem GPS uređaja uključuje bilježenje najsitnijih podataka sa

terena. „Nije bitno naznačiti da je na određenoj lokaciji neka građevina, trebam znati kakve je

boje fasada“.

Koliko god to zvučalo apsurdno, još nevjerojatnije zvuče konačni rezultati koji su na

taj način ostvareni. Ne mali broj slučajeva je da su spašavatelji uspjeli „spasiti osobu“ putem

mobitela, upravo zahvaljujući ovim spomenutim krajnostima u prikupljanju podataka.

Unesrećena osoba bi samo jednim telefonskim pozivom opisala okolinu gdje se nalazi

(konkretno boju fasade) te bi spašavatelji na osnovu prikupljenih podataka u vrlo kratkom

roku utvrdili gdje se osoba nalazi te po potrebi izašli na teren ili osobu uputili na pravi put ako

se je izgubila.

U stvaranju podatkovnog prikaza područja koristi se čitav niz podataka, od vojnih

karata, satelitskih snimki, karata minsko sumnjivih područja i sl. te se ti podatci slažu jedan na

drugi. Gledajući podatke posebno malo toga se može zaključiti, dok njihovim preklapanjem

na temelju atributa geografske pozicije koja je određena geografskim koordinatama dobivamo

informacije velikog stupnja relevantnosti.

Kako slika govori više od tisuću riječi, ovdje ukratko opisano podatkovno preklapanje

možemo vidjeti na sljedećem jednostavnom primjeru.

Zamislimo situaciju da je HGSS dobio poziv od centra 112 da izađe na teren. Na

temelju poziva unesrećenog imamo pouzdanu informaciju da je osoba krenula planinarskom

stazom iz doma na Platku prema Snježniku i da se nalazi negdje na toj stazi ali ne znamo

točno gdje. Premda je to područje kvalitetno kartirano, tj. podatkovno određeno, „na stol“

stavljamo podatke koji su nam potrebni.

Page 58: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

49

Kao prvo, spašavatelji ne moraju nužno dobro poznavati teren, pa je prvo pitanje, gdje

se točno Platak nalazi ?

slika 6 (Korištenje QGIS softverskog alata za preklapanje dvije vrste podataka)

Podatci koji su nam potrebni za odgovor na ovo pitanje su, karta Hrvatske, pri čemu su

naznačene i općine, što također može biti koristan podatak i vojna karta TK2516 koja za

trenutne potrebe akcije daje optimalnu količinu informacija, kao što se može vidjeti na slici.

Sljedeće logično pitanje je gdje se nalazi spomenuta planinarska staza.

16 Topografska karta (TK25) je osnovna službena državna karta i izrađuje se u mjerilu 1:25000. Službena državna karta kodirana je slika prirodnih i izgrađenih objekata zemljine površine koja se izrađuje za cjelokupno područje Republike Hrvatske.

Page 59: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

50

slika 7 (Korištenje QGIS softverskog alata za preklapanje tri vrste podataka)

Odgovor na to pitanje dobivamo stavljanjem „sloja podataka“ o planinarskim stazama

na postojeća dva sloja.

Kada tako posložimo podatke imamo sve što nas zanima te možemo ljude poslati na

teren, jedino još bi bilo dobro znati da li se može barem jedan dio puta prijeći nekim

prijevoznim sredstvom. Taj podatak se nalazi u bazi podataka ili je na karti naznačen kao

oznaka klasifikacije puta prema kojoj znamo da li je put predviđen isključivo za terensko

vozilo ili je isključivo pješački ili nešto treće. Kako bi spašavatelji na terenu bili što

informiraniji u konkretnom slučaju raspolažemo i sa satelitskom snimkom područja.

Page 60: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

51

slika 8 (Korištenje QGIS softverskog alata za preklapanje četiri vrste podataka)

Osim, možemo reći, slikovitog prikaza slaganja i povezivanja podataka, iza ovog

primjera se krije još jedna interesantna činjenica. Naime za ovaj primjer je korišteno

besplatno i svima dostupno softversko rješenje koje svatko može skinuti sa interneta. Premda

je rad u softveru poprilično jednostavan ovaj primjer ne može svatko napraviti. Postavlja se

pitanje zašto je to tako.

Na scenu stupa, već mnogo puta spomenuta u ovom radu, vrijednost podataka. Do

podataka koji su korišteni u ovom primjeru vrlo teško je doći, pa su takve podatkovne

manipulacije još uvijek u velikoj mjeri moguće samo unutar velikih tvrtki ili organizacija.

Odnos prema podatcima se s vremenom mijenja kao i zakoni kojima je uređen pristup

i korištenje istih. Pitanje je vremena kada će ovakve ali i mnogo složenije podatkovne

manipulacije biti moguće i svakom pojedincu, što će nedvojbeno utjecati, slobodno možemo

reći, na podizanje svijesti cjelokupnog društva, a razlog tomu je bolja informiranost koja stoji

iza svakog uspjeha a njena manjkavost ujedno je i razlog velikom broju neuspjeha.

Page 61: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

52

ZAKLJUČAK

Tema razmatranja predstavlja područje koje u isto vrijeme generira, ogromni

skepticizama i veliko oduševljenje kako u znanstvenim krugovima tako i u široj javnosti.

Općenito gledano, da li će načela koje zagovara big data tehnologija pasti na plodno tlo i

zaživiti unutar neke poslovne organizacije ili neke druge organizacije kao što je policija, u

velikoj mjeri ovisi o tome kakav stav o spomenutoj tehnologiji vlada u krugovima ljudi koji o

uvođenju iste odlučuju.

Vodeći se time, slobodno možemo reći da kao i sama big data revolucija, da i njeno

prihvaćanje ovisi o informacijama, pri čemu se naglasak stavlja na cjelokupnu informacijsku

sliku a ne samo na uski segment, što je najčešći slučaj. Naime promatrajući primjerice

predmet razmatranja čisto s matematičke strane, vrlo je lako steći dojam savršenosti i

teoretske nepogrešivosti pozadinskih metoda tehnologije. Promatrajući isti slučaj sa strane

socijalnih načela društva, upravo spomenuta riječ „teoretska“ cijelu tehnologiju stavlja na

crnu listu stvari koje narušavaju ljudska prava.

Da bi smo formirali relevantnu sliku ne treba bježati od čvrstih argumenata takozvanih

pluseva i minusa koje tehnologija sa sobom donosi. Jednostavno pozitivne stvari trebamo

shvatiti kao nešto što smo uspješno apsolvirali i što je iza nas, a negativne kao poziv na stalni

tehnološki napredak. U konačnici da nema stvari s kojima nismo zadovoljni, to bi značilo da

živimo u savršenom svijetu, koji kao takav negira i potrebu za bilo kakvim napretkom.

Page 62: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

53

Literatura

PISANA LITERATURA

1. Viktor Mayer-Schönberger and Kenneth Cukier – Big Data A Revolution That Will

Transform How We Live, Work and Think

2. Luke Harding – Snowden: Dosjei

3. Walter L. Perry, Brian Mclnnis, Carter C. Price, Susan C. Smith, John S. Hollywood

- PREDICTIVE POLICING The Role of Crime Forecasting in Law Enforcement

Operations

WEB IZVORI

4. Coursera – Big Data in Education (https://www.coursera.org/course/bigdata-edu)

8. svibnja 2014.god.

5. Google PageRank (http://www.evorion.hr/n/a/google-pagerank/) 12. svibnja 2014.god.

6. Google Ngram Viewer (https://books.google.com/ngrams) 14. svibnja 2014.god.

7. Liderpress (http://liderpress.hr/poslovna-znanja/google-europljanima-pruzio-pravo-na-

zaborav/) 8. lipnja 2014.god.

8. Wikipedija – tvrtka IBM (http://hr.wikipedia.org/wiki/IBM) 20. svibnja 2014.god.

9. Wikipedija – CAPTCHA (http://hr.wikipedia.org/wiki/Captcha) 28. svibnja 2014. god.

10. Wikipedija – tvrtka AOL (http://en.wikipedia.org/wiki/AOL) 10. lipnja 2014.god.

11. Wikipedija – projekt Tempora (http://de.wikipedia.org/wiki/Tempora)

23. lipnja 2014.god.

12. Wikipedija – optičko prepoznavanje znakova

(http://en.wikipedia.org/wiki/Optical_character_recognition) 23. lipnja 2014.god.

13. Wikipedija – ReCAPTCHA (http://en.wikipedia.org/wiki/ReCAPTCHA) 29. svibnja

2014.god.

14. Wikipedija – Nauance Communications

(http://en.wikipedia.org/wiki/Nuance_Communications) 30. svibnja 2014.god.

15. Wikipedija – GIS sustav

(http://hr.wikipedia.org/wiki/Geografski_informacijski_sustav) 20. prosinca 2014.god.

16. HGSS (http://www.gss.hr/) 22. prosinca 2014. god.

17. Geoportal (http://geoportal.dgu.hr/podaci-i-servisi/dtk25/) 27. prosinca 2014. god.

Page 63: TEHNIČKO VELEUČILIŠTE U ZAGREBU - bib.irb.hr · TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ Specijalizacija informatika Luka Petrić

54

Summary

This paper deals with Big data technologies in predictive policing activity. It is a very

complex and comprehensive area which has been elaborated in this paper in a less complex

way. The idea was to create a view of the importance and value of data as such.

This paper has been divided into two parts. The first part is theoretical representation

of Big data technologies compared with examples from everyday life. The second part is a

concrete example of implements Big data principles in predicting policing activity.