Benfordov zakon (pravilo)

Sveuciliste J. J. Strossmayera u Osijeku

Odjel za matematiku

Srecko Jancikic

Benfordov zakon

Diplomski rad

Osijek, 2013.

Sveuciliste J. J. Strossmayera u Osijeku

Odjel za matematiku

Srecko Jancikic

Benfordov zakon

Diplomski rad

Mentor: dr. sc. Nenad Suvak

Osijek, 2013.

Sadrzaj

1 Uvod 1

2 Povijest 2

2.1 Simon Newcomb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.2 Frank Albert Benford . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.3 Ted Hill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.4 Stiglerov zakon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Motivacija 5

4 Logaritamska funkcija 7

5 Slucajna varijabla 8

5.0.1 Diskretna slucajna varijabla . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

5.0.2 Neprekidna slucajna varijabla . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5.0.3 Funkcija distribucije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

5.0.4 Transformacije slucajne varijable . . . . . . . . . . . . . . . . . . . . . . . . 14

6 Znacajne znamenke 16

7 Benfordov zakon 16

7.1 Mantisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

7.2 σ-algebra mantise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

7.3 Benfordovo svojstvo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

7.3.1 Veza Benfordovog zakona i svojstva uniformne distribuiranosti modulo 1 . . 29

8 Testiranje statistickih hipoteza 31

8.1 χ2-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

8.2 Primjena na probleme u praksi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

9 Usustavljivanje Benfordovog zakona 37

10 Generiranje Benfordovih brojeva 42

11 Zakljucak 44

12 Literatura 45

1 UVOD

1 Uvod

Buduci da je financijski sektor temelj danasnjega drustva, statisticari i financijski strucnjaci zele

smanjiti prijevare u istome. Prijevare bi se ukinule kada bi se svaka transakcija detaljno provje-

rila, sto zbog iznimno velikog broja transakcija, koje se obave gotovo svake sekunde, nije moguce.

Upravo se zbog toga pronalaze razni nacini pomocu kojih se zele istaknuti sumnjive transakcije,

cime bi se detektirale prijevare. Jedan od nacina je Benfordov zakon, koji cemo obraditi u ovome

radu. Benfordov zakon se u financijskoj analizi poceo upotrebljavati pocetkom devedesetih godina

dvadesetoga stoljeca, a njegovom upotrebom znatno se povecala detekcija prijevara navedenoga

sektora. Ovdje cemo Benfordovo pravilo promotriti i argumentirati s matematickoga aspekta.

Rad cemo zapoceti povijescu Benfordovoga zakona, otkrivenoga od strane Simona Newcoma. Ben-

fordov zakon dugo nije bio proucavan, sve dok ga jedan poznati fizicar (po kojemu je zakon dobio

ime) nije ponovo otkrio i dodatno prosirio. On se vec niz godina pokusava dokazati, ali jos nije

potpuno dokazan; dokazani su samo pojedini specificni slucajevi. U nastavku cemo definirati os-

nove potrebne za Benfordov zakon, a to su funkcije i slucajna varijabla. Najvaznija funkcija za

Benfordov zakon je logaritamska funkcija (koju cemo detaljnije obraditi), a najvaznija slucajna

varijabla je uniformna, uz pomoc koje se opisuju Benfordovi brojevi.

U nastavku rada ulazimo u podrucje Benfordovoga zakona te uvodimo elementarne pojmove za

opisivanje istoga. To su znacajne znamenke i mantisa, koje cemo detaljno definirati i opisati.

Kasnije cemo definirati pojam uniformne distribuiranosti modulo 1 i njegovu vezu s Benfordovim

zakonom. Nakon toga dolazimo do dijela u kojemu cemo testirati statisticke hipoteze, uz pomoc

kojih cemo s odredenom sigurnoscu reci postuju li neki podatci Benfordov zakon ili ne. Nakon

toga cemo se pozabaviti generiranjem Benfordovih brojeva.

1

2 POVIJEST

2 Povijest

2.1 Simon Newcomb

Simon Newcom (slika 1) roden je 12. ozujka 1835. godine u Wallaceu, u Novoj Skotskoj, a umro

je 11. lipnja 1909. godine u Washingtonu. Njegova majka Emily Prince bila je kci poznatoga

sudca, a njegov otac John Burton Newcomb je bio ucitelj u jednoj kanadskoj skoli. Kako se John

zbog posla neprestano selio, Simon nije imao mogucnost formalnog obrazovanja, zbog cega ga je

John poducavao kod kuce. Kada je imao sesnaest godina, Simon se zaposlio kod jednog travara,

doktora Foshaya u Novom Brunswiku. Simon je tamo trebao raditi pet godina, za vrijeme kojih

je trebao nauciti upotrebljavati bilje u svrhu lijecenja bolesti. Dvije je godine bio njegov ucenik,

no onda je postao nezadovoljan jer je shvatio da Foshay nema znanstveni pristup, nakon cega je

odbio dogovor i dao otkaz.

Nakon sto je otisao, prehodao je cak 150 kilometara do luke Calais u Maineu. Tamo je sreo svojeg

buduceg suputnika, kapetana, s kojim se dogovorio da ga odvede u Salem u Massachusettsu. Za

uzvrat je obecao sluziti kao mornar na njegovu brodu. Nedugo potom, 1854. godine, Simon se

pridruzio ocu u Salemu pa su zajedno krenuli u Maryland.

Slika 1: Simon Newcomb

Nakon dolaska u Maryland, Simon je dvije godine proveo obrazujuci se, dok je u slobodno vrijeme

proucavao uistinu raznolike predmete (poput politicke ekonomije i religije), ali su se u centru

njegovih studija uvijek nalazile matematika i astronomija. Procitao je Newtonovu Principiju1.

1Tri knjige Isaaca Newtona. Principia navodi Newtonove zakone gibanja, koje cine temelj klasicne mehanike te,

2

2.2 Frank Albert Benford 2 POVIJEST

Godine 1856. zauzeo je poziciju privatnoga ucitelja u neposrednoj blizini Washingtona, sto mu

je omogucilo cesta putovanja u Washington (na studij matematike i u knjiznicu). Bio je jedna

od rijetkih osoba koji su smjele posuditi kopiju Bodwitchovoga prijevoda Laplaceove Mecanique

Celeste2 iz knjiznice Smithsonian, ali je shvatio da je matematika koju knjiga sadrzava bila izvan

njegova trenutnoga znanja, zbog cega je odustao od knjige.

Tijekom 1881. godine Simon Newcomb je otkrio statisticki princip, poznatiji kao Benford zakon.

On je, naime, primijetio da su pocetne stranice logaritamskih knjiga, koje su se u to vrijeme

upotrebljavale za obavljanje logaritamskih izracuna, bile daleko vise istrosene od kasnijih stranica.

To ga je dovelo do formuliranja nacela prema kojemu ce u bilo kojemu popisu brojeva uzetih od

proizvoljnoga skupa podataka, vise brojeva ima tendenciju poceti sa znamenkom 1, nego s bilo

kojom drugom znamenkom.

Newcomb je umro od raka mjehura u Washingtonu, a pokopan je uz vojne pocasti u nacionalnom

groblju Arlington. Na njegovu se sprovodu pojavio cak i predsjednik William Howard Taft.

Newcombova kci udala se za pomocnika americkoga drzavnoga odvjetnika, Edwarda Baldwina

Whitneya, sina profesora Williama Dwighta Whitneya te unuka americkoga senatora i guvernera

Connecticuta, Rogera Shermana Baldwina (koji je, takoder, bio djed cuvenoga matematicara i

profesora Hasslera Whitneya).

2.2 Frank Albert Benford

Frank Albert Benford (slika 2) roden je 1883. godine u Johnstownu u Pennsylvaniji, a umro je 4.

prosinca 1948. godine. Bio je americki inzenjer elektrotehnike i fizicar. Najpoznatiji je po tomu

sto je ponovo otkrio i generalizirao pravilo koje je po njemu dobilo ime. Benfordov zakon (pravilo)

govori o ponavljanju znamenki u listi podataka (numerickih), o cemu cemo detaljnije u ovomu

clanku.

Benford je, takoder, poznat po tomu sto je 1937. godine izumio instrument za mjerenje indeksa

loma stakla. Bio je strucnjak za opticka mjerenja; objavio je cak 109 clanaka u polju optike i

matematike, a dobio je i dvadeset patenata za svoje opticke uredaje.

Njegov datum rodenja nije tocno poznat, zbog cega se cesto se nagada oko dva datuma, 29. svibnja

i 10. srpnja, no niti jedan datum nije potvrden. Nakon diplomiranja na Sveucilistu u Michiganu

1910. godine, Benford se zaposlio za General Electric3. Osamnaest godina radio je u inzenjerskom

takoder, Newtonov zakon univerzalne gravitacije i izvod Keplerovih zakona planetarnog gibanja (Kepler je dobiosvoj zakon empirijski). Principia je smatrana jednim od najvaznijih djela u povijesti znanosti.

2U prijevodu Mehanika nebeskih tijela. Primjenjuju se principi fizike, povijesno klasicne mehanike na objekte uastronomiji kao sto su zvijezde i planeti.

3General Electric kompanija ili GE (NYSE: GE) je americki multinacionalni konglomerat korporacija osnovanu Schenectadiju, u New Yorku, sa sjedistem u Fairfieldu, u Connecticutu (u Sjedinjenim Americkim Drzavama).Tvrtka posluje kroz cetiri segmenta: energetiku, tehnologijske infrastrukture, kapitalno financiranje, potrosace iindustriju

3

2.3 Ted Hill 2 POVIJEST

Slika 2: Frank Albert Benford

laboratoriju za svjetlost, nakon cega je dobio promaknuce i poceo raditi za istrazivacki laboratorij.

U srpnju 1948. godine otisao je u mirovinu. Umro je u 4. prosinca 1948. godine u vlastitom domu.

2.3 Ted Hill

Slika 3: Ted Hill

Theodore Preston Hill (slika 3) je americki matematicar poznat po svojim istrazivanjima u teoriji

vjerojatnosti. Posebno se isticu radovi na Benfordovomu zakonu, teoriji optimalnog zaustavljanja

i igrama s postenom podjelom.

Roden je 1943. godine u Flatbushu (u New Yorku). Studirao je na americkoj vojnoj akademiji

4

2.4 Stiglerov zakon 3 MOTIVACIJA

West Point i na Stanfordu. Nakon odsluzenja vojnoga roka vratio se studiranju matematike na

Sveucilistu Gottingen. Po zavrsetku studija zaposlio se kao profesor na Institutu za tehnologiju u

Georgiji , a u isto vrijeme radio je i na nekoliko drugih fakulteta.

1995. godine prvi daje potpunu teorijsku podlogu i objasnjenje Benfordovoga zakona, no ne daje

objasnjenje na pitanje razloga postojanja istoga.

2.4 Stiglerov zakon

Stiglerov zakon je proces koji je Stephen Stigler, profesor statistike, predlozio na Sveucilistu u

Chicagu. U svojemu najjednostavnijemu i najjacemu obliku on kaze: ”Niti jedno znanstveno ot-

krice nije dobilo ime po svojem izvornom izumitelju.”. Stigler je naznacio da je sociolog Robert

K. Merton izvorno izumio Stiglerov zakon, zbog cega je Stiglerov zakon sam sebi primjer.

Spektakulrana otkrica, kakva su cesta u nekim znanostima, u matematici su prava rijetkost. Ma-

tematicka znanja nastaju i sazrijevaju u dugotrajnom procesu, kroz naporan rad mnogih mate-

maticara. Povijesne pohvale za otkrica cesto se dodjeljuju osobama koje donose pozornost na

otkrice, iako ta osoba mozda i nije njezin prvobitni izumitelj. Teorija moze biti imenovana dugo

nakon otkrica. U slucaju Stiglerovog zakona, ideja biva nazvana po toj osobi cak i ako ta osoba

po povjesnicarima znanosti nije ona koja ju je otkrila.

Jedan od primjera Stiglerovog zakona je i Benfordov zakon. Naime, ni Benfordov zakon nije do-

bio naziv prema svojemu izvornom tvorcu. Benfordov zakon prvi put je otkriven 1881. godine,

od strane Simona Newcomba. Ponovo je otkriven 1938. godine, od strane Franka Benforda (po

kojemu je zakon dobio ime). Prvo pravo testiranje i dokaz napravio je Ted Hill 1988. godine.

3 Motivacija

Statistika i statisticke metode imaju vaznu ulogu u danasnjem svijetu. Planiranje i upravljanje

se zasniva na podatcima u razlicitim pojavama i procesima drustvene zajednice. Nad podatcima

se prvo manipulira (npr. mijenjamo vrijednost nezavisne varijable da vidimo utjecaj na zavisnu

varijablu), a zatim ih se prikuplja. Prije tumacenja podataka potrebno ih je srediti i analizirati.

Podatci se sreduju na osnovu nacina i metode analiziranja. Metoda koju cemo upotrijebiti bit

ce ona u kojoj ce nam bitne biti samo prve znamenke podataka, tako da cemo kod sredivanja

podataka uzeti samo prvu znamenku, a ostatak cemo odbaciti. Nakon tumacenja i objasnjenja

pojave na kojoj se zasnivaju podaci, koristi se prakticna primjena rezultata analize.

Matematicka statistika se, kao i mnoge druge znanstvene discipline, neprestano razvija. Danas se

mnogi bave statistickim istrazivanjem. Osnove statistike pojavljuju se cak i u osnovnoj skoli, a

razlog tomu je da su odredeni statisticki sadrzaji potrebni i za opcu naobrazbu.

U ovomu diplomskom radu obradit cemo statisticki princip pod nazivom Benfordov zakon. U

5

3 MOTIVACIJA

svojemu osnovnom obliku, on govori da ce, ako imamo neki skup podataka (primjerice financijske

podatke, populaciju stanovnika, matematicke i fizicke konstante te brojeve iz novina), najcesca

prva znamenka ce biti znamenka 1. Detaljnija i preciznija definicija Benfordovog zakona je dana u

poglavlju 7.

Benfordov zakon se koristi u sljedece svrhe:

• U Pravosudu.

U SAD se dokazi na osnovu Benfordovog zakona priznaju u kaznenima predmetima na svim

pravnim razinama. Pravne sluzbe imaju pravo traziti sudski nalog za detaljni pregled finan-

cijskih podataka ukoliko osnovni pregled podataka ne postuju Benfordov zakon.

• Otkrivanje prijevara na izborima.

Koristeci Benfordov zakon dobiven je dokaz da se manipuliralo u Iranskim izborima 2009.

godine.

• Otkrivanje modifikacije JPEG slika.

Modeli digitalnih slika igraju vaznu ulogu u procesiranju digitalnih slika. Razliciti statisticki

modeli predlozeni su za kodiranje slika, oporavak slika i analizu slika. Benfordov zakon se

upotrebljava za analizu slika. Koristenjem Benfordovog zakona u koeficijentima matrice slike,

moguce je odrediti je li slika bila mijenjana. Istrazuju se mogucnosti Benfordovog zakona za

rekonstrukciju i kodiranje slika.

Dosta objekata u prirodi je “uniformno po logaritamskoj skali” pa postuju Benfordov zakon.

Tako je i sa slikama. E. Acebo i M. Sbert su napravili eksperiment u kojemu su provjeravali

postuju li matrice JPEG slika Benfordov zakon. Slike koje su upotrebljavali dobili su koristeci

digitalni fotoaparat pod dnevnim osvjetljenjem i bez upotrebe umjetnoga svjetla. Ukoliko

bi se dobivene slike nekako promijenile (npr. Photoshop c©) i ponovno spremile, doslo bi do

promjene u matrici JPEG slike i ona vise ne bi postivala Benfordov zakon. Zbog lakoce

manipulacije slike nekada je potrebno otkriti je li to sto imamo izvorna slika ili je na neki

nacin promijenjena. Benfordov zakon je jedan od nacina provjere manipulacije slike.

• Otkrivanje prijevara u financijskim podacima.

Hal Varian je 1972. godine predlozio da se Benfordov zakon moze koristiti za detektira-

nje prijevara u socijalnim i ekonomskim podatcima. Pod (vjerodostojnom) pretpostavkom

da ce ljudi koji izmisljaju podatke imati jednoliku distribuciju prvih znamenki, koristeci

jednostavnu usporedbu frekvencija prve znamenke podataka i ocekivane distribucije prema

Benfordovom zakonu, dovest ce do velike razlike, tj. primijetit ce se anomalija u podatcima

jer oni nece postivati Benfordov zakon. Koristeci Halovu ideju, Mark Nigrini je pokazao da

se Benfordov zakon moze koristiti u forenzickom racunovodstvu i revizijama, kao pokazatelj

6

4 LOGARITAMSKA FUNKCIJA

racunovodstvenih prijevara i prijevara u rashodima. Nigrini je u Nelsonovim financijskim po-

dacima primijetio jako veliko odstupanje od Benfordovog zakona sto mozemo vidjeti na slici

4. Danas se Benfordov zakon koristi za detektiranje prijevara, ali se koristi vise znamenki.

Slika 4: Nigrini je koristeci Benfordov zakon uocio Nelsonovu prevaru

• Analiza objavljenih znanstvenih radova.

U mnogo znanstvenih radova se koristi linearna regresija. Andreas Diekmann je pokazao

da regresijski koeficijenti u objavljenim radovima postuju Benfordov zakon. Napravio je

i nekoliko eksperimenata u kojima se moze vidjeti da izmisljeni regresijski koeficijenti ne

postuju Benfordov zakon.

U nastavku cemo objasniti osnove potrebne za Benfordov zakon, a onda cemo razraditi osnovnu

teoriju vezanu uz Benfordov zakon.

4 Logaritamska funkcija

Eksponencijalna funkcija f(x) = ax, a > 0 i a 6= 1, je bijekcija sa skupa R na skup svih pozi-

tivnih realnih brojeva R+. Ona ima inverznu funkciju koju nazivamo logaritamskom funkcijom i

oznacavamo sa loga x. Domena logaritamske funkcije loga x je interval < 0,∞ >, a njena slika je

R . Ona je strogo rastuca za a > 1 i strogo padajuca za 0 < a < 1.

U doba renesanse, posebice zbog sve cescih i daljih putovanja brodovima, cesto je bilo potrebno

mnoziti “ruzne” decimalne brojeve koji su se pojavljivali kao sinusi i kosinusi kuteva pri odredivanju

pozicije broda. Kako u to doba nisu postojali kalkulatori, puno jednostavnije je bilo zbrojiti ili

oduzeti nego pomnoziti ili podijeliti dva decimalna broja. Tako se pocela kristalizirati ideja da

se mnozenje brojeva svede na zbrajanje nekih drugih brojeva, koje bismo iz pocetnih mogli naci

7

5 SLUCAJNA VARIJABLA

u prikladnim tablicama. Logaritmi snizuju stupanj algebarske operacije, tj. logaritmiranjem se

mnozenje svodi na zbrajanje, dijeljenje na oduzimanje, a potenciranje i korjenovanje na mnozenje.

Logaritme su otkrili oko 1590. godine skotski lord J. Napier4 i J. Burgi5, neovisno jedan od drugog.

Njihov pristup logaritmima se ne zasniva na vezi s eksponencijalnom funkcijom. Za Napierove

tablice iz 1614. godine, koje su sadrzavale logaritme sinusa, zainteresirao se londonski profesor

H. Briggs. Zajednickim radom razvijaju ideju dekadskih logaritama za koje 1617. godine izdaju

tablice koje su u matematici bile nezaobilazne sve do pojave kalkulatora. Koristeci ove tablice

Simon Newcomb je dosao do statistickog principa kojeg obradujemo u ovom diplomskom radu.

Za logaritamsku funkciju vrijedi

• loga xy = loga x+ loga y,

• logaxy = loga x− loga y,

• loga xy = y loga x,

• loga x = logb xlogb a

,

• loga x je strogo rastuca funkcija za a > 1,

• loga x je strogo padajuca funkcija za a < 1.

Logaritme s obzirom na bazu a = 10 nazivamo dekadskim ili Briggsovim logaritmima i umjesto

log10 x pisemo samo log x. Ako je a = e, logaritme u toj bazi nazivamo prirodnim ili Napierovim

logaritmima i umjesto loge x pisemo lnx.

5 Slucajna varijabla

U ovom dijelu cemo obraditi osnovne statisticke pojmove koji ce nam biti bitni za poglavlje 7 u

kojem obradujemo Benfordov zakon i koristimo slucajne varijable da bi definirali znacajne zna-

menke. Slucajni pokusi su pokusi u kojima ishodi pokusa nisu jednoznacno odredeni i ne mogu se

unaprijed predvidjeti na temelju uvjeta pokusa. Ako se takvi pokusi ponavljaju dovoljno mnogo

puta, mozemo naslutiti zakonitosti. Proucavanje tih zakonitosti je predmet teorije vjerojatnosti.

Deterministicki pokus je za razliku od slucajnog pokusa jednoznacno odreden uvjetima pokusa.

Glavna svojstva slucajnog pokusa su:

• slucajni pokus se moze ponavljati proizvoljan broj puta,

• poznato je sto se registrira (mjeri),

4John Napier (1550 - 4.4.1617) je bio matematicar, fizicar, astronom i astrolog.5J. Burgi (28.2.1552 - 31.1.1632) je bio izradivac satova i uredaja za astronomiju. Takoder je bio i matematicar.

8


• poznati su svi moguci ishodi,

• ishod pojedinacnog izvodenja pokusa nije poznat.

Definicija 1. Skup kojega tvore svi moguci ishodi nekog slucajnog pokusa nazivamo prostorom

elementarnih dogadaja toga pokusa i oznacujemo ga s Ω . Dogadaj je neki odredeni podskup prostora

elementarnih dogadaja. Jednoclani dogadaj ω nazivamo elementarnim dogadajem. Podskup ∅nazivamo nemogucim dogadajem, a Ω nazivamo sigurnim dogadajem.

Definicija 2. Pokus je ponovljen n puta. Ako se pri tome dogadaj A dogodio nA puta, broj nA

zovemo frekvencija dogadaja A. Broj fA(n) = nAn zovemo relativna frekvencija dogadaja A.

Definicije kojima cemo opisati vjerojatnosni prostor nam daju uvjete kojima vjerojatnost pro-

matranih dogadaja mora udovoljiti i pomocu kojih mozemo promatrati vjerojatnosti slozenijih

dogadaja. Prvo moramo definirati sto ce biti vjerojatnost pojedinih elementarnih dogadaja. Za

definiciju vjerojatnosti ce nam biti potrebna definicija σ-algebre.

Definicija 3. Neka je dan neprazan skup Ω. Familija F podskupova skupa Ω je σ-algebra skupova

na Ω ako vrijedi:

• φ ∈ F ,

• ako je A ∈ F onda je i AC ∈ F ,

• ako je dana prebrojiva familija skupova (An, n ∈ N) ⊆ F , onda F sadrzi i njihovu uniju, tj.

∞⋃n=1

An ∈ F .

Nakon definiranja potrebnih pojmova mozemo analiticki definirati vjerojatnost.

Definicija 4. Neka je Ω neprazan skup elementarnih dogadaja i F σ-algebra dogadaj na njemu.

Funkciju

P : F → [0, 1]

koja zadovoljava sljedece zahtjeve:

• nenegativnost

P (A) ≥ 0,∀A ∈ F ,

• normiranost

P (Ω) = 1,

9


• σ-aditivnost

ako je dana prebrojiva familija medusobno disjunktnih skupova (Ai, i ∈ I) ⊆ F ,I ⊆ N, tj.

ako je Ai ∩Aj = φ za i 6= j, tada vrijedi

P

(⋃i∈I

Ai

)=∑i∈I

P (Ai),

zovemo vjerojatnost na Ω.

Definicija 5. Neka je Ω neprazan skup, F σ-algebra dogadaja na njemu, a P vjerojatnost na Ω.

Uredenu trojku (Ω,F , P ) zovemo vjerojatnosti prostor.

Primjer 1. .

Ako su svi ishodi u konacnom skupu elementarnih dogadaj jednako moguci, onda je vjerojatnost da

se dogodi dogadaj A ⊆ Ω jednaka

P (A) =k(A)

k(Ω),

gdje je k(·) oznaka za broj elemenata skupa.

Proucavanje cijelog skupa elementarnih dogadaja nekog slucajnog pokusa i potrebnih vjerojatnosti

moze biti vrlo slozen zadatak. Skupovi elementarnih dogadaja mogu biti brojevi, uredene n-

torke, nizovi brojeva, slova, itd. Nama ce cesto biti interes proucavati jednu ili vise karakteristika

slucajnog pokusa. Da bismo mogli analizirati i modelirati pojedine karakteristike, biti ce nam

potreban pojam slucajne varijable. Proucavati cemo samo dvije vrste slucajnih varijabli:

• diskretne,

• neprekidne.

5.0.1 Diskretna slucajna varijabla

Definicija 6. Neka je dan diskretni vjerojatnosni prostor (Ω,F , P ). Svaka funkcija X : Ω→ R je

diskretna slucajna varijabla.

Distribuciju diskretne slucajne varijable X zadajemo tablicom

X =

(x1 x2 x3 · · · xn · · ·p1 p2 p3 · · · pn · · ·

).

Za niz (pi, i ∈ N) vrijede sljedeca svojstva:

• 0 ≤ pi < 1 za i ∈ N,

•∑∞i=1 pi = 1.

10


U praksi se cesto pojavljuju sljedece diskretne distribucije:

• binomna distribucija,

• Poissonova distribucija,

• geometrijska distribucija,

• uniformna distribucija, itd.

U ovome dijelu cemo definirati one distribucije koje cemo koristiti kasnije u radu. To su binomna

distribucija i uniformna distribucija.

Pretpostavimo da u nekom pokusu vjerojatnost nekog dogadaja A iznosi p, a vjerojatnost da

ne nastupi taj dogadaj, tj. vjerojatnost za Ac je 1 − p. Jos jedna bitna pretpostavka je da se

vjerojatnost tog dogadaja A ne mijenja pri ponavljanju pokusa. Taj pokus i dogadaj nazivamo

Bernoullijevim. Nekoliko primjera Bernoullijevog pokusa su bacanje novcica (palo je pismo, nije

palo pismo) i bacanje kockice (pala je sestica, nije pala sestica).

Definicija 7. Ako Bernoullijev pokus ponavljamo n puta, a slucajna varijabla X broji realizacije

dogadaja A u n izvodenja toga pokusa, onda slucajnu varijablu X nazivamo binomnom slucajnom

varijablom i kazemo da ima binomnu B(n, p) distribuciju.

Distribucija binomne slucajne varijable B(n, p) je zadana sa

P (X = k) =

(n

k

)pk(1− p)n−k, k = 0, ..., n.

Primjer 2. .

U igri jamb se najvise bodova dobije, ako u 6 bacanja kockice 5 puta padne broj 6. Vjerojatnost da

se to dogodi za pravilno izradenu kockicu je

P (X = 5) =

(6

5

)(1

6

)5(1− 1

6

)6−5

= 6 · 1

65· 5

6=

5

65≈ 0.00064.

Definicija 8. Diskretnu slucajnu varijablu X koja poprima konacno mnogo vrijednosti x1, x2, ..., xn

i za koju je

P (X = x1) = . . . = P (X = xn) =1

n

nazivamo uniformno (jednoliko) distribuiranom varijablom.

Primjer 3. .

Primjer diskretne uniformne slucajne varijable je bacanje pravilo izradene kockice i pracenje re-

zultata kojeg dobijemo kada bacimo tu kockicu. Sve moguce vrijednosti su 1,2,3,4,5 i 6. Svaka

vrijednost na kockici ima vjerojatnost pojavljivanja 16 , tj. p(x1) = p(x2) = ... = p(x6) = 1

6 .

11


5.0.2 Neprekidna slucajna varijabla

Definicija 9. Neka je dan vjerojatnosni prostor (Ω,F , P ) i funkcija f : Ω→ R za koju vrijedi:

• ω ∈ Ω : X(ω) ≤ x ∈ F , ∀x ∈ R,

• postoji nenegativna realna funkcija realne varijable f(t) takva da vrijedi

Pω ∈ Ω : X(ω) ≤ x =

∫ x

−∞f(t)dt.

Funkciju X zovemo neprekidna slucajna varijabla, a funkcija f je funkcija gustoce slucajne varija-

ble X.

Za funkciju gustoce neprekidne slucajne varijable X vrijede sljedeca svojstva:

• nenegativnost

f(x) ≥ 0 ∀x ∈ R,

• normiranost

∫ ∞−∞

f(x)dx = 1,

•Pa < X ≤ b = PX ∈ (a, b] =

∫ b

a

f(x)dx.

U praksi se cesto pojavljuju sljedece neprekidne distribucije:

• normalna distribucija,

• eksponencijalna distribucija,

• uniformna distribucija, itd.

Definicija 10. Slucajna varijabla X ima normalnu distribuciju X ∼ N(µ, σ) s parametrima µ ∈ R

i σ > 0, ako je njezina funkcija gustoce definirana s

f(x) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

Normalna distribucija je jako vazna u statistici i to zbog centralnog granicnog teorema. Funkcija

gustoce normalne distribucije je prikazana na slici 5.

Definicija 11. Slucajna varijabla X ima uniformnu distribuciju X ∼ U(a, b) s parametrima a, b ∈R, a < b, ako je njezina funkcija gustoce definirana s

f(x) = 1

b−a , x ∈ [a, b]

0, x /∈ [a, b].

12


Slika 5: Funkcija gustoce normalne slucajne varijable N(2, 0.5)

5.0.3 Funkcija distribucije

Definicija 12. Neka je dan vjerojatnosni prostor (Ω,F , P ) i neka je X slucajna varijabla. Funkciju

F : R→ [0, 1] koja realnom broju x pridruzuje vjerojatnost da dana slucajna varijabla bude manja

ili jednaka od tog broja:

F (x) = Pω ∈ Ω : X(ω) ≤ x = PX ≤ x,

zovemo funkcija distribucije slucajne varijable X.

Za funkciju distribucije F vrijede sljedeca svojstva:

• F je monotono rastuca funkcija, tj.

x1 < x2 ⇒ F (x1) ≤ F (x2),

•lim

x→−∞F (x) = F (−∞) = 0,

•limx→∞

F (x) = F (∞) = 1,

• funkcija distribucije je neprekidna s desna, tj.

limx→x−

0

F (x) = F (x0).

13


Slika 6: Funkcija gustoce uniformne slucajne varijable U(0, 1)

5.0.4 Transformacije slucajne varijable

U statistici se cesto pojavljuju funkcije gustoce jedne ili vise slucajnih varijabli. Pretpostavimo

da imamo slucajnu varijablu X s funkcijom gustoce fX . Primijenimo li funkciju g na slucajnu

varijablu, i ukoliko je dana kompozicija definirana, X dobit cemo novu slucajnu varijablu Y koja

je oblika Y = g(X). Nekoliko primjera funkcije g koji se koriste su:

• g(x) = log x,

• g(x) = ax+ b,

• g(x) = xn,

• g(x1, x2) = x1 + x2,

• g(x1, x2) = x1 · x2, itd.

Nas ce posebno zanimati funkcija g u sljedecem obliku g(x) = 10x, tj. zanimati ce nas transfor-

macija slucajne varijable Y = 10X .

Ukoliko slucajnu varijablu mnozimo konstantom razlicitom od 0 i ako joj dodamo konstantu kazemo

da smo slucajnu varijablu afino transformirali (vidi [8]). Jedan od cestih primjena u statistici je

postupak standardizacije. Kod postupka standardizacije nova slucajna varijabla ima ocekivanje 0

i varijancu 1.

Propozicija 1. Neka je X slucajna varijabla s ocekivanjem µ ∈ R i varijancom σ2 > 0. Tada

slucajna varijabla

Y =X − µσ

14


ima ocekivanje 0 i varijancu 1.

Postupkom standardizacije smo transformirali slucajnu varijablu afinom funkcijom. Dobili smo

novu slucajnu varijablu Y koja ja oblika Y = g(X). U nastavku cemo odrediti funkciju distribucije

nove slucajne varijable Y . Uzeti cemo da je funkcija g bijektivna. Neka je X neprekidna slucajna

varijabla s funkcijom gustoce fX , a g : R → R bijektivna funkcija. Funkciju distribucije FY

slucajne varijable Y = g(X) je oblika:

FY (y) = PY ≤ y = Pg(X) ≤ y = Pg(X) ∈ (−∞, y] =

= PX ∈ g−1((−∞, y]) = PX ∈ Ay.

Ay = g−1((−∞, y]) = x ∈ R : g(x) ∈ (−∞, y] je original intervala (−∞, y] obzirom na funkciju

g.

Svaka bijektivna funkcija je monotona, tj. moze biti monotono rastuca ili monotono padajuca, pa

promotrimo ta dva slucaja:

• g : R→ R je monotono rastuca funkcija.

Za fiksni y original intervalaA = (−∞, y] jednak intervaluAy = g−1((−∞, y]) = (−∞, g−1(y)].

U nastavku cemo izraziti funkciju distribucije slucajne varijable Y pomocu funkcije distribu-

cije slucajne varijable X.

FY (y) = PY ≤ y = PX ∈ Ay = PX ∈ (−∞, g−1(y)] =

= PX ≤ g−1(y) = FX(g−1(y)).

Da dobijemo funkciju gustoce derivirati cemo funkciju distribucije:

fY (y) =d

dyFY (y) =

d

dyFX(g−1(y)) = fX(g−1(y)) · [g−1(y)]′.

• g : R→ R je monotono padajuca funkcija.

Za fiksni y original intervala A = (−∞, y] jednak intervalu Ay = g−1((−∞, y]) = (g−1(y),∞].

Uvrstimo li dobiveni interval u funkciju distribucije dobiti cemo sljedece

FY (y) = PY ≤ y = PX ∈ Ay = PX ∈ (g−1(y),∞] =

= PX ≥ g−1(y) = 1− PX < g−1(y) =

= 1− PX ≤ g−1(y) = 1− FX(g−1(y)).

Poslije deriviranja funkcije distribucije dobivamo funkciju gustoce oblika

fY (y) =d

dyFY (y) =

d

dyFX(g−1(y)) = −fX(g−1(y)) · [g−1(y)]′.

Zajednicki zapis funkcije gustoce za monotonu funkciju g : R→ R je

fY (y) = fX(g−1(y))

∣∣∣∣dg−1dy

∣∣∣∣ = fX(g−1(y)) ·∣∣∣(g−1(y)

)′∣∣∣ .15

7 BENFORDOV ZAKON

6 Znacajne znamenke

Definicija 13. Za svaki realan broj x razlicit od 0, prva znacajna znamenka broja x i s oznakom

d1(x) je jedinstveni prirodni broj j ∈ 1, 2, ..., 9 koji zadovoljava 10kj ≤ |x| < 10k(j + 1) za

jedinstven k ∈ Z. Za svaki m ≥ 2,m ∈ N m-ta znacajna decimalna znamenka od x, u oznaci

dm(x), je definirana induktivno kao jedinstveni cijeli broj j ∈ 0, 1, ..., 9 takav da vrijedi

10k

(m−1∑i=1

di(x)10m−i + j

)≤ |x| < 10k

(m−1∑i=1

di(x)10m−i + j + 1

)

za jedinstveni k ∈ Z. Radi jednostavnosti cemo uzeti da je dm(0) = 0 ∀m ∈ N.

Iz definicije 13 se moze primijetiti da prva znacajna znamenka d1(x) broja x 6= 0 nije nikada

jednaka 0. Dok druga, treca, ... znacajna znamenka moze biti bilo koji broj iz skupa 0, 1, ..., 9.

Primjer 4. .

d1(√

2) = d1(1000√

2) = d1(0.01√

2) = d1(−10√

2) = 1,

d2(√

2) = d2(1000√

2) = d2(0.01√

2) = d2(−10√

2) = 4,

d1(e) = d1(10e) = 2, d2(e) = 7, d3(e) = 1.

7 Benfordov zakon

Benfordov zakon kaze da u velikom skupu brojeva (matematicke tablice, podaci iz stvarnog zivota)

vodece znacajne znamenke nece biti uniformno (jednoliko) rasporedene, kako vecina ljudi ocekuje,

nego ce biti vise manjih znamenki. U osnovnom obliku i gledajuci u bazi 10 (dekadski sustav)

Benfordov zakon glasi

P (D1 = d1) = log(1 + d−11 ), d1 ∈ 1, 2, ..., 9. (1)

D1 je slucajna varijabla D1 : R → 1, 2, ..., 9 i oznacava prvu znacajnu znamenku slucajno oda-

branog realnog broja. Pravilo prema kojemu se odreduje prva znacajna znamenka D1 je prikazano

u poglavlju 6.

Primjer 5. .

Za ω =√

2 imamo D1(√

2) = D1(1.4142...) = 1, za ω = π100 , D1( π

100 ) = D1(0.03141...) = 3, a

ukoliko je ω = 10e, D1(10e) = D1(27.18281) = 2.

16

7 BENFORDOV ZAKON

Racunajuci (1) dobivamo sljedece rezultate

P (D1 = 1) = log(1 + 1) = log 2 ≈ 0.301

P (D1 = 2) = log(1 +1

2) = log

3

2≈ 0.1761

P (D1 = 3) = log(1 +1

3) = log

4

3≈ 0.1249

P (D1 = 4) = log(1 +1

4) = log

5

4≈ 0.0969

P (D1 = 5) = log(1 +1

5) = log

6

5≈ 0.0792

P (D1 = 6) = log(1 +1

6) = log

7

6≈ 0.0669

P (D1 = 7) = log(1 +1

7) = log

8

7≈ 0.058

P (D1 = 8) = log(1 +1

8) = log

9

8≈ 0.051

P (D1 = 9) = log(1 +1

9) = log

10

9≈ 0.0458.

Iz prilozenog mozemo vidjeti da se prva znacajna znamenka realizira iz skupa 1, 2 s vjerojatnoscu

od priblizno 0.5, dok se prva znacajna znamenka realizira iz skupa 8, 9 s vjerojatnoscu od pri-

blizno 0.1.

Ocekivanje od D1 iznosi

E(D1) =1 log 2 + 2 log 3

2 + 3 log 43 + 4 log 5

4 + 5 log 65 + 6 log 7

6 + 7 log 87 + 8 log 9

8 + 9 log 109

log 2 + log 32 + log 4

3 + log 54 + log 6

5 + log 76 + log 8

7 + log 98 + log 10

9

≈ 3.44 .

Ocekivanje od D1 je blize broju 1 nego 9 radi vecih vjerojatnosti manjih znamenki. Zajednicka

distribucija svih decimalnih znamenki u bazi 10 je dana sljedecom potpunijom definicijom Benfor-

dovog zakona.

Definicija 14. Za svaki pozitivni prirodni broj m

P ((D1, D2, ..., Dm) = (d1, d2, ...dm)) = log

1 +

m∑j=1

10m−jdj

−1

gdje je d1 prirodni broj iz skupa 1, 2, ..., 9, a za j ≥ 2, dj je prirodni broj iz skupa 0, 1, ..., 9.Dk, k ∈ N, je slucajna varijabla koja se realizira k-tom znacajnom znamenkom slucajno odabranog

realnog broja.

Primjer 6. .

e = 2.718281828..., D2(e) = 7, D4(e) = 8 ,

π10 = 0.3141782... = 3.141782 · 10−1, D1(π) = 3, D3(π) = 4,

π100 = 0.03141782... = 3.141782 · 10−2, D1(π) = 3, D3(π) = 4.

17

7 BENFORDOV ZAKON

Primjer 7. .

Izracunajmo vjerojatnost da niz znacajnih znamenki slucajno odabranog realnog broja bude 365, tj.

da prva znacajna znamenka bude 3, druga 6, treca 5.

Iz definicije 14 vidimo da je

P ((D1, D2, D3) = (3, 6, 5)) = log

1 +

3∑j=1

103−jdj

−1 =

= log(

1 +(102d1 + 101d2 + 100d1

)−1)=

= log(

1 +(1023 + 1016 + 1005

)−1)=

= log366

365=

≈ 0.001188.

Iz potpunije definicije Benfordovog zakona slijedi da su znacajne znamenke zavisne, a ne nezavisne

kako bi pretpostavili. Iz definicije 14 slijedi da je vjerojatnost6 da je druga znamenka 1

P (D2 = 1) =

9∑j=1

log

(1 +

1

10j + 1

)= log

6029312

4638501≈ 0.1138.

Ukoliko je prva znacajna znamenka 1, onda je uvjetna vjerojatnost da je druga znamenka 1

P (D2 = 1|D1 = 1) =log 12− log 11

log 2≈ 0.1255.

Ova zavisnost izmedu znacajnih znamenki opada eksponencijalno ukoliko se razlika izmedu deci-

malnih mjesta povecava (vidi [14]). Iz definicije 14 slijedi

P (Dm = 1|D1 = 1) = P (Dm = 1) +O(10−m), m→∞.

Ako su (an), (bn) nizovi realnih brojeva onda an = O(bn) za n → ∞ oznacava da je |an| ≤ c|bn|za svaki n ≥ n0, sa konstantom c > 0.

Jos jedna posljedica definicije 14 je da distribucija m − te znacajne znamenke eksponencijalno

konvergira uniformnoj distribuciji sa slikom 0, 1, ..., 9.

P (Dm = 1) =1

10+

63

20 ln 1010−m +O(10−2m), m→∞.

Prethodni rezultati su dani u dekadskoj bazi. Ukoliko zelimo gledati u nekoj drugoj bazi b ≥ 2,

onda definicija 14 ima oblik

P((D

(b)1 , D

(b)2 , ..., D(b)

m

)= (d1, d2, ..., dm)

)= logb

1 +

m∑j=1

bm−jdj

−1 (2)

6bez uvjeta na druge znacajne znamenke

18

7.1 Mantisa 7 BENFORDOV ZAKON

gdje logb oznacava logaritam po bazi b,a D(b)1 oznacava prvu znacajnu znamenku baze b. Analogno

za D(b)2 , ..., D

(b)M . d1 je cijeli broj iz skupa 1, 2, ..., b− 1, a za svaki j ≥ 2, dj je cijeli broj iz skupa

0, 1, 2, ..., b− 1.

Primjer 8. .

Pogledajmo da li Benfordov zakon vrijedi u binarnoj bazi, b = 2. U slucaju binarne baze m = 1

ukoliko gledamo prvu znacajnu znamenku. Iz (2) slijedi da je P (D(2)1 = 1) = 1. Ta tvrdnja je tocna

jer vjerojatnost da je prva znacajna znamenka7 u bazi 2 svakog broja razlicitog od 0 je 1.

U nastavku rada cemo vise obratiti paznju na znacajne decimale dekadskog brojevnog sustava.

Kao sto smo naveli ranije u radu, log x ce oznacavati logaritam s bazom 10, dok ce lnx oznacavati

prirodni logaritam.

7.1 Mantisa

Mantisa je realan broj koji je zapisan u aritmetici sa pomicnim zarezom8.

Definicija 15. Sa S : R → [1, 10) oznaciti cemo dekadsku funkciju mantise. Ako je x 6= 0 onda

je S(x) = t, gdje je t jedinstven broj iz intervala [1, 10) takav da je |x| = 10kt za jedinstven k ∈ Z.

U slucaju da je x = 0 radi jednostavnosti cemo uzeti da je S(0) = 0. Dekadsku funkciju mantise

mozemo definirati i kao

S(x) =x

10n−1, x ∈ [10n−1, 10n), n ∈ N.

Za sve x ∈ R mozemo primijetiti da S(x) ima nekoliko znacajnih svojstava

• S(10kx) = S(x), ∀k ∈ Z,

• S (S (x)) = S(x),

• S(x) = 10log |x|−blog |x|c, ∀x 6= 0

Primjer 9. .

• Neka je x = 3.141.

7je razlicita od 08engl. floating point

19


S(x) = 10log |x|−blog |x|c =

= 10log |3.141|−blog |3.141|c =

= 10log 3.141−blog 3.141c =

=10log3.141

10blog 3.141c =

=3.141

100=

=3.141

1=

= 3.141.

⇒ S(3.141) = 3.141 ∈ [1, 10).

• Neka je x = 3141.

S(x) = 10log |x|−blog |x|c =

= 10log |3141|−blog |3141|c =

= 10log 3141−blog 3141c =

=10log3141

10blog 3141c =

=3141

103=

=3141

1000=

= 3.141.

⇒ S(3141) = 3.141 ∈ [1, 10).

Mozemo primijetiti da je S(3.141) = S(3141) = 3.141.

Mantisa jedinstveno odreduje znacajne znamenke. Odnos mantise i znacajnih znamenki je odreden

sljedecom propozicijom.

Propozicija 2. Za svaki realan broj x vrijedi:

1. S(x) =∑m∈N 101−mDm(x),

2. Dm(x) = b10m−1S(x)c − 10b10m−2S(x)c, ∀m ∈ N.

Prvi dio propozicije 2 karakterizira mantisu broja x kao eksplicitnu funkciju znacajnih znamenki x,

a drugi dio propozicije karakterizira znacajne znamenke broja x kao eksplicitnu funkciju mantise

broja x.

20


Slika 7: Funkcije S(x) i logS(x)

Primjer 10. .

Neka je x = 3141. Slijedi da je D1(x) = 3, D2(x) = 1, D3(x) = 4, D4(x) = 1. Iz prvog dijela

propozicije 2 slijedi da je

S(3141) =∑m∈N

101−mDm(3141)

= 100D1(3141) + 10−1D2(3141) + 10−2D3(3141) + 10−3D4(3141)

= 1003 + 10−11 + 10−24 + 10−31

= 3 + 0.1 · 1 + 0.01 · 4 + 0.001 · 1

= 3.141

Dobili smo da je S(3141) = 3.141 kao i u primjeru 9.

Primjer 11. .

Neka je x =√

2. Iz drugog dijela propozicije 2 slijedi da je

D1(√

2) = b√

2c = 1,

D2(√

2) = b10√

2c − 10b√

2c = 14− 10 · 1 = 4,

D3(√

2) = b100√

2c − 10b10√

2c = 141− 10 · 14 = 1,

D4(√

2) = b1000√

2c − 10b100√

2c = 1414− 10 · 141 = 4,

D5(√

2) = b10000√

2c − 10b1000√

2c = 14142− 10 · 1414 = 2,

analogno za ostale znamenke.

21

7.2 σ-algebra mantise 7 BENFORDOV ZAKON

Kako znacajne znamenke odreduju mantisu, jos jedna posljedica definicije 14 jest da je

P (S ≤ t) = log t, ∀t ∈ [1, 10). (3)

7.2 σ-algebra mantise

Osnovni pojam vjerojatnosne teorije koji smo obradili u poglavlju 5 je vjerojatnosni prostor

(Ω,F , P ). Ω je neprazni skup, F je σ-algebra na Ω, a P je vjerojatnosna mjera na (Ω,F). Prisje-

timo se da je σ-algebra F na Ω familija podskupova od Ω takva da je ∅ ∈ F , F je zatvorena na

komplemente i prebrojive unije.

Ukoliko uzmemo familiju E podskupova od Ω, onda postoji jedinstvena (najmanja) σ-algebra na

Ω koja sadrzi E . Takvu σ-algebru nazivamo σ-algebra generirana s E i oznacavamo ju s σ(E).

Najvaznije primjer je Borelova σ-algebra B na R. Po definiciji, B je σ-algebra generirana svim

otvorenim intervalima. Ukoliko je C ⊂ R, onda je B(C) σ-algebra C∩B := C∩B : B ∈ B na C.

Radi jednostavnosti cemo pisati B[a, b) umjesto B ([a, b)) i B+ umjesto B(R+), gdje R+ oznacava

R+ = t ∈ R : t > 0.Ukoliko imamo neku funkciju f : Ω→ R, za svaki C ⊂ R, skup f−1(C) ⊂ Ω se zove praslika od f

za C, tj.

f−1(C) = ω ∈ Ω : f(ω) ∈ C.

σ-algebra na Ω generirana kao

E = f−1(I) : I ⊂ R, I interval

je σ-algebra generirana s f i oznacavamo ju sa σ(f).

Primjer 12. (σ-algebra generirana funkcijom f)

Generirajmo σ-algebru za funkciju

f(x) =

1, x ∈ (a, b)0, x ∈ R \ (a, b).

σ(f) =∅,R, f−1 (0) , f−1 (1)

= ∅,R,R \ (a, b), (a, b).

Definicija 16. σ-algebra mantise S je σ-algebra na R+ generirana funkcijom matise S, tj. S =

R+ ∩ σ(S).

Vaznost σ-algebre S dolazi od toga da za svaki dogadaj A ∈ S i svaki x > 0 je dovoljno poznavati

samo S(x) da bi odredili da li je x ∈ A ili x /∈ A.

Teorem 1. Za svaki A ∈ S,

A =⋃k∈Z

10kS(A), (4)

22


gdje je S(A) = S(x) : x ∈ A ⊂ [1, 10). Stovise

S = R+ ∩ σ(D1, D2, ...) =

⋃k∈Z

10kB : B ∈ B[1, 10)

. (5)

Dokaz

Po definiciji,

S = R+ ∩ σ(S) = R+ ∩ S−1(B) : B ∈ B = R+ ∩ S−1(B) : B ∈ B[1, 10).

Uz dani A ∈ S, postoji skup B ∈ B[1, 10) s svojstvom A = R+ ∩ S−1(B) = ∪k∈Z10kB. Buduci da

je S(A) = B slijedi da (4) vrijedi ∀A ∈ S.

Da bi dokazali (5) trebati cemo primijetiti da prema prvom dijelu propozicije 2 slijedi da je funk-

cija mantise S potpuno odredena znacajnim znamenkama D1, D2, D3, ... pa slijedi da je σ(S) ⊂σ(D1, D2, D3, ...) . Koristeci definiciju 16 slijedi da je S ⊂ R+ ∩ σ(D1, D2, D3, ...). Suprotno,

prema drugom dijelu propozicije 2, svaka Dm je odredena pomocu S, tj. σ(Dm) ⊂ σ(S) ∀m ∈ N.

Prema tome je σ(D1, D2, D3, ...) ⊂ σ(S).

Da dokazemo preostalu jednakost u (5) treba primijetiti da za svaki A ∈ S, S(A) ∈ B[1, 10). Stoga

je A =⋃k∈Z 10kB, gdje je B = S(A) prema (4). Obrnuto, svaki skup u obliku ∪k∈Z10kB =

R+ ∩ S−1(B) gdje je B ∈ B[1, 10) ocito pripada S.

Mozemo primijetiti da za svaki A ∈ S postoji jedinstveni B ∈ B[1, 10) takav da je A = ∪k∈Z10kB,

a (4) pokazuje da je B = S(A).

U nastavku cemo koristiti aritmetiku nad intervalima (vidi [17]).

Lema 1. σ-algebra matise S ima sljedeca svojstva:

1. S je samoslican s obzirom na mnozenje s potencijama broja 10, tj.

10kA = A za svaki A ∈ S, k ∈ Z.

2. S je zatvoren s obzirom na mnozenje skalarom, tj.

αA ∈ S za svaki A ∈ S, α > 0.

3. S je zatvoren s obzirom na cjelobrojne korijene, tj.

A1/n ∈ S za svaki A ∈ S, n ∈ N.

Laicki receno prvo svojstvo govori da znacajne znamenke ostaju iste ukoliko se decimalna tocka

pomakne, tj. ukoliko zadani broj pomnozimo sa cjelobrojnom potencijom broja 10. Drugo svoj-

stvo govori ako je svaki element skupa moguce izraziti pomocu znacajnih znamenki i ako taj skup

23


pomnozimo pozitivnom konstantom, opet cemo ga moci izraziti pomocu znacajnih znamenki. Ana-

logno je i ukoliko na skup djelujemo cjelobrojnim korijenom.

Dokaz

1. Dokaz ovoga je ocit iz (4) buduci da je S(10kA) = S(A) za svaki k.

2. Za dani A ∈ S, prema (5) postoji B ∈ B[1, 10) takav da je A =⋃k∈Z 10kB. Prema prvom

dijelu ove leme, bez smanjenja opcenitosti cemo pretpostaviti da je 1 < α < 10. Onda

αA =⋃k∈Z

10kαB =⋃k∈Z

10k(

(αB ∩ [α, 10)) ∪( α

10B ∩ [1, α)

))=⋃k∈Z

10kC,

gdje je C =((αB ∩ [α, 10)) ∪

(α10B ∩ [1, α)

))∈ B[1, 10). I prema tome je αA ∈ S.

3. Buduci da intervali oblika [1, t] generiraju B ∈ B[1, 10), tj. B ∈ B[1, 10) = σ([1, t] : 1 < t < 10),

tvrdnju je dovoljno dokazati za slucaj A =⋃k∈Z 10k[1, 10s] za svaki 0 < s < 1. U tom slucaju

A1/n =⋃k∈Z

10k/n[1, 10s/n] =⋃k∈Z

10kn−1⋃j=0

[10j/n, 10(j+s)/n] =⋃k∈Z

10kC,

gdje je C =⋃n−1j=0 [10j/n, 10(j+s)/n] ∈ B[1, 10). Prema tome je dokazana tvrdnja da je A1/n ∈

S.

Prema teoremu 1 σ-algebra mantise S je jednaka σ-algebri znacajnih znamenki σ(D1, D2, D3, ...).

U lemi 1 smo naveli svojstva σ-algebra matise S koja cemo provjeriti na jednom skupu u sljedecem

primjeru.

Primjer 13. .

Neka A1 bude skup svih pozitivnih realnih brojeva s prvom znacajnom znamenkom 1,tj.

A1 = x > 0 : D1(x) = 1 = x > 0 : 1 ≤ S(x) < 2 =⋃k∈Z

10k[1, 2).

Za α = 2 imamo

2A1 = x > 0 : D1(x) ∈ 2, 3 = x > 0 : 2 ≤ S(x) < 3 =⋃k∈Z

10k[2, 4) ∈ S.

Ukoliko primijenimo drugi korijen na A1 imamo

A1/21 = x > 0 : S(x) ∈ [1,

√2) ∪ [

√10,√

20) =⋃k∈Z

10k([1,√

2) ∪ [√

10, 2√

5)) ∈ S.

Mozemo primijetiti da ukoliko kvadriramo A1 imamo

A21 =

⋃k∈Z

102k[1, 4) /∈ S

buduci da [1, 4) ⊂ A21, ali [10, 40) 6⊂ A2

1, tj. S nije zatvoren na cjelobrojne potencije.

24

7.3 Benfordovo svojstvo 7 BENFORDOV ZAKON

7.3 Benfordovo svojstvo

Da bismo precizirali Benfordov zakon u (1),(14) i (3) trebat cemo obratiti paznju na objekte s

kojima cemo raditi. Ti objekti su

• nizovi realnih brojeva,

• funkcije realnih brojeva na [0,∞),

• vjerojatnosne distribucije i slucajne varijable.

Fokusirati cemo se na Benfordov zakon za slucajne varijable, a za nizove i funkcije realnih brojeva

cemo spomenuti nekoliko svojstava.

Definicija 17. Niz realnih brojeva (xn) je Benfordov niz, ako

limN→∞

k(1 ≤ n ≤ N : S(xn) ≤ t)N

= log t, ∀t ∈ [1, 10)

ili ekvivalentno za ∀m ∈ N, za sve d1 ∈ 1, 2, ..., 9 i za sve dj ∈ 0, 1, 2, ..., 9, j ≥ 2,

limN→∞

k(1 ≤ n ≤ N : Dj(xn) = dj za j = 1, 2, ...,m)N

= log

1 +

m∑j=1

10m−jdj

−1 .

Mozemo primijetiti da k(1 ≤ n ≤ N : S(xn) ≤ t) u definiciji 17 oznacava kardinalni broj skupa

1 ≤ n ≤ N : S(xn) ≤ t.

Primjer 14. .

Provjerili smo postuje li Fibonaccijev niz (Fn, n ∈ N) Benfordov zakon. (Fn, n ∈ N) se definira na

sljedeci nacin

Fn =Fn−1 + Fn−2 , n > 21 , n = 1 ili n = 2

.

Analizirali smo prvih 30, prvih 100 i prvih 300 Fibonaccijevih brojeva koje mozemo vidjeti u tablici

u nastavku i na sljedecim slikama.

Kao sto se moze primijetiti kod 30 prvih brojeva Fibonaccijev niz ima odstupanja od Benfordovog

zakona, ali ta odstupanja nisu velika (osim kod znamenke 8) za tako mali skup podataka s kojim smo

radili. Kod prvih 100 brojeva ta odstupanja su se znacajno smanjila, dok se kod prvih 300 brojeva

jako dobro poklapa sa Benfordovim zakonom sto smo provjerili u poglavlju 8 pomocu χ2-testa.

Primjer 15. .

Analogno analizi u prethodnom primjeru napravljena je analiza za prvih 100 brojeva iz niza (2n, n ∈N) koje mozemo u tablici u nastavku i na sljedecim slikama.

Koristili smo samo prvih 100 brojeva jer niz (2n, n ∈ N) jako brzo raste i zbog zapisa u racunalu smo

imali ogranicenje koliko maksimalno brojeva mozemo uzeti. Kao sto se moze primijetiti (2n, n ∈ N)

i za prvih 100 brojeva dosta dobro postuje Benfordov zakon.

25


Prva znacajna Broj ponavljanja Frekvencija Pretpostavka poznamenka znamenke prve znamenke Benfordu

1 10 33,33% 30,10%2 5 16,67% 17,61%3 4 13,33% 12,49%4 2 6,67% 9,69%5 3 10,00% 7,92%6 2 6,67% 6,69%7 1 3,33% 5,80%8 3 10,00% 5,12%9 1 3,33% 4,58%

Tablica 1: Usporedba relativnih frekvencija prvih znacajnih znamenki prvih 30 clanova Fibonac-cijevog niza i pretpostavljene relativne frekvencije prema Benfordovom zakonu

Slika 8: Stupcasti dijagram relativnih frekvencija prvih znacajnih znamenki prvih 30 clanova Fi-bonaccijevog niza i pretpostavljene relativne frekvencije prema Benfordovom zakonu

26


Slika 9: Stupcasti dijagram relativnih frekvencija prvih znacajnih znamenki prvih 100 clanovaFibonaccijevog niza i pretpostavljene relativne frekvencije prema Benfordovom zakonu

Slika 10: Stupcasti dijagram relativnih frekvencija prvih znacajnih znamenki prvih 300 clanovaFibonaccijevog niza i pretpostavljene relativne frekvencije prema Benfordovom zakonu

27


Prva znacajna Broj ponavljanja Frekvencija Pretpostavka poznamenka znamenke prve znamenke Benfordu

1 31 31,00% 30,10%2 17 17,00% 17,61%3 13 13,00% 12,49%4 9 9,00% 9,69%5 8 8,00% 7,92%6 6 6,00% 6,69%7 6 6,00% 5,80%8 5 5,00% 5,12%9 5 5,00% 4,58%

Tablica 2: Usporedba relativnih frekvencija prvih znacajnih znamenki prvih 100 clanova niza(2n, n ∈ N) i pretpostavljene relativne frekvencije prema Benfordovom zakonu

Slika 11: Stupcasti dijagram relativnih frekvencija prvih znacajnih znamenki prvih 100 clanovaniza (2n, n ∈ N) i pretpostavljene relativne frekvencije prema Benfordovom zakonu

28


Benfordov zakon se cesto pojavljuje kod funkcija realnih varijabli, pogotovo kao rjesenja diferenci-

jalnih jednadzbi. U nastavku je definicija funkcije koja postuje Benfordov zakon.

Definicija 18. Funkcija f : [0,∞)→ R je Benfordova, ako vrijedi

limT→∞

λ(τ ∈ [0, T ) : S(f(τ)) ≤ t)T

= log t, ∀t ∈ [1, 10)

ili ekvivalentno za ∀m ∈ N, za sve d1 ∈ 1, 2, ..., 9 i za sve dj ∈ 0, 1, 2, ..., 9, j ≥ 2,

limT→∞

λ(τ ∈ [0, T ) : Dj(f(τ)) = dj za j = 1, 2, ...,m)T

= log

1 +

m∑j=1

10m−jdj

−1 .

λ je Lebesgueova mjera.

Vjerojatnosna interpretacija definicije 18 za slucaj prve znacajne znamenke d1 glasi:

Funkcija f : [0,∞) → R je Benfordova, ako za slucajno vrijeme τ iz [0, T ] vjerojatnost da je prva

znamenka od f(τ) jednaka d1 konvergira k log(1 + d−11 ) kad T →∞ za svaki d1 ∈ 1, 2, ..., 9.Benfordov zakon se pojavljuje i u razlicitim podrucjima statistike i vjerojatnosti:

• produkt nezavisnih, jednako distribuiranih slucajnih varijabli je Benfordova slucajna varija-

bla,

• slucajni uzorci

skup podataka koje slucajno odaberemo iz nekog (veceg) skupa brojeva postuje Benfordov

zakon,

• Brownovno gibanje9

podaci koji se dobiju simulacijom trajektorije Brownovog gibanja postuju Benfordov zakon.

U nastavku cemo se baviti analizom Benfordovog zakon za vjerojatnosne distribucije i slucajne

varijable.

7.3.1 Veza Benfordovog zakona i svojstva uniformne distribuiranosti modulo 1

Jedan nacin dokazivanja Benfordovog svojstva je koristeci uniformnu distribuiranost modulo 1.

Matematika uniformne distribuiranosti je jako dobro razradena, a mi cemo samo zaci u osnove

uniformne distribuiranosti modulo 1 vezane uz Benfordov zakon.

Definicija 19. Niz a1, a2, a3, ... je uniformno distribuiran modulo 1, ako je niz an − banc, tj,

a1 − ba1c, a2 − ba2c, a3 − ba3c, ...

uniformno distribuiran na intervalu [0, 1].

9Brownovo gibanje se koristi kao stohasticki model za mnogo procesa iz stvarnog zivota.

29


Definicija 19 govori da je niz uniformno distribuiran modulo 1, ako je decimalni dio niza realnih

brojeva uniformno distribuiran. Decimalni dio realnog broja cemo oznacavati sa 〈t〉, a racuna se

na sljedeci nacin 〈t〉 = t− btc.

Primjer 16.

〈π〉 = 〈3.141...〉 = π − 3 ≈ 0.141.

〈e〉 = 〈2.718...〉 = e− 2 ≈ 0.718.

Preciznija i potpunija definicija dana je u nastavku.

Definicija 20. Niz realnih brojeva (xn) je uniformno distribuiran modulo 1 10 ako je

limN→∞

k(1 ≤ n ≤ N : 〈xn〉 ≤ s)N

= s, ∀s ∈ [0, 1).

Slucajna varijabla X na (Ω,F, P ) je u.d. mod 1 ako je

P (〈X〉 ≤ s) = s, ∀s ∈ [0, 1).

Teorem 2. Niz realnih brojeva, funkcija, slucajna varijabla su Benfordovi ako i samo ako je

decimalni logaritam njihove apsolutne vrijednosti u.d. mod 1.

Dokaz

Neka je X slucajna varijabla i bez smanjenja opcenitosti pretpostavimo da je P (X = 0) = 0. Onda

je ∀s ∈ [0, 1)

P (〈log |X|〉 ≤ s) = P

(log |X| ∈

⋃k∈Z

[k, k + s]

)=

= P

(|X| ∈

⋃k∈Z

[10k, 10k+s

])=

= P (S(X) ≤ 10s).

Prema definiciji 20 i prema (3), slucajna varijabla X je Benfordova ako i samo ako P (S(X) ≤10s) = log 10s = s za sve [0, 1), tj. ako i samo ako je log |X| u.d. mod 1.

Analogno se dokazuje za niz realnih brojeva i funkcije.

Propozicija 3. Neka je (xn) niz realnih brojeva. Ako je limn→∞(xn+1 − xn) = α, α ∈ I, onda je

xn u.d. mod 1. I je skup iracionalnih brojeva.

Teorem 3. Ako su a, b, α, β realni brojevi takvi da je a 6= 0 i |α| > |β| onda je (αna+ βnb) Ben-

fordov ako i samo ako je log |α| iracionalan.

Dokaz

10u nastavku u.d. mod 1

30

8 TESTIRANJE STATISTICKIH HIPOTEZA

Dokaz. Buduci da je a 6= 0 i |α| > |β|, tj. limn→∞βnbαna = 0 vrijedi sljedece

log |(αna+ βnb)| − log |αna| = log

∣∣∣∣1 +βnb

αna

∣∣∣∣→ 0.

To znaci da je (log |αna+ βnb|) u.d. mod 1 ako i samo ako je (log |αna|) = (log |a|+ n log |α|) u.d.

mod 1. Prema propoziciji 3 to je jedino u slucaju kada je log |α| iracionalan. Koristeci teorem 2

dokaz je zavrsen.

Primjer 17. .

Prema teoremu 3 niz (2n) je Benfordov buduci da je log 2 iracionalan. To smo mogli primijetiti i u

primjeru 15. Koristeci isti teorem mozemo primijetiti da su nizovi (0.2n), (0.3n), (3n) Benfordovi.

Dok (10n), (100n) nisu jer je log 10 = 1 ∈ Q i log 100 = 10 ∈ Q. Mozemo primijetiti da je i

(0.01 · 2n + 0.2 · 0.1n) takoder Benfordov jer je 0.01 6= 0, |2| > |0.1| i log 2 je iracionalan.

Teorem 4. Ako je X neprekidna slucajna varijabla onda je

limn→∞

P (〈nX〉 ≤ s) = s, ∀s ∈ [0, 1)

tj. (〈nX〉) konvergira po distribuciji prema U(0, 1) za n→∞.

Teorem 5. Neka je X neprekidna slucajna varijabla. Onda

• (Xn, n ∈ N) konvergira po distribuciji prema Benfordovoj slucajnoj varijabli,

• (Xn, n ∈ N) je gotovo sigurno Benfordova slucajna varijabla.

Dokaz

Primijetimo da i log |X| ima funkciju gustoce. Prema Teoremu 4

P (S(Xn) ≤ t) = P (〈log |Xn|〉 ≤ log t)

= P (〈n log |X|〉 ≤ log t)→ log t, n→∞

vrijedi za sve t ∈ [1, 10), tj. (Xn) konvergira po distribuciji prema Benfordovoj slucajnoj varijabli.

Da bi dokazali drugi dio teorema primijetimo da je log |X| iracionalan s vjerojatnoscu 1. Prema

teoremu 3 (Xn) je Benfordov s vjerojatnoscu 1.

8 Testiranje statistickih hipoteza

U nastavku cemo koristiti χ2-test da provjerimo postuju li podaci Benfordov zakon, tj. podudara

li se frekvencija podataka sa frekvencijom prema Benfordovom zakonu.

31

8.1 χ2-test 8 TESTIRANJE STATISTICKIH HIPOTEZA

8.1 χ2-test

χ2-test je predlozio 1900. godine Karl Pearson11. Zbog toga mu je drugi naziv Pearsonov test. χ2-

test je neparametarski test, tj. test koji koristimo kada ne znamo teorijsku distribuciju podataka

(vidi [6]).

Pomocu χ2-testa testiramo nul-hipotezu da slucajna varijabla X ima odredenu (teorijsku) distri-

buciju protiv alternativne da nema tu distribuciju. U nasem slucaju mi cemo gledati da nam

je nul-hipoteza da nasa slucajna varijabla postuje Benfordov zakon, tj. ima teorijsku distribuciju

Benfordovog zakona, dok u slucaju alternative nasa slucajna varijabla ne postuje Benfordov zakon,

tj. nema teorijsku distribuciju Benfordovog zakona. Test-statistika je :

H =

r∑i=1

(fi − ft)2

ft,

gdje je r konacan broj razreda, fi eksperimentalna frekvencija, a ft teorijska frekvencija.

Uz pretpostavku da je H0 tocna hipoteza za velike n, tj. za n→∞

H ≈ χ2(r − l − 1)

gdje χ2(r − l − 1) oznacava χ2 distribuciju sa (r − l − 1) stupnjeva slobode. l je broje nepoznatih

parametara. Za zadanu pogresku prve vrste α, kriticno podrucje racunamo u uvjetima istinitosti

nul-hipoteze

P(H > χ2

α(r − l − 1)|)

= α.

Drugim rijecima, kriticno podrucje je :

C0 = [χ2α(r − l − 1),∞).

χ2(r− l−1) citamo iz tablica ili racunamo numerickim procedurama. Djelomicna tablicu mozemo

pogledati na slici 12. S h oznacimo vrijednost test-statistike izracunate iz uzorka, onda nul-hipotezu

odbacujemo ako

h ∈ C0 tj. h ≥ χ2(r − l − 1).

Iz podataka u uzorku mozemo naslutiti kakva je populacijska distribucija. Pa su hipoteze:

• H0, nul-hipoteza

X ima pretpostavljenu distribuciju,

• H1, alternativna hipoteza

X nema pretpostavljenu distribuciju.

11(27.3.1857. - 27.4.1936.) je poznati engleski matematicar koji je osnovao disciplinu matematicka statistika.

32

8.1 χ2-test 8 TESTIRANJE STATISTICKIH HIPOTEZA

0.995 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01 0.0051 — — 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.8792 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.5973 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.8384 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.8605 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086 16.7506 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.5487 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.2788 1.344 1.646 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.9559 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.58910 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.18811 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.75712 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300

Slika 12: Tablica χ2(r − l − 1)

Primjer 18. .

Kockica se baca 90 puta. Rezultati bacanja kockice su dani u tablici:

Broj na kockici 1 2 3 4 5 6Broj ponavljanja 14 12 17 18 16 13

Nas zanima je li kockica ispravna. To cemo provjeriti na nivou znacajnosti α = 0.01.

Imamo sljedece hipoteze:

H0 : kockica je ispravna,

H1 : kockica je neispravna.

Postaviti cemo da je slucajna varijabla X := broj na kockici . Nas zanima da li empirijska dis-

tribucija znacajno odstupa od teorijske diskretne uniformne distribucije. Vjerojatnost pojavljivanja

svakog broja na pravilnoj kockici je 16 , tj. broj ponavljanja svakog broja u 90 bacanja je 15. Pre-

ciznije cemo definirati hipoteze na sljedeci nacin:

H0 : X ima diskretnu uniformnu distribuciju na 1, 2, 3, 4, 5, 6H1 : X nema diskretnu uniformnu distribuciju na 1, 2, 3, 4, 5, 6.Kada bi H0 bila istinita hipoteza onda bi tablica distribucije slucajne varijable X bila sljedeceg

oblika:

X =

(1 2 3 4 5 616

16

16

16

16

16

).

Za test-statistiku su nam jos potrebne teorijske frekvencije, a njih cemo racunati po formuli ft = npi

gdje je pi odgovarajuca vjerojatnost, a n velicina uzorka. U nasem slucaju je pi = 16 za svaki i, a

n = 90. Onda je onda ft = 90 · 16 = 15. Sada imamo sve potrebne podatke i mozemo primijeniti

χ2-test:

33

8.2 Primjena na probleme u praksi 8 TESTIRANJE STATISTICKIH HIPOTEZA

fi ft(fi−ft)2

ft

14 15 1/1512 15 9/1517 15 4/1517 15 4/1516 15 1/1513 15 4/15∑90 90 1.53

Vrijednost test-statistike h ≈ 1.53, broj razreda r = 6, broj nepoznatih parametara l = 0. S slike 12

citamo χ2α(r− l− 1) = χ2

0.01(5) = 15.086 pa je kriticno podrucje C0 = [15.086,∞). Vrijednost test-

statistike h ≈ 1.53 ne pripada kriticnom podrucju. Na nivou znacajnosti 0.01 nemamo dovoljno

argumenata da bismo odbacili nul-hipotezu.

Navede li nas χ2-test da odbacimo hipotezu o pretpostavljenoj teorijskoj distribuciji, mozemo biti

sigurni da izmjereni podaci ne potjecu od teorijske distribucije.

8.2 Primjena na probleme u praksi

U poglavlju 3 smo naveli gdje se Benfordov zakon koristi. Mi cemo ovdje testirati i nekoliko

prakticnih primjena. Ali cemo prvo obraditi nekoliko primjera da i empirijski dokazemo ono sto

smo pokazali u poglavlju 7.3. Dva primjera koja smo obradili su bili primjer 14 i primjer 15.

Primjer 15 gotovo savrseno postuje Benfordov zakon, tj. χ2 test-statistika pokazuje vrijednost 1.4,

sto je daleko od kriticnog podrucja [15.51,∞). Da postuje Benfordov zakon smo mogli naslutiti i

iz slike. Provjerili smo da li i mnozenje skalarom mijenja svojstvo Benfordovog zakona, tj. provje-

ravali smo drugo svojstvo leme 1. Mnozenjem brojeva iz primjera 15 s 1.6 nije promijenilo svojstvo

Benfordovog zakona. U novom slucaju je vrijednost test-statistike bila 1.3 i mozemo vidjeti da se

isto gotovo savrseno poklapa na slici 13.

Za primjer 14 smo obradili po prvih 30, prvih 100, prvih 300 brojeva Fibonaccijevog niza. Kao

sto se moze primijetiti sto smo vise podataka uzeli to je bilo bolje poklapanje sa Benfordovim

zakonom. Kod prvih 30 brojeva χ2 test-statistika je bila priblizno 5.2 i sa sve vise podataka se

smanjivala sto govori da Fibonaccijev niz konvergira prema Benfordovom zakonu.

Primjer 19.

Jedan od nacina provjere da li su podaci o bacanju pravilno iskovanog novcica tocni je da pro-

vjerimo da li je empirijska vjerojatnost jednaka teorijskoj tj. da je vjerojatnost “pisma” jednaka

vjerojatnosti “glave”. Zadali smo nekolicini osoba da bacaju pravilno iskovan novcic 100 puta.

Kasnije smo provjerili da li su stvarno bacali novcic na nacin da smo analizirali pomocu Benfor-

dovog zakona. Podaci od Ivoninog bacanja novcica su prikazani u sljedecoj tablici:

34


Slika 13: Stupcasti dijagram relativnih frekvencija prvih znacajnih znamenki prvih 100 clanovaniza (1.6 · 2n, n ∈ N) i pretpostavljene relativne frekvencije prema Benfordovom zakonu.

IVONAgpgpgpppggpgpgpgpgpgpgpgpgpgpgppgpgpgpgpgppgpgpgpgpgpgpgppppgpgpgpgppgpgppgpgpgpgpppgpgpgpgpgpgppgpg

Pretvorimo to u brojeve na nacin da brojim koliko puta se pismo i glava dogodila, npr. ppggp ce biti

2,2,1 . Analizirajuci te podatke dobili smo da je χ2 test-statistika priblizno 147.62, tj. u kriticnom

podrucju, a u 100 bacanja novcica odnos pisma i glave je 44 : 56. Provjerom je utvrdeno da novcic

nije bacan nego da su podaci dobiveni nasumicnim odabiranjem slova p i g.

Analogno smo radili i za ostale dvije osobe Marka i Sanju. Za Sanju smo dobili vrijednost test-

statistike od priblizno 22.49, sto spada u kriticno podrucje od [15.51,∞). Daljnjom provjerom smo

dosli do podatka da je 10 podataka dobiveno nasumicnim odabiranjem slova p i g. Zato je vrijed-

nost test-statistike blizu pocetka kriticnog podrucja. Za Marka smo dobili vrijednost test-statistike

od 4.5, sto ne spada u kriticno podrucje. Provjerom smo dosli do podatka da je Marko uistinu

bacao novcic 100 puta.

Ovdje smo radili sa malo ucesnika i imali smo malen uzorak (samo 100 bacanja). Ono sto mozemo

35


Slika 14: Stupcasti dijagram relativnih frekvencija Ivoninog bacanja pravilo izradene kockice ipretpostavljene relativne frekvencije prema Benfordovom zakonu

Slika 15: Stupcasti dijagram relativnih frekvencija Sanjinog bacanja pravilo izradene kockice ipretpostavljene relativne frekvencije prema Benfordovom zakonu

36

9 USUSTAVLJIVANJE BENFORDOVOG ZAKONA

Slika 16: Stupcasti dijagram relativnih frekvencija Markovog bacanja pravilo izradene kockice ipretpostavljene relativne frekvencije prema Benfordovom zakonu

vidjeti je da kada se laziraju podaci za bacanje novcica onda ce ljudi previse umanjiti vjerojatnost

da se dogodi dva ili vise puta ista strana novcica jer vjeruju da novcic “pamti”, npr. ako je pala

glava, glava, glava onda ce u sljedecem bacanju vjerovati da se povecala vjerojatnost da padne pismo.

Medutim, vjerojatnost da ce pasti “glava” ili “pismo” sa svakim bacanjem novcica je jednaka, ne

mijenja se (nema “pamcenja”).

9 Usustavljivanje Benfordovog zakona

Uz sve navedeno sada cemo ukratko navesti sto je potrebno da vrijedi Benfordov zakon. Imamo

podatke iz 2011. godine za sve gradove u RH. Ono sto je vazno je to da nismo ogranicili podatke,

tj. nismo uzimali gradove samo sa nekim slovom. U tablici 3 mozemo vidjeti tablicu stanovnistva

gradova u RH. Ili stupac x ili stupac y prikazuje tocan broj stanovnistva gradova, tj. jedan stupac

je Marko popunio sa brojem stanovnika za koje on misli da su tocni, a drugi su tocni podaci.

Stupac D1(x) oznacava prvu znamenku od x, a D1(y) oznacava prvu znamenku od y. Mi cemo

provjeriti koji stupac prikazuje tocan broj stanovnika, a koji je Marko popunio na nacin da cemo

provjeriti da li pojedinacno stupci postuju Benfordov zakon. Onaj stupac koji postuje Benfordov

zakon sa velikom vjerojatnoscu mozemo reci da su to tocni podaci.

Vecina osoba ce uniformno distribuirati prve znamenke dok po Benfordovom zakonu to nije slucaj,

kao sto smo mogli vidjeti u prijasnjim poglavljima.

Laicki gledano svaka znamenka d ∈ 1, 2, 3, 4, 5, 6, 7, 8, 9 bi trebala imati jednaku vjerojatnost, tj.

trebalo bi biti

P (D1 = 1) = P (D1 = 2) = · · · = P (D1 = 9) =1

9≈ 11%,

ali to nije slucaj. Pokusat cemo dati nekoliko objasnjenja zasto to nije slucaj:

37


x D1(x) y D1(y)01. Zagreb 688,163 6 688,163 602. Split 167,121 1 167,121 103. Rijeka 128,384 1 128,384 104. Osijek 84,104 8 84,104 805. Zadar 71,471 7 71,471 706. Slavonski Brod 53,531 5 53,531 507. Pula 87,46 8 57,46 508. Sesvete 84,085 8 54,085 509. Kastela 88,667 8 38,667 310. Karlovac 86,833 8 46,833 411. Varazdin 88,839 8 38,839 312. Sibenik 74,302 7 34,302 313. Velika Gorica 71,553 7 31,553 314. Sisak 73,322 7 33,322 315. Vinkovci 72,029 7 32,029 316. Vukovar 69,468 6 26,468 217. Bjelovar 67,024 6 27,024 218. Dubrovnik 66,434 6 28,434 219. Koprivnica 63,955 6 23,955 220. Dakovo 59,491 5 19,491 121. Pozega 59,506 5 19,506 122. Zapresic 59,644 5 19,644 123. Solin 40,212 4 20,212 224. Cakovec 45,147 4 15,147 125. Virovitica 44,688 4 14,688 126. Samobor 45,956 4 15,956 127. Kutina 33,735 3 13,735 128. Metkovic 35,329 3 15,329 129. Petrinja 35,683 3 15,683 130. Zupanja 32,09 3 12,09 131. Rovinj 33,056 3 13,056 132. Makarska 23,426 2 13,426 133. Nova Gradiska 21,821 2 11,821 134. Krizevci 21,231 2 11,231 135. Sinj 11,478 1 11,478 136. Knin 9,633 9 10,633 137. Slatina 8,208 8 10,208 138. Trogir 8,123 8 10,923 139. Porec 7,79 7 9,79 9

Tablica 3: Broj stanovnika gradova Republike Hrvatske za 2011. godinu

38


• Podjela brojeva.

Benford nije dao objasnjenje nego je samo nazvao brojeve koji postuju Benfordov zakon

anomalni brojevi, a brojevi koji ne postuju Benfordov zakon (OIB, brojevi tekucih racuna,

brojevi dostavnica, brojevi koji su strogo ograniceni) redovni brojevi.

• Nepromjenjivost s obzirom na skalu.

Promjena skale se dobije mnozenjem sa nekim skalarom i eventualno dodavanjem nekoga

broja (1 milja ≈ 1.6 km, F = C · 1.8 + 32). U dokazu ove tvrdnje koristi se i drugi dio

leme 1. Benfordov zakon jedini postuje nepromjenjivost s obzirom na skalu i ako neki podaci

postuju Benfordov zakon u jednoj mjernoj jedinici onda ce postivati i u drugoj.

• Nepromjenjivost s obzirom na bazu.

Vise informacija o nepromjenjivosti s obzirom na bazu se moze naci u knjizi [15].

• Misterija prirode.

Dosta toga u prirodi je povezano s logaritmima (ili s inverzom logaritma) kao npr. sluh,

dijeljenje stanica, polu-raspad atoma. Logaritam je povezan sa Fibonaccijevim brojevima i

sa zlatnim omjerom. Te dvije stvari se dosta cesto pojavljuju u prirodi. Zato je dosta tema

obradeno na temu Fibonaccijevih brojeva i zlatnog reza. Pa ono sto vrijedi za te dvije teme

vrlo vjerojatno vrijedi i za Benfordov zakon. Trenutno nema jos objasnjenja zasto je dosta

toga u prirodi “logaritamsko”.

• Komplicirana teorija mjere.

Ukratko govori o tome da ukoliko uzmemo brojeve iz svih izvora, njihova frekvencija znamenki

ce konvergirati prema Benfordovom zakonu. To je i Benford napravio. Uzeo je brojeve iz sto

vise izvora kao sto su duljine rijeka, velicine podrucja, konstante, brojevi iz novina i rekao

da je napravio: ”Eksperiment opsiran koliko je vrijeme i energija dopustila.”. Provjerio je

da li za njih vrijedi Benfordov zakon. Njihov prosjek je jako malo odstupao od Benfordovog

zakona (priblizno za 0.1%). Za vise informacija provjeriti [14].

• Postotno povecanje.

Nizovi brojeva postuju Benfordov zakon radi sljedeceg svojstva:

broj koji pocinje s 1 treba povecanje od 100% da postane 2,

broj koji pocinje s 2 treba povecanje od 50% da postane 3,

· · ·broj koji pocinje s 5 treba povecanje od priblizno 20% da postane 6,

· · ·broj koji pocinje s 9 treba povecanje od priblizno 11% da postane broj koji pocinje s 1.

39


Laicki receno rastuci brojevi “potrose vise vremena” s vodecom znamenkom 1 nego sa ostalim

znamenkama. Ovo je vrlo dobro objasnjenje, ako se gleda financijski sektor i Benfordov zakon.

Jedno od boljih objasnjenja je koristenjem funkcije gustoce. Neka imamo funkciju gustoce normalne

slucajne varijable X. Oznaciti cemo je s fX . Funkcija gustoce normalne slucajne varijable X je

prikazana na slici 17. Kljucna ideja je

Slika 17: Funkcija gustoce

ako je podrucje ispod funkcije gustoce jednoliko podijeljeno na crvene i bijele pruge onda ce ukupno

podrucje biti pola crveno, pola bijelo. To mozemo vidjeti na slici 18. Prva crvena pruga desno od

ocekivanja jednake je povrsine kao prva bijela pruga lijevo od ocekivanja.

Slika 18: Funkcija gustoce s prugama

Na slici se zornije vidi da su povrsine jednake, iako ni matematicki ne bi bilo problem izracunati

da su jednake povrsine radi simetrije funkcije gustoce normalne slucajne varijable.

Pretpostavimo sada jedan drugi slucaj. Neka crvene pruge pokrivaju 30 % povrsine prvotne

velicine, a bijele pruge 70%. To mozemo vidjeti na slici 19. Onda ce sve crvene pruge zauzi-

mati 30% povrsine ispod funkcije gustoce.

Slika 19: Funkcija gustoce s prugama od 30 %

40


Uzmimo sada da crvena pruga zauzima 30.1 % prvotne velicine. Onda ce po analogiji sve pruge

zauzimati 0.301 povrsine ispod funkcije gustoce. To mozemo vidjeti na slici 20.

Slika 20: Funkcija gustoce s prugama od 30.1 %

Neka je X slucajna varijabla koja se realizira slucajno odabranim realnim brojem, te pretposta-

vimo da nas zanima vjerojatnost da je prva znacajna znamenka slucajno odabranog realnog broja

znamenka 1.

Neka je na slici 17 prikaza funkcija gustoce od X. Onda povrsine ispod funkcije gustoce daju

vjerojatnosti za X. Onda je povrsina prikazana na slici 21 jednaka

P (1 < X < 5) = 0.95.

Slika 21: Funkcija gustoce od X

Na slican nacin ako crvene pruge oznacavaju vrijednosti od X s prvom znamenkom 1, prikazano

na slici 20, i ako povrsina crvenih pruga pokriva 30.1%=0.301 onda je

P (X ima prvu znamenku 1) = 0.301.

Neka je X = 10kt, gdje je t ∈ [1, 10), k ∈ Z. Iz toga vidimo da X ima prvu znamenku 1, ako je

1 ≤ t < 2. Kao sto smo i vidjeli, za prvu znamenku od X je jedino bitan t. Imamo

X = t · 10k/ log

logX = log t+ log(10k)

logX = log t+ k.

41

10 GENERIRANJE BENFORDOVIH BROJEVA

t nam je izmedu 1 i 10, a n je cijeli broj. X ima prvu znamenku 1 kada je 1 ≤ t < 2 , tj. kada

je log 1 ≤ log t < log 2. Racunajuci logaritme dobijemo da je to u slucaju kada je 0 ≤ t < 0.301.

Preciznije, X ima prvu znamenku 1 kada je log(X) izmedu k i k + 0.301.

n = 0 : 0 ≤ logX < 0.301(Xizmedu 1 i 2),

n = 1 : 1 ≤ logX < 1.301(Xizmedu 10 i 20),

n = 2 : 2 ≤ logX < 2.301(Xizmedu 100 i 200).

(6)

Pretpostavimo neka imamo funkciju gustoce prikazanu na slici 20 i da je to funkcija gustoce od

log(X).

Kao sto mozemo vidjeti iz (6) vrijednosti da X ima prvu znamenku 1 leze na jednako razmaknu-

tim prugama, ali na logaritamskoj skali. Zbog log skale mali brojevi (koji pocinju sa znamenkom

1) su jako razmaknuti, a veliki brojevi (s vecim znamenkama) su jako grupirani.

Zanima nas kada vrijedi Benfordov zakon prema ovom objasnjenju. Mozemo vidjeti na slici 20 da

distribucija od X treba biti dovoljno siroka na log skali. X je izmedu 0 i 6 prema log skali, a prema

normalnoj skali X je izmedu 1 i 106.

Znaci, ako je funkcija gustoce slucajne varijable

• siroka, tj. reda velicine 4-6 ili vise,

• glatka,

onda ce crvene pruge pokrivati 30.1% podrucja. Ovo objasnjenje je dovoljno za distribucije brojeva

koje su reda velicine 4 ili vise da postuju Benfordov zakon, ali ne objasnjava zasto i neke distribucije

brojeva koje su manjih redova velicine postuju Benfordov zakon kao npr. broj stanovnika gradova

RH prikazan u tablici 3. Primijenili smo χ2 test-statistiku za stupce x i za y u tablici 3 i dobili smo

da y postuje Benfordov zakon. Za x je vrijednost test-statistike priblizno 35.76, a za y je priblizno

11.17 . Ukoliko uzmemo nivo znacajnost od 0.05, onda je kriticno podrucje od [15.51,∞). Iz toga

vidimo da vrijednost test-statistike od y ne pripada u kriticnom podrucju i ono postuje Benfordov

zakon. To uistinu i jesu tocni podaci za broj stanovnika.

Nabrojali smo nekoliko objasnjenja zasto Benfordov zakon vrijedi, ali trenutno jos nema potpunog

dokaza Benfordovog zakona. Zasad najvise zadovoljavajucih objasnjenja i radova o Benfordovom

zakonu ima Ted Hill.

10 Generiranje Benfordovih brojeva

Ima razlicitih nacina da se generiraju skupovi brojeva koji postuju Benfordov zakon. Mi cemo

ovdje objasniti jedan nacin. Iz poglavlja 7.3 vidimo da za skup brojeva A vrijedi da je Benfordov

ako i samo ako je log |A| u.d. mod 1. Iz tog svojstva i pomocu nekoliko transformacija mozemo

42

10 GENERIRANJE BENFORDOVIH BROJEVA

kreirati skup brojeva A koji postuje Benfordov zakon. Svojstvo logaritma koje cemo ovdje koristiti

je

log 10ku = log 10k + log u = k + log u,

npr. log 300 = log 100 + log 3 = 2 + log 3. Skup brojeva A mozemo zapisati u obliku 10ku gdje je

u ∈ [0, 1), a k ∈ N0. Decimalni dio logaritma |A| treba biti uniformno distribuiran, a za cijeli dio

nema uvjeta. Moze biti bilo koji broj. Koristeci ovaj zakljucak i koristeci svojstvo logaritma koje

smo naveli dosli smo do toga kako kreirati trazeni skup.

Algoritam kreiranja skupa Benfordovih brojeva:

• generiramo U(0, 1)

npr. generiramo 100 brojeva iz U(0, 1),

• dodamo kreiranim brojevima slucajno odabran broj k ∈ N0,

npr. prvom broju dodamo 1, drugome 7, trecem 9, itd.

• djelujemo sa funkcijom 10x,

• za sve dobivene brojeve odaberemo jednaki predznak koji nam je potreban.

Primjer 20. .

Kreirajte 100 brojeva koji ce postivati Benfordov zakon.

Koristeci algoritam kreirali smo 100 brojeva, a mozemo vidjeti dio tablice sa koracima algoritma.

U U + k 10U+k D1

0.473172922 7.47317 29728494.90 20.918849398 8.91885 829563047.53 80.308902072 7.30890 20365828.02 20.572680874 7.57268 37383578.73 30.960420613 7.96042 91289454.80 90.237916646 1.23792 17.29 10.638555706 5.63856 435066.56 40.301914235 6.30191 2004076.22 20.312630398 9.31263 2054141692.67 20.082369965 9.08237 1208843180.42 10.878957124 5.87896 756758.18 70.535148049 1.53515 34.29 30.956706445 9.95671 9051205909.92 9

Tablica 4: Postupak kreiranja Benfordovih brojeva

Testiranjem sa χ2 test-statistikom smo dobili vrijednost od priblizno 5.6 sto je manje od 15.51, a

to znaci da su brojevi koje smo kreirali Benfordovi.

43

11 ZAKLJUCAK

11 Zakljucak

Benfordov zakon jedan je od znacajnih statistickih alata koji se koriste u analizi financijskih poda-

taka. Njegova prednost nad ostalim statistickim alatima je u tome sto oznacava sumnjive podatke,

odnosno podatke u kojima je moguca prijevara. Drugi alati uglavnom govore o tome dolazi li do

prijevare u cijelom skupu podataka, no ne izdvajaju podatke koje treba analizirati. Upravo je to

glavna prednost Benfordovoga zakona nad ostalim alatima. On smanjuje broj podataka koji treba

analizirati.

Cilj ovoga rada bio je objasniti osnovnu terminologiju, matematicke koncepte i rezultate vezane

uz Benfordov zakon na elementarni i prihvatljiv nacin. Benfordov zakon ima uistinu sirok spektar

primjena, a neke smo naveli u radu.

44

LITERATURA

12 Literatura

Literatura

[1] E. L. LEHMANN, Testing Statistical Hypotesis, Springer, 1997.

[2] S. NEWCOMB, Note on the frequency of use of the different digits in natural numbers, Ame-

rican Journal of Mathematics , 1881.

[3] MacTutor povijest matematike http://www-groups.dcs.st-andrews.ac.uk/ history/

[4] M. CRNJAC, D. JUKIC, R. SCITOVSKI, Matematika, Ekonomski fakultet, 1994.

[5] M. J. NIGRINI, Forensic Analytics: Methods and Techniques for Forensic Accounting Inves-

tigations, Wiley Corporate F & A, 2011.

[6] Z. PAUSE, Uvod u matematicku statistiku, Skolska knjiga - Zagreb, 1993.

[7] A. BERGER, T. HILL, A basic theory of Benford’s Law, Mathematical and Statistical Sciences

University of Alberta, 2011.

[8] M. BENSIC, N. SUVAK, Uvod u vjerojatnost i statistiku, Odjel za matematiku - Osijek, 2012.

[9] D. JUKIC, Uvod u teoriju mjere i integracije, Odjel za matematiku - Osijek, 2008.

[10] D. FU, Y. Q. SHI, W. SU, A generalized Benford’s law for JPEG coefficients and its applica-

tions in image forensics, New Jersey Institute of Technology - Newark, 2007.

[11] H. VARIAN, Benford’s law (Letters to the Editor), The American Statistician, 1972.

[12] M. J. NIGRINI, How a mathematical phenomenon can help CPAs uncover fraud and other

irregulaities, Journal of Accountancy, 1999.

[13] A. DIEKMANN, Using Benford’s Law to detect fraudulent scientific data, Journal of Applied

Statistics, 2007.

[14] T. HILL, A Statistical Derivation of Significant-Digit Law, Statistical Science, 1995.

[15] T. HILL, Base-Invariance implies Benford Law, Proceedings of the American Mathematical

Society, 1995.

[16] R.M. FEWSTER, A Simple Explanation of Benford’s Law, The American Statistician, 2009.

[17] T. HICKEY, Q. JU, Interval Arithmetic: from Principles to Implementation, Department of

Computer Science - Brandeis University, 2003.

45

http://www-groups.dcs.st-andrews.ac.uk/~history/

Sazetak

Sazetak. U ovomu diplomskom radu proucavat cemo Benfordov zakon. Objasnit cemo osnovne

pojmove vezane uz logaritamsku funkciju i slucajne varijable. Logaritamska funkcija je sadrzana

u Benfordovom zakonu i pridonijela je njegovom otkricu, a pomocu uniformne slucajne varijable

kreiraju se Benfordovi brojevi. Nakon toga cemo definirati Benfordov zakon i teorijska svojstva

Benfordovog zakona. Jedno od vaznih svojstava Benfordovog zakona je uniformno distribuiran

modulo 1, koji cemo dodatno prouciti. Na samomu kraju cemo provjeriti postuju li dani podatci

Benfordov zakon i to tako sto cemo primijeniti teoriju koju smo prethodno razradili u radu.

Kljucne rijeci: Benfordov zakon, logaritamska funkcija, znacajne znamenke, uniformno distribu-

iran modulo 1

Title and summary

Sazetak. This diploma paper gives an overview of the Benford’s law. We will explain the basic

concepts related to the logarithmic function and random variables, which are the basis of this law.

Benford’s numbers are created in terms of uniform random variables. After that we will define

Benford’s law and its theoretical properties. One of the most important properties of Benford’s

law is the property called ”uniformly distributed modulo 1”, which will be further studied. In the

end of this paper we will check the compliance of the given data with Benford’s law and so we will

apply the theory that we have previously developed in this paper.

Kljucne rijeci: Benford’s Law, logarithmic function, significant digits, uniform distribution mo-

dulo 1.

Documents

Benfordov zakon (pravilo)