Upload
others
View
3
Download
1
Embed Size (px)
Citation preview
Sveuciliste Josipa Jurja Strossmayera u Osijeku
Odjel za matematiku
Davor Nazifovic
Analiza prezivljenja u modeliranjubihevioralnog skoring modela
Diplomski rad
Osijek, 2013.
Sveuciliste Josipa Jurja Strossmayera u Osijeku
Odjel za matematiku
Davor Nazifovic
Analiza prezivljenja u modeliranjubihevioralnog skoring modela
Diplomski rad
Mentor: prof. dr. sc. Natasa SarlijaKomentor: doc. dr. sc. Nenad Suvak
Osijek, 2013.
Sadrzaj
Uvod 1
1 Uvod u analizu prezivljenja 3
2 Modeli prezivljenja 8
2.1. Neparametarski procjenitelji funkcije prezivljenja . . . . . . . . . . . . . . . . 8
2.1.1. Empirijski procjenitelj . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2. Kaplan-Meierov procjenitelj . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.3. Nelson-Aalenov procjenitelj . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Parametarski modeli prezivljenja . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1. Metoda maksimalne vjerodostojnosti . . . . . . . . . . . . . . . . . . . 17
2.2.2. Model proporcionalnih rizika (PH model) . . . . . . . . . . . . . . . . . 21
2.2.3. Model ubrzanog vremena otkazivanja (AFT model) . . . . . . . . . . . 23
2.3. Poluparametarski Coxov PH model . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.1. Metoda parcijalne vjerodostojnosti . . . . . . . . . . . . . . . . . . . . 26
2.3.2. Procjena osnovne funkcije rizika i osnovne funkije prezivljenja . . . . . 28
3 Analiza prezivljenja u modeliranju bihevioralnog skoringa 30
3.1. Prethodna istrazivanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2. Kreditni skoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3. Kreiranje kredit skoring modela . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4. Zakljucak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Bibliografija 45
Sazetak 47
Title and Summary 48
Zivotopis 49
Uvod
Financijske i kreditne institucije odobravanjem kredita stanovnistvu i poduzecima, koji
je za vecinu klijenata primarni izvor financiranja, prihvacaju rizik kako bi ostvarili zaradu.
Krediti donose najvise prihoda, te cine veci dio aktive financijskih institucija, ali s time nose i
najvise rizika. Propadanje banaka najcesce je povezano s losim kreditnim politikama. Kako bi
se rizik od donosenja krivih odluka kome odobriti kredit ili ne smanjio, financijske i kreditne
institucije upotrebljavaju razlicite alate i sustave za ocjenu kreditnog rizika. Tako razvijaju
aplikativni scoring koji se koristi za nove klijente i njime odlucuju kome odobriti kredit, dok se
za postojece klijente koristi bihevioralni scoring koji prati njegove financijske transakcije i na
temelju njih predvidaju koji klijent bi mogao uci u default ili ne, te donose odluku trebaju li
mijenjati neke uvjete kredita. Kao default definiramo status neispunjavanja obveza, tj. kada
klijent vise od 90 dana kasni s podmirivanjem obveza prema banci. Kod kreiranja aplikativnog
i bihevioralnog scoringa koriste se razlicite statisticke procedure, gdje su najpoznatiji pristup
logisticke regresije i diskriminacijska analiza, a jos se koriste probit analiza, matematicko pro-
gramiranje, neuralne mreze, metoda stabla odlucivanja, Markovljevi lanci, geneticki algoritmi
i analiza prezivljenja koja ce biti obradena u ovom radu.
Analiza prezivljenja1 je zajednicki naziv za skup statistickih postupaka koristenih za anali-
ziranje podataka, kod kojih je varijabla od interesa vrijeme potrebno do pojave nekog dogadaja.
Analiza prezivljenja je prvotno razvijena za primjenu u medicini, konkretno za promatranje
ucinaka lijekova i tretmana, te razvoj bolesti, gdje je konacni ishod ozdravljenje pacijenta,
reakcija na terapiju, povrat bolesti ili u nekim slucajevima smrt. Osim u medicini analiza
prezivljenja svoju primjenu ima i u nekim drugim granama znanosti, a to su ekonomija,
drustvene i tehnicke znanosti. Kod drustvenih znanosti promatra se vrijeme trajanja bra-
kova, vrijeme studiranja ili vrijeme do promjene nekih navika. Kod tehnickih znanosti obicno
se promatra vrijeme do pojave nekog kvara na stroju, trajanje kucanskih aparata. U ekono-
miji, sto je dio ovog rada, moze se promatrati vrijeme otplate kredita ili vrijeme do defaulta,
vrijeme nezaposlenosti, inflacija.
1engl. Survival analysis
1
U prvom poglavlju obradeni su osnovni pojmovi analize prezivljenja, kao sto su vrijeme
prezivljenja i cenzoriranje, te su definirane funkcije prezivljenja, rizika i kumulativnog rizika,
sto ce se upotrebljavati u drugim poglavljima. Drugo se poglavlje bavi neparametarskom pro-
cjenom funkcije prezivljenja i modelima prezivljenja. Od neparametarskih procjena obradeni
su Kaplan-Meierov i Nelson-Aalenov procjenitelj, a od modela parametarski modeli i polu-
parametarski Coxov model. Kod parametarskih modela prezivljenja gleda se nacin na koji
procijeniti parametre promatranih modela, a to su model proporcionalnih rizika i model ubr-
zanog vremena otkazivanja. Parametre procjenjujemo metodom maksimalne vjerodostojnosti
i metodom parcijalne vjerodostojnosti kod poluparametarskih modela. U trecem je poglavlju
obradena teorija primjenjena na podatke kako bi se procjenila sposobnost klijenata da otplate
svoj kredit. Kreirana su tri modela prezivljenja i usporedena s modelom logisticke regresije.
Na kraju je zakljuceno da Weibullov model najbolje procjenjuje klijente kod otplate kredita.
2
Poglavlje 1
Uvod u analizu prezivljenja
Vrijeme prezivljenja2 definiramo kao vrijeme cekanja do pojave nekog dogadaja i mode-
liramo nenegativnom slucajnom varijablom T . Da bi preciznije odredili vrijeme prezivljenja
potrebno je ispuniti sljedece pretpostavke:
• pocetni trenutak mora biti jednoznacno odreden,
• nacin mjerenja protoka vremena mora biti odreden na pocetku promatranja,
• definicija dogadaja mora biti posve jasna.
Specificne poteskoce u analizi prezivljenja uglavnom proizlaze iz cinjenice da je samo jedan
dio klijenata usao u default do kraja promatranja, dok drugi nisu i stoga je njihovo vrijeme
prezivljenja nepoznato. Ova cinjenica nas vodi do pojma cenzoriranja, kojeg modeliramo
slucajnom varijablom C koja oznacava trenutak u kojem je klijent cenzoriran. Da bi lakse
objasnili cenzoriranje koristiti cemo termine koji se koriste u bankarstu. Za pocetak pogle-
dajmo glavne tipove cenzoriranja.
Tip I: uzorak od n klijenata pratimo kroz fiksni vremenski period i biljezimo njihovo vrijeme
do defaulta, tj. cekamo da klijent ode u default. Svako promatranje koje traje duze nego
promatrani vremenski period oznacava se kao cenzorirano.
Tip II: uzorak od n klijenata pratimo dok u default ne ode r promatranih klijenata, a ostale
smatramo cenzoriranima.
Tip III: najcesci tip cenzoriranja jos se naziva i nasumicno cenzoriranje. Vrijeme promatranja
je fiksno, a klijenti ulaze u promatranje u razlicitim trenucima. Razlikujemo tri vrste ovog
tipa cenzoriranja:
2engl. Survival time
3
• Desno cenzoriranje: dogada se u slucajevima kada klijent nije otisao u default tijekom
promatranja, iskljucen je iz promatranja ili je izgubljen tijekom vremena iz nekog razloga.
• Lijevo cenzoriranje: slucaj kada se ulazak u default zbiva prije ukljucivanja klijenta u
promatranje.
• Intervalno cenzoriranje: pojavljuje se kada ne znamo tocno vrijeme pojavljivanja defa-
ulta, ali znamo vremenski interval u kojem se default dogodio. U slucaju da je interval
veoma malen ignoriramo ovo cenzoriranje i stavljamo jedan rub intervala kao trenutak
kada je klijent usao u default.
Funkcija prezivljenja
Neka je t vrijeme prezivljenja nekog klijenta modelirano slucajnom varijablom T . Pretpos-
tavimo li da slucajna varijabla T ima funkciju gustoce f(t) tada njenu funkciju distribucije
definiramo na sljedeci nacin
F (t) = P (T ≤ t) =
∫ t
0
f(u)du,
te ona predstavlja vjerojatnost da klijent odlazi u default prije ili u trenutku t.
Slika 1.1: Funkcija prezivljenja
Funkciju prezivljenja definiramo kao vjerojatnost da je vrijeme prezivljenja vece od t, tj.
da klijent ulazi u default nakon vremena t, i zapisujemo
S(t) = P (T > t) = 1− F (t), t ≥ 0,
4
te je ona monotono opadajuca funkcija sa svojstvima
• S(0) = 1,
• limt→∞
S(t) = 0,
• S(ta) ≥ S(tb)⇐⇒ ta ≤ tb,
• S(t) = 1− F (t) =∫∞tf(v)dv.
Funkcija rizika
Funkcija rizika koristi se kako bi izrazila rizik od odlaska u default u nekom trenutku t,
a dobivena je iz vjerojatnosti da klijent ude u default u trenutku t, uz uvjet da nije usao
u default do tog trenutka. Za formalnu definiciju promatramo uvjetnu vjerojatnost slucajne
varijable T takvu da P (t < T ≤ t + dt|T > t). Podjelimo li tu vjerojatnost vremenskim
intervalom dt dobivamo stopu rizika, a funkcija rizika se dobiva tako da stavljamo limes gdje
dt tezi u 0. Zapisujemo
λ(t) = limdt→0
P (t < T ≤ t+ dt|T > t)
dt, t ≥ 0.
Odnos funkcije rizika i funkcije prezivljenja
Koristenjem svojstva uvjetne vjerojatnosti i cinjenice da T modeliramo neprekidnom slucajnom
varijablom dolazimo do sljedeceg zapisa:
λ(t) = limdt→0
P (t < T ≤ t+ dt|T > t)
dt= lim
dt→0
1
dt
P (t < T ≤ t+ dt, T > t)
P (T > t)=
= limdt→0
1
dt
P (t < T ≤ t+ dt ∩ T > t)P (T > t)
= limdt→0
1
dt
P (t < T ≤ t+ dt)
P (T > t)=
= limdt→0
1
dt
P (T ≤ t+ dt)− P (T < t)
P (T > t)= lim
dt→0
1
dt
(1− S(t+ dt))− (1− S(t))
S(t)=
= limdt→0
1
dt
S(t+ dt)− S(t)
−S(t)=dS(t)/dt
−S(t)=
=f(t)
S(t), (1.1)
gdje je f(t) funkcija gustoce slucajne varijable T , a kako je S(t) = 1−∫ t
0
f(v)dv tada vrijedi
f(t) =−dS(t)
dt.
5
Tada funkciju rizika mozemo izraziti na sljedeci nacin
λ(t) =dS(t)/dt
−S(t)=
=−d logS(t)
dt. (1.2)
Kumulativna funkcija rizika
Integriranjem izraza (1.2) dobivamo sljedece∫ t
0
λ(v)dv = − logS(t).
Dobiveni integral oznacavamo Λ(t) i njime definiramo kumulativnu funkciju rizika, a vrijednost
kumulativne funkcije rizika za konkretan t interpretiramo kao akumulirani rizik do trenutka t.
Kako je
Λ(t) =
∫ t
0
λ(v)dv = − logS(t),
tada funkciju prezivljenja mozemo zapisati pomocu funkcije kumulativnog rizika na sljedeci
nacin:
S(t) = e−Λ(t). (1.3)
Stoga poznavanjem bilo koje od funkcija f(t), F (t), S(t), λ(t) i Λ(t) omogucava nam da izve-
demo ostale funkcije.
Kumulativna funkcija rizika ima svojstvo E[Λ(T )] = 1. Iz izraza (1.1) funkciju gustoce
mozemo zapisati kao f(t) = λ(t)S(t), gdje je S(t) = e−Λ(t), i vrijedi
E[Λ(T )] =
∫ ∞−∞
Λ(t)λ(t)e−Λ(t)dt =
=
∫ ∞−∞
ue−udu =
= 1.
Jos jedno svojstvo funkcije kumulativnog rizika mozemo pokazati na sljedeci nacin. Proma-
tramo ocekivanu vrijednost kumulativnog rizika u trenutku min (T, z), gdje je z jedan izdvojen
trenutak:
E[Λ(min (T, z))] = E[Λ(T )I(T ≤ z) + Λ(z)I(T > z)] =
= E[Λ(T )I(T ≤ z)] + Λ(z)S(z), (1.4)
jer je E[I(T > z)] = P (T > z) = S(z). Kako je
I(t ≤ z) = It≤z(t) =
1 , t ≤ z0 , t > z
,
6
tada ocekivanje s desne strane izraza (1.4) racunamo na sljedeci nacin:
E[Λ(T )I(T ≤ z)] =
∫ ∞0
Λ(t)I(t ≤ z)λ(t)e−Λ(t)dt
=
∫ z
0
Λ(t)λ(t)e−Λ(t)dt
= −[ue−u + e−u]∣∣−Λ(z)
0
= 1− S(z)[Λ(z) + 1].
Uvrstimo li dobiveni rezultat u izraz (1.4) dobivamo
E[Λ(min (T, z))] = 1− S(z)[Λ(z) + 1] + Λ(z)S(z)
= 1− S(z)
= F (z).
Iz toga slijedi dan∑i=1
Λ(min (Ti, z)) procjenjuje ocekivan broj otkazivanja u uzorku dimenzije
n prije trenutka z.
Sada promotrimo neka svojstva distribucije slucajne varijable T :
q-ti kvantil vremena prezivljenja je vrijeme do kojeg ce q-ti udio klijenata uci u default.
Oznacavamo ga s Tq i vrijednost u t mu je takva da S(t) = 1− q, za 0 < q < 1, tj.
Tq = S−1(1− q).
Centralno vrijeme prezivljenja3 je vrijeme do kojeg ce barem polovica klijenata otici u
default, a dobivamo ga iz S(t) = 0.5:
T0.5 = S−1(0.5).
Prosjecno vrijeme prezivljenja4 ili ocekivano vrijeme prezivljenja je povrsina ispod krivulje
prezivljenja za t od 0 do ∞µ = E(T ) =
∫ ∞0
S(t)dt
3engl. Median survival time4engl. Mean survival time
7
Poglavlje 2
Modeli prezivljenja
2.1. Neparametarski procjenitelji funkcije prezivljenja
Nakon prikupljanja podataka o klijentima i njihovih vremena do ulaska u default potrebno
ih je vizualizirati, obicno pomocu krivulje prezivljenja, i iz toga procijeniti prikladnu parame-
tarsku distribuciju kojom cemo dalje opisivati podatke. Neparametarske metode su najkoris-
nije u slucajevima kada niti jedna teorijska distribucija adekvatno ne opisuje nase podatke.
Postoje tri neparametarske metode koje se koriste kod opisivanja vremena do dogadaja:
1. Kaplan-Meierova metoda,
2. Nelson-Aalenova metoda,
3. Metode zivotnih tablica,
a u daljnjem tekstu reci cemo nesto vise samo o Kaplan-Meierovoj i Nelson-Aalenovoj metodi.
2.1.1. Empirijski procjenitelj
U slucaju izostanka cenzoriranih podataka neparametarski procjenitelj za S(t) definira se
promocu empirijske funkcije distribucije i to tako da Sn(t) = 1− Fn(t) predstavlja empirijsku
funkciju prezivljenja i racunamo je na sljedeci nacin:
Sn(t) =1
n
n∑i=1
I(ti > t).
2.1.2. Kaplan-Meierov procjenitelj
Kaplan-Meierov procjenitelj funkcije prezivljenja je neparametarska metoda procjene S(t)
za necenzorirane i desno cenzorirane podatke. Veoma je popularan buduci ne zahtjeva stroge
pretpostavke i pri tome koristi sve dostupne podatke.
8
Slika 2.1: Konstrukcija intervala koristenih za Kaplan-Meirovu procjenu funkcije prezivljenja
David Collett u knjizi Modelling Survival Data in Medical Research (vidi [4], str. 19) slucaj
s cenzoriranim podacima opisuje na sljedeci nacin. Pretpostavimo da su t(1) < t(2) < · · · < t(r)
redom vremena u kojima klijenti ulaze u default. Neka je s nj oznacen broj klijenata ne-
posredno prije t(j), ukljucujuci i one koji u t(j) odlaze u default, a neka dj predstavlja broj
odlazaka u default u trenutku t(j). Ukoliko se u trenutku t(j), zajedno sa slucajevima kada
klijent odlazi u default, pojavljuju i cenzorirani podaci, tada smatramo da se cenzoriranje
dogada nakon defaulta i ukljucujemo ih u nj. Pretpostavimo li da se default dogada na
kraju intervala, tada vjerojatnost da klijent u vremenskom intervalu (t(j) −∆t, t(j)) ude u
default, uz uvjet da nije bio u defaultu zakljucno s trenutkom t(j) − ∆t, tj. vjerojatnost
P (t(j) −∆t < T ≤ t(j)|T > t(j) −∆t), procjenjunjemo kvocijentomdjnj
. Stoga vjerojatnost da
klijent u trenutku t(j) ne ude u default uz uvjet da u t(j) − ∆t nije bio u defaultu, tj. vje-
rojatnost P (T > t(j)|T > t(j) − ∆t), procjenjujemo kvocijentomnj−djnj
. Promotrimo uz ovo
i interval (t(j), t(j+1) − ∆t) u kojem se ne dogada niti jedan default. Tada je vjerojatnost da
klijent u trenutku t(j+1) − ∆t ne ude u default uz uvjet da u trenutku t(j) nije bilo u defa-
ultu jednaka 0. Spojimo li ta dva intervala dobivamo novi interval (t(j) − ∆t, t(j+1) − ∆t) u
kojem vrijedi procjena P (T > t(j+1) −∆t|T > t(j) −∆t) =nj−djnj
. Ukoliko promatramo limes
kad ∆t → 0 dobivamo da prethodna procjena procjenjuje uvjetnu vjerojatnost da klijent u
trenutku t(j+1) ne ude u default pod uvjetom da u trenutku t(j) nije bilo u defaultu, tj. vjero-
jatnost P (T > t(j+1)|T > t(j)).
Za t(k) ≤ t < t(k+1), k = 1, 2, ..., r, gdje je t(0) = 0, a t(r+1) =∞, funkciju prezivljenja mozemo
raspisati
S(t) = P (T > t) = P (T > t ∩ T > t(k)) = P (T > t|T > t(k)) · P (T > t(k)) =
= P (T > t|T > t(k)) · P (T > t(k)|T > t(k−1)) · P (T > t(k−1)) =
...
= P (T > t|T > t(k)) · · ·P (T > t(1)|T > t(0)) · P (T > t(0)) =
=k∏j=1
P (T > t(j)|T > t(j−1)).
Kaplan-Meierov procjenitelj funkcije prezivljenja za t(k) ≤ t < t(k+1), k = 1, 2, ..., r, je
SKM(t) =k∏j=1
nj − djnj
.
9
Slika 2.2: Kaplan-Meirova procjena funkcije prezivljenja
Mozemo ga zapisati i kao
SKM(t) =∏
j:t(j)≤t
nj − djnj
=∏
j:t(j)≤t
(1− dj
nj
).
Delta metoda
Teorem 2.1 (Delta metoda). Pretpostavimo da je Xna∼ N (µ, σ2
n), gdje σn → 0. Neka je g
realna funkcija diferencijabilna u x = µ, s time da g′(µ) 6= 0. Tada je
g(Xn)a∼ N (g(µ), g′(µ)2σ2
n).
Kod procjene varijance Kaplan-Meierovog procjenitelja koristimo tehniku Delta metode.
Da bi ju primijenili, kao funkciju g moramo odabrati onu koju mozemo aproksimirati koristeci
Taylorov razvoj funkcije, tj. mora biti glatka funkcija. U ovom slucaju se koriste logaritamska
i eksponencijalna funkcija. Funkciju g aproksimiramo u okolini µ = E(X):
g(X) ≈ g(µ) + g′(µ)(X − µ),
Var(g(X)) ≈ Var(g(µ) + g′(µ)(X − µ)) =
= g′(µ)2 Var(X − µ) =
= g′(µ)2 Var(X).
Procjenitelj varijance Delta metodom je tada
Var(g(X)) = g′(µ)2σ2,
gdje je σ2 procjenitelj od Var(X), a µ procjenitelj od E(X).
10
Varijanca Kaplan-Meierovog procjenitelja
Procjena varijance Kaplan-Meierovog procjenitelja dana je Greenwoodovom formulom
Var(SKM(t)) = S2KM(t)
k∑j=1
djnj(nj − dj)
.
Da bi pokazali izvod Greenwoodove formule koristiti cemo Delta metodu dva puta i to na
sljedeci nacin:
log(X) ≈ log(µ) + (X − µ)1
µ,
Var(log(X)) = σ2 1
µ2, (2.1)
i
exp(X) ≈ exp(µ) + (X − µ) exp(X),
Var(exp(X)) = (exp(µ))2 σ2. (2.2)
Kaplan-Meierov procjenitelj moze biti zapisan
SKM(t) =k∏j=1
pj, k = 1, 2, ..., r,
gdje je pj =nj−djnj
procjenjena vjerojatnost da u trenutku t(j) klijent nece uci u default. Prvo
gledamo logaritam Kaplan-Meierovog procjenitelja
log SKM(t) = logk∏j=1
(nj − djnj
)=
k∑j=1
log
(nj − djnj
). (2.3)
Moze se pretpostaviti da je broj klijenata koji u trenutku t(j) ne ulaze u default modeliran
binomnom distribucijom s parametrima nj, broj klijenata neposredno prije t(j), i pj, vjero-
jatnosti da klijent u trenutku t(j) nece uci u default. Tada je promatrani broj klijenata koji
ne ulaze u default modeliran s nj − dj, a koristenjem varijance binomne slucajne varijable
dobivamo da je
Var(nj − dj) = njpj(1− pj).
Kako je pj =nj−djnj
, tada je njegova varijanca
Var
(nj − djnj
)=njpj(1− pj)
n2j
=pj(1− pj)
nj.
Sada trazimo varijancu izraza (2.3)
Var
(k∑j=1
log pj
)=
k∑j=1
Var(log pj).
11
Primjenimo li sada (2.1) dobivamo sljedece
Var(log(pj)) =pj(1− pj)
nj
1
p2j
=1− pjnj pj
=dj
nj(nj − dj)
Var(log SKM(t)) =k∑j=1
djnj(nj − dj)
.
Po drugi puta iskoristimo Delta metodu tako da iz (2.2) proizlazi
Var(SKM(t)) = Var(exp(log SKM(t)))
=(
exp(log SKM(t)))2
Var(log SKM(t))
= S2KM(t)
k∑j=1
djnj(nj − dj)
.
Standardna pogreska za procjenitelja, kod velikih uzoraka, je
se(SKM(t)) = SKM(t)
√√√√ k∑j=1
djnj(nj − dj)
.
Interval pouzdanosti za S(t) kreiramo pomocu sljedece formule:
[S(t)− zα/2 · se(SKM(t)), S(t) + zα/2 · se(SKM(t))].
2.1.3. Nelson-Aalenov procjenitelj
Alternativa Kaplan-Meierovom procjenitelju je u Nelson-Aalenovom procjenitelju koji funk-
ciju prezivljenja racuna preko procjene kumulativnog rizika. Kako se iz (1.3) vidi odnos funk-
cije kumulativnog rizika i funkcije prezivljenja, prvo se racuna procjena
Λ(t(i)) =i∑
j=1
djnj,
gdje su oznake iste kao i kod Kaplan-Meierovog procjenitelja, a zatim dolazimo do procjene
funkcije prezivljenja
SNA(t) =k∏j=1
exp
(−djnj
), k = 1, 2, ..., r.
12
2.2. Parametarski modeli prezivljenja
Primarni je cilj ovog rada promatrati odnos izmedu vjerojatnosti odlaska u default i neza-
visnih varijabli, ali za pocetak promotriti cemo neke parametarske distribucije koje modeliraju
vrijeme potrebno klijentu da ude u default, a koje ne ukljucuju nezavisne varijable. Kada
neparametarskom metodom procijenimo distribuciju podataka i nacrtamo graf procijenjene
funkcije prezivljenja, ponekada se moze uociti da ti podaci slijede neki predvidljivi uzorak. U
takvim je slucajevima, umjesto koristenja neparametarske metode, za opis trenutaka do defa-
ulta pozeljno koristiti neku parametarsku distribuciju. Prednost je u tome sto parametarski
modeli pouzdano predvidaju vrijeme do defaulta dosta nakon zavrsetka perioda iz kojeg nam
dolaze pocetni podaci. Od parametarskih distribucija najcesce su koristene eksponencijalna i
Weibullova distribucija, dok su log-normalna i gamma racunski manje prikladnije, ali su isto
cesto koristene.
Eksponencijalni model
Najprije definirajmo eksponencijalnu distribuciju.
Definicija 2.1. Za kontinuiranu slucajnu varijablu T na vjerojatnosnom prostoru (Ω,F , P )
kazemo da ima eksponencijalnu distribuciju s parametrom λ > 0, ako je njena funkcija gustoce
dana izrazom
f(t) =
λe−λt , t ≥ 00 , t < 0
,
dok je funkcija distribucije dana izrazom
F (t) =
1− e−λt , t ≥ 00 , t < 0
.
(a) funkcija gustoce (b) funkcija distribucije
Slika 2.3: Eksponencijalna distribucija
13
Eksponencijalni model je najjednostavniji model koji pretpostavlja da je rizik konstantan
kroz vrijeme, tj. implicira da je uvjetna vjerojatnost dogadaja jednaka bez obzira u kojem se
trenutku promatra dogadaj, tj. da je
λ(t) = λ. (2.4)
Da bi se doslo do ove funkcije rizika prvo racunamo funkciju prezivljenja koristeci funkciju
distribucije eksponencijalne distribucije
S(t) = 1− F (t)
= 1− 1 + exp(−λt)= exp(−λt). (2.5)
Sada se lagano dolazi i do kumulativne funkcije rizika
Λ(t) = − logS(t)
= − log exp(−λt)= λt.
Na kraju do funkcije rizika dolazimo koristeci funkciju gustoce i funkciju prezivljenja
λ(t) =f(t)
S(t)
=λ exp(−λt)exp(−λt)
= λ.
Slika 2.4: Grafovi funkcije rizika, funkcije prezivljenja i funkcije kumulativnog rizikaeksponencijalne distribucije za λ = 0.2
14
Weibullov model
Definicija 2.2. Za kontinuiranu slucajnu varijablu T na vjerojatnosnom prostoru (Ω,F , P )
kazemo da ima Weibullovu dvoparametarsku distribuciju s parametrima γ > 0 i λ > 0, ako je
njena funkcija gustoce dana izrazom
f(t) =
λγtγ−1e−λt
γ, t ≥ 0
0 , t < 0,
dok je funkcija distribucije dana izrazom
F (t) =
1− e−λtγ , t ≥ 00 , t < 0
.
(a) funkcija gustoce (b) funkcija distribucije
Slika 2.5: Weibullova distribucija
Eksponencijalni model je najjednostavniji, ali je zato ogranicen konstantnim rizikom. Veliki
broj procesa koje mozemo promatrati prirodno pretpostavlja da se rizik mijenja kroz vrijeme,
sto eksponencijalni model ne moze pratiti. Zato definiramo Weibullov model kojem je rizik
opisan funkcijom
λ(t) = λγtγ−1, (2.6)
gdje je γ parametar oblika koji definira oblik funkcije rizika,
• γ = 1 - rizik je konstantan,
• 0 < γ < 1 - rizik monotono pada kroz vrijeme,
• γ > 1 - rizik monotono raste kroz vrijeme.
15
Koristenjem dostupne funkciju distribucije Weibulove distribucije dolazimo do funkcije prezivljenja
S(t) = 1− F (t)
= 1− 1 + exp(−λtγ)= exp(−λtγ). (2.7)
Kumulativnu funkciju rizika dobivamo na sljedeci nacin
Λ(t) = − logS(t)
= − log exp(−λtγ)= λtγ.
Na kraju funkcija rizika proizlazi iz funkcije gustoce i funkcije prezivljenja
λ(t) =f(t)
S(t)
=λγtγ−1 exp(−λtγ)
exp(−λtγ)= λγtγ−1.
Slika 2.6: Grafovi funkcije rizika, funkcije prezivljenja i funkcije kumulativnog rizika Weibullovedistribucije za λ = 2 i γ = 0.7
16
2.2.1. Metoda maksimalne vjerodostojnosti
Kada se odredi model koji se koristi za opis podataka, potrebno je procijeniti nepoznate
parametre tako da distribucija prati podatke, tj. uskladiti podatke s distribucijom, a to cinimo
metodom maksimalne vjerodostojnosti.
Neka su t1, . . . , tn nezavisna opazanja kontinuirane slucajne varijable T s funkcijom gustoce
f(t; θ), gdje je θ = (θ1, θ2, ..., θk) ∈ Θ ⊆ Rk nepoznati parametar. Bez smanjenja opcenitosti
mozemo pretpostaviti da je
0 < t1 < t2 < . . . < tn.
Odgovarajuca funkcija vjerodostojnosti definira se kao
L(t; θ) =n∏i=1
f(ti; θ). (2.8)
Procjenitelj maksimalne vjerodostojnosti (ili krace ML procjenitelj) je slucajan vektor θ koji
maksimizira (2.8) na skupu svih dozvoljenih vrijednosti nepoznatog parametra θ. Buduci da
je logaritamska funkcija strogo rastuca, problem maksimizacije funkcije L(θ) ekvivalentan je
problemu maksimizacije funkcije logL(θ), pa stoga promatramo funkciju
`(t; θ) = logL(t; θ) =n∑i=1
log f(ti; θ).
Osnovna ideja za procjenu nepoznatih parametara potrebnih za procjenu funkcije rizika
je sljedeca. Neka slucajna varijabla T modelira vrijeme cekanja do ulaska klijenta u defa-
ult s funkcijama distribucije F , gustoce f i prezivljenja Sf , te neka je C slucajna varijabla
koja modelira vrijeme cenzoriranja s funkcijama distribucije G, gustoce g i prezivljenja Sg.
Svaki klijent ima vrijeme do defaulta Ti ili vrijeme cenzoriranja Ci. Za svakog od n klijenata
promatramo uredeni par (Yi, δi) gdje je
Yi = min(Ti, Ci) i δi =
1 , Ti ≤ Ci0 , Ti > Ci
.
Pretpostavljamo da su uredeni parovi (Yi, δi) nezavisno jednako distribuirani, te slucajne vari-
jable Ti i Ci medusobno nezavisne. Pod pretpostavkom nezavisnosti funkcija vjerodostojnosti
poprima jednostavan oblik, u suprotnom gubimo jednostavnost. Neka je M funkcija distribu-
cije, a Sm funkcija prezivljenja slucajne varijable Yi = min (Ti, Ci) dana izrazom
Sm(y) = P (Y > y) = P (T > y,C > y) =
= P (T > y)P (C > y) =
= Sf (y)Sg(y).
17
Funkcija distribucije slucajne varijable Y tada glasi
M(y) = 1− Sf (y)Sg(y).
Funkcija gustoce uredenog para (Yi, δi) proizlazi iz sljedeceg
P (Y = y, δ = 0) = P (C = y, C < T ) = P (C = y, y < T ) =
= P (C = y)P (y < T ) = g(y)Sf (y),
P (Y = y, δ = 1) = P (T = y, T < C) = P (T = y, y < C) =
= P (T = y)P (y < C) = f(y)Sg(y).
Kako je Y neprekidna slucajna varijabla, a δ diskretna, funkciju gustoce zapisujemo
P (Y, δ) = (f(yi)Sg(yi))δi · (g(yi)Sf (yi))
1−δi
Sada je funkcija vjerodostojnosti za n n.j.d. parova (Yi, δi) dana izrazom
L(y; θ) =n∏i=1
(f(yi)Sg(yi))δi · (g(yi)Sf (yi))
1−δi =
=
(n∏i=1
Sg(yi)δig(yi)
1−δi
)(n∏i=1
f(yi)δiSf (yi)
1−δi
).
Ukoliko distribucija slucajne varijable C ne sadrzava nikakve nama vazne parametre, tada prvi
faktor nema nikakvu ulogu u procesu maksimizacije. Stoga, funkcija vjerodostojnosti moze
biti zapisana na sljedeci nacin
L(y; θ) =n∏i=1
f(yi)δiSf (yi)
1−δi . (2.9)
Ovdje vidimo kako je cenzoriranje uklopljeno u prilagodavanje procjene. Svaka promatrana
vrijednost (yi, δi) doprinosi ili funkcijom gustoce f(yi) ili funkcijom prezivljenja Sf (yi), ovisno
o vrijednosti varijable δi, tj. je li trenutak cenzoriran ili je klijent otisao u default.
Prisjetimo se da je f(t) = λ(t)S(t), tada iz (2.9) funkciju log-vjerodostojnosti mozemo zapisati
na sljedeci nacin:
L(t; θ) =n∏i=1
f(t)δiS(t)1−δi =
=n∏i=1
(λ(t)S(t))δiS(t)1−δi =
=n∏i=1
λ(t)δiS(t),
18
logL(t; θ) =n∑i=1
δi log λ(t) +n∑i=1
logS(t), (2.10)
gdje se u konacnici dolazi do funkcije koja se maksimizira Newton-Raphsonovom metodom,
koju cemo kratko obraditi u nastavku.
Da bi u izraz (2.10) ukljucili nezavisne varijable, dani izraz zapisujemo na sljedeci nacin
logL(t, x; θ) =n∑i=1
δi log λ(t|x) +n∑i=1
logS(t|x). (2.11)
Newton-Raphson metoda
Newton-Raphsonova metoda je jedna od metoda uz pomoc koje rijesavamo nelinearnu
jednadzbu oblika∂`(β)
∂βj= 0, j = 1, . . . , p,
a kao rijesenje dobivamo aproksimirane nepoznate parametre
β(0), β(1), . . . , β(m).
(m+ 1) aproksimaciju nepoznatog parametra dobivamo sljedecom formulom:
β(m+1) = β(m) − J−1(β(m); y)∇`(β(m); y), m = 0, 1, . . . ,
gdje je β(0) vektor nepoznatih parametara, kojem sami zadajemo pocetne vrijednosti, a
∇`(β(m); y) =
[∂`(β(m); y)
∂β1
· · · ∂`(β(m); y)
∂βp
]
je gradijent funkcije log-vjerodostojnosti i
J(β(m); y) =
∂2`(β(m); y)
∂β21
· · · ∂2`(β(m); y)
∂β1∂βp...
...
∂2`(β(m); y)
∂βp∂β1
· · · ∂2`(β(m); y)
∂β2p
Hessian matrica ciji elementi su parcijalne derivacije drugog reda funkcije `(β).
19
Primjer 2.1 (Eksponencijalni model). Koristenjem metode maksimalne vjerodostojnosti (2.10),
funkcije rizika (2.4) i funkcije prezivljenja (2.5) eksponencijalnog modela procjenimo nepoznati
parametar λ. Uvrstavanjem (2.4) i (2.5) u izraz (2.10) slijedi da je
logL(t;λ) = nu log λ− λn∑i=1
ti,
gdje je nu broj necenzoriranih podataka. Oznacimo li s w sumu svih vremena otkazivanja i
cenzoriranih vremena, tj.
w =n∑i=1
ti,
dobivamo sljedece:
logL(t;λ) = nu log λ− λw.
Tada derivacijom logL(t;λ) po λ dobivamo sljedece:
∂ logL(t;λ)
∂λ=nuλ− w,
∂2 logL(t;λ)
∂λ2= −nu
λ2.
Izjednacavanjem derivacije logL(t;λ) s nulom dobivamo da je MLE za λ dan izrazom
λ =nuw.
Dakle, procjena nepoznatog parametra λ moze se interpretirati kao broj otkazivanja po osobi
kroz ukupno vrijeme promatranja. Varijancu od λ2 dobivamo uvrstavanjem MLE od λ u inverz
druge derivacije i dobivamo sljedeci rezultat:
Var λ =nuw2.
Nadalje, standardna pogreska iznosi
se(λ) =
√nuw
.
Primjer 2.2 (Weibullov model). Koristenjem metode maksimalne vjerodostojnosti (2.10),
funkcije rizika (2.6) i funkcije prezivljenja (2.7) Weibullovog modela procjenjujemo nepoznate
parametare λ i γ. Uvrstavanjem (2.6) i (2.7) u izraz (2.10) dobivamo
logL(t;λ, γ) =n∑i=1
δi log(λγtγ−1i )−
n∑i=1
λtγi =
=n∑i=1
δi(log λ+ log γ + (γ − 1) log ti)− λn∑i=1
tγi =
= nu log λ+ nu log γ + (γ − 1)n∑i=1
δi log ti − λn∑i=1
tγi .
20
Derivacijom logL(t;λ, γ) po λ i γ dobivamo:
∂ logL(t;λ, γ)
∂λ=nuλ−
n∑i=1
tγi ,
∂ logL(t;λ, γ)
∂γ=nuγ
+n∑i=1
δi log ti − λn∑i=1
tγi log ti.
Izjednacavanjem parcijalnih derivacija s nulom dobivamo MLE od λ:
λ =nu∑ni=1 t
γi
,
dok procjenitelj parametara γ ne mozemo odrediti analiticki, nego koristimo Newton-Raphsonovu
metodu za pronalazenje numerickog rjesenja, ili pretpostavimo da je γ vec poznat.
U nastavku cemo razmatrati parametarske modele u kojima su ukljucene nezavisne vari-
jable. Najpoznatiji medu njima su model proporcionalnih rizika i model ubrzanog vremena
otkazivanja. Svaki je specifican na svoj nacin, sto cemo pokazati u daljnjem tekstu.
2.2.2. Model proporcionalnih rizika (PH model)
Definicija 2.3. Neka je X = (X1, X2, . . . , Xp)′ vektor nezavisnih varijabli, x = (x1, x2, . . . , xp)
′
vrijednosti koje prima taj vektor, a β = (β1, β2, . . . , βp)′ vektor regresijskih koeficijenata. Tada
je model proporcionalnih rizika5 dan formulom
λ(t|x) = λ0(t) exp(β′x) = λ0(t) exp(β1x1 + β2x2 + . . .+ βpxp),
gdje se λ0(t) obicno naziva osnovnom funkcijom rizika i odgovara vrijednosti funkcije rizika
kada je β′x = 0.
Pripadna funkcija prezivljenja glasi
S(t|x) = S0(t)exp(β′x), (2.12)
gdje je S0(t) osnovna funkcija prezivljenja.
Za λ0(t) koristimo jednu do pripadnih parametarskih funkcija rizika, a kako ce se kasnije
pokazati, mozemo ju ostaviti i kompletno neodredenu bez smanjivanja mogucnosti procjene
nepoznatog parametra β, koristeci Coxov poluparametarski PH model. Ovisno ima li os-
novna funkcija rizika λ0(t) konstantan parametar skaliranja, β′x moze ali i ne mora sadrzavati
intercept β0. Tada bi osnovnu funkciju rizika mogli zapisati kao
λ∗0(t) = λ0(t) exp(β0),
5engl. proportional hazards - PH.
21
a kompletna funkcija rizika PH modela tada je dana izrazom
λ(t|x) = λ∗0(t) exp(β′x) = λ0(t) exp(β0 + β1x1 + β2x2 + . . .+ βpxp).
Izraz exp(β′x) nazivamo relativna funkcija rizika ili risk score funkcija i u mnogim je slucajevima
od primarnog interesa buduci opisuje efekte nezavisnih varijabli, koji po pretpostavci ne ovise
o vremenu t. Obicno je nenegativna funkcija vektora nezavisnih varijabli X, koja skalira os-
novnu funkciju rizika.
Svojstvo PH modela implicira da apsolutne razlike u x podrazumjevaju proporcionalne
razlike u riziku u svakom trenutku t. Za neki trenutak t, klijente i i j s vektorima karakteristika
x(i) i x(j) imamo
λ(t|x(i))
λ(t|x(j))= exp(β′x(i) − β′x(j)) = exp[β′(x(i) − x(j))]. (2.13)
Izraz (2.13) jos mozemo zapisati u formi ”relativnog log rizika”
log
[λ(t|x(i))
λ(t|x(j))
]= β′(x(i) − x(j)). (2.14)
Primjetimo da desna strana izraza (2.14) ne ovisi o vremenu prezivljenja, tj. rezultat propor-
cionalnih razlika u riziku je konstantan. Promotrimo li sada klijenta kojemu se mijenja samo
jedna karakteristika i to za neku vrijednost δ, tada imamo
λ(t|xk + δ)
λ(t|xk)= exp[βk((xk + δ)− xk)] = exp(βkδ).
U slucaju kada je δ = 1, tj. kada se karakteristika mijenja samo za jednu jedinicu, dobivamo
jednostavniji izrazλ(t|xk + 1)
λ(t|xk)= exp(βk).
Izraz na desnoj strani poznat je jos pod nazivom omjer rizika, a dobivene rezultate interpre-
tiramo na sljedeci nacin:
• promjena jedne nezavisne varijable za δ utjece na promjenu funkcije rizika za faktor
exp(βkδ), uz ostale nepromijenjene uvjete,
• u slucaju δ = 1 funkcija rizika se mjenja za faktor exp(βk), uz ostale nepromijenjene
uvjete.
22
2.2.3. Model ubrzanog vremena otkazivanja (AFT model)
Iako je parametarski PH model uvelike primjenjiv u analiziranju podataka o prezivljenju,
malo je distribucija koje se koriste u ovom modelu. Zato kao alternativa postoji model ubrza-
nog vremena otkazivanja6. Pod AFT modelima mjerimo direktne ucinke nezavisnih varijabli
na vrijeme prezivljenja umjesto na rizik, kao sto smo radili u PH modelu. Ova karakteristika
dozvoljava nam laksu interpretaciju rezultata zbog toga sto parametri mjere ucinak referentnih
varijabli na ocekivano vrijeme prezivljenja.
Definicija 2.4. Neka je X = (X1, X2, . . . , Xp)′ vektor nezavisnih varijabli, x = (x1, x2, . . . , xp)
′
vrijednosti koje prima taj vektor, a α = (α1, α2, . . . , αp)′ vektor regresijskih koeficijenata. Mo-
del ubrzanog vremena otkazivanja dan je izrazom
λ(t|x) = η(x)λ0 (t · η(x)) ,
gdje λ0(t) oznacava osnovnu funkciju rizika i odgovara vrijednosti funkcije rizika kada je
β′x = 0, a η(x) je faktor ubrzanja dan formulom
η(x) = exp(−α1x1 − α2x2 − . . .− αpxp).
Pripadna funkcija prezivljenja glasi
S(t|x) = S0 (t · η(x)) ,
gdje je S0(t) osnovna funkcija prezivljenja.
Odgovarajuce log-linearna forma AFT modela s obzirom na vrijeme dana je s
log T = µ+ α1x1 + α2x2 + . . .+ αpxp + σε, (2.15)
gdje je µ intercept, σ parametar skaliranja i ε je slucajna pogreska. Ovu formu mozemo
zapisati i na sljedeci nacin
log(T · η(x)) = µ+ σε.
Faktor ubrzanja η(x), koji je po pretpostavci konstantan kroz vrijeme, na T djeluje na sljedece
nacine
• η(x) > 1: djeluje tako da ubrza protok vremena, te je vrijeme prezivljenja skraceno,
• η(x) < 1: djeluje tako da uspori protok vremena, te je vrijeme prezivljenja produljeno.
6engl. accelerated failure time - AFT.
23
Funkciju prezivljenja za T mozemo izraziti preko funkcije distribucije od ε
S(t) = P (T ≥ t) =
= P (log T ≥ log t) =
= P (µ+ α′x+ σε ≥ log t) =
= P
(ε ≥ log t− µ− α′x
σ
)=
= 1− Fε(
log t− µ− α′xσ
)=
= Sε
(log t− µ− α′x
σ
). (2.16)
Derivacijom izraza (2.15) dolazimo do regresijskog koeficijenta ovog modela
αk =∂ log T
∂xk.
Sada iz izraza (2.15) dolazimo do sljedeceg:
T = exp(α′x) exp(µ+ σε).
Iz ovoga se vidi da jedinicna promjena nezavisne varijable u AFT modelu utjece na eksponen-
cionalnu promjenu vremena prezivljenja. Usporedujuci dva klijenta koji se razlikuju samo u
k-toj osobini, gdje cemo sa δ oznaciti tu razliku, dolazimo do sljedeceg rezultata
TjTi
= exp[αk((xk + δ)− xk)] = exp(αkδ),
gdje izraz na desnoj strani nazivamo vremenski omjer. Stavimo li δ = 1, uz sve ostale nepro-
mjenjene uvjete dolazimo do zakljucka da je
TjTi
= exp(αk),
tj. jedinicna promjena nezavisne varijable, uz ostale nepromjenjene uvjete, mijenja vrijeme
prezivljenja za faktor exp(αk).
24
Odnos izmedu PH i AFT modela na primjeru Weibullove distribucije
Pretpostavimo da vrijeme prezivljenja T ima Weibullovu distribuciju s parametrima λ, γ > 0,
te neka su funkcija prezivljenja i funkcija rizika dane izrazima (2.6) i (2.7).
PH model
Pod Weibullovim PH modelom, funkcija rizika s ukljucenim nezavisnim varijablama dana
je izrazom
λ(t|x) = λγtγ−1 exp(β′x).
Vidimo da vrijeme prezivljenja ove osobe ima Weibullovu distribuciju s parametrom skalira-
nja λ exp(β′x) i parametrom oblika γ. Stoga Weibullova familija s fiksnim γ ima svojstvo PH
modela. Ovo pokazuje da ucinci nezavisnih varijabli u modelu mijenjaju parametar skaliranja
u distribuciji, dok parametar oblika ostaje konstantan.
Koristenjem izraza (2.12) i osnovne funkcije prezivljenja (2.7) dolazimo do odgovarajuce funk-
cije prezivljenja Weibullovog PH modela
S(t|x) = exp−λtγ exp(β′x). (2.17)
AFT model
Funkciju rizika Weibullovog AFT modela mozemo zapisati koristeci izraz (2.4) i funkciju
rizika (2.6) osnovnog Weibullovog modela
λ(t|x) = η(x)λ0 (t · η(x)) =
= η(x)λγ (t · η(x))γ−1 =
= λγtγ−1 exp (−γα′x) . (2.18)
Ako T ima Weibullovu distribuciju, tada ε ima distribuciju ekstremne vrijednosti (Gumbel
distribuciju)7. Funkcija prezivljenja Gumbel distribucije dana je izrazom
Sε(ε) = e−eε.
Iz jednadzbe (2.16) dan je AFT prikaz funkcije prezivljenja Weibullovog modela
S(t|x) = exp
[− exp
(log t− µ− α′x
σ
)]=
= exp
[−t
1σ exp
(−µ− α′x
σ
)]. (2.19)
7vidi [4], str. 210
25
Usporedujuci formule (2.19) i (2.17), intuitivno dolazimo do zakljucka da parametre λ, γ, βj u
PH modelu mozemo prikazati pomocu parametara µ, σ, αj iz AFT modela
λ = exp(−µσ
),
γ =1
σ, (2.20)
βj =−αjσ
.
Sada koristeci (2.20) i izraz (2.18) mozemo zapisati funkcije rizika Weibullovog AFT modela
λ(t) =1
σt1σ−1 exp
(−µ− α′x
σ
).
2.3. Poluparametarski Coxov PH model
Prisjetimo se funkcije rizika parametarskog PH modela
λ(t|x) = λ0(t) exp(β′x) = λ0(t) exp(β1x1 + β2x2 + . . .+ βpxp).
Poluparametarski PH model, jos poznat kao Coxov8 regresijski model, za razliku od para-
metarskog PH modela ne zahtjeva nikakvu pretpostavku o parametarskoj formi λ0(t), ali
pretpostavlja parametarsku formu za ucinak nezavisnih varijabli na rizik, tj. exp(β′x). Koefi-
cijente β u parametarskom PH modelu procjenjujemo metodom maksimalne vjerodostojnosti,
dok kod Coxovog PH modela koristimo funkciju parcijalne vjerodostojnosti. Osim navedenih
razlika, ova dva modela su u svemu ostalom identicna.
2.3.1. Metoda parcijalne vjerodostojnosti
Neka su t1, t2, . . . , tr promatrana vremena prezivljenja za r osoba, te neka je Rj skup
klijenata koji neposredno prije trenutka t(j) nisu u defaultu. Uvjetna vjerojatnost da j-ti
klijent, s vektorom vrijednosti nezavisnih varijabli x(j), u trenutku t(j) ulazi u default s obzirom
da jedan klijent iz skupa Rj u trenutku t(j) odlazi u default dana je sljedecim izrazom
8Sir David Roxbee Cox (1924. god.) - Britanski statisticar bogate biografije, najpoznatiji po razvitkumodela proporcionalnih rizika. Osvojio zlatnu medalju za istrazivanje raka za razvitak regresijskog modelaproporcionalnih rizika.
26
P (osoba j odlazi u default u t(j) | jedna osoba iz Rj odlazi u default u t(j)) =
=P (osoba j odlazi u default u t(j))∑
l∈Rj
P (osoba k odlazi u default u t(j))=
=lim
∆t→0P (osoba j odlazi u default u (t(j), t(j) + ∆t))/∆t
lim∆t→0
∑l∈Rj
P (osoba l odlazi u default u (t(j), t(j) + ∆t))/∆t=
=λj(t(j))∑
l∈Rj
λl(t(j))=
λ0(t(j)) exp(β′x(j))∑l∈Rj
λ0(t(j)) exp(β′x(l))=
=exp(β′x(j))∑
l∈Rj
exp(β′x(l)).
Tada je funkcija parcijalne vjerodostojnosti za Coxov PH model dana formulom
LP (t, x; β) =r∏j=1
exp(β′x(j))∑l∈Rj
exp(β′x(l)).
Treba napomenuti da se dobivena funkcija vjerodostojnosti odnosi samo na necenzorirane
podatke i podatke koji nisu vezani9. U slucaju cenzoriranih podataka uvodimo indikator
cenzoriranja δj, gdje nula oznacava trenutak cenzoriranja, tada funkcija vjerodostojnosti moze
biti izrazena kao
LP (t, x; β) =r∏j=1
exp(β′x(j))∑l∈Rj
exp(β′x(l))
δj
. (2.21)
Dok u slucaju vezanih podataka, zbog cinjenice da u trenutku t(j) vise klijenata odlazi u default
i toga sto ne mozemo odrediti redoslijed odlazaka u default, dolazi do problema odredivanja
tocne vrijednosti funkcije parcijalne vjerodostojnosti, te je potrebno odrediti njenu pribliznu
vrijednost. Breslow je predlozio aproksimaciju
LP (t, x; β) =r∏j=1
∏l∈Dj
exp(β′x(l))
∑l∈Rj
exp(β′x(l))
dj,
9Vezani podaci - nazivamo one koji imaju isto vrijeme ulaska u default
27
gdje je Dj skup od dj klijenata koji ulaze u default u trenutku t(j). Logika ove metode je takva
da posto ne mozemo odrediti redoslijed odlazaka u default u trenutku t(j) pretpostavimo da je
skup Rj iste velicine bez obzira koji klijent prvi ulazi u default. Drugim rijecima, grupiramo
sve vezane podatke, tako da u brojnik ukljucujemo sve klijente koji odlaze u default u trenutku
t(j), a nazivnik modificiramo tako da ukljucuje sve moguce kombinacije odlazaka u default.
Alternativnu aproksimaciju dao je Efron sljedecim izrazom:
LP (t, x; β) =r∏j=1
∏l∈Dj
exp(β′x(l))
dj∏k=1
∑l∈Rj
exp(β′x(l))−k − 1
dj
∑l∈Dj
exp(β′x(l))
.
Efronova metoda uzima u obzir kako se skupRj mijenja ovisno o redoslijedu vezanih podataka.
Takvim nacinom postignuto je da je Efronova metoda uvelike tocnija nego li je to Breslowljeva
metoda.
2.3.2. Procjena osnovne funkcije rizika i osnovne funkije prezivljenja
Procjenu osnovne funkcije prezivljenja izveli su Kalbfleisch i Prentice (vidi [8], str. 114) ko-
risteci metodu maksimalne vjerodostojnosti. Osnovna ideja ovog pristupa proizlazi iz Kaplan-
Meierovog procjenitelja za funkciju prezivljenja
SKM(t) =k∏j=1
nj − djnj
, k = 1, 2, ..., r,
gdje je nj broj klijenata, dj broj onih koji ulaze u default, a promatramo u trenucima
t(1) < t(2) < · · · < t(r). Neka je pj =nj−djnj
procjenitelj vjerojatnosti da klijent u trenutku
t(j) nece uci u default. Tada osnovnu funkciju rizika procjenjujemo s
λ0(t(j)) = 1− pj.
Kako bi dosli do vjerojatnosti koja je procjenjena s pj, gledamo rastav funkcije prezivljenja
na produkt vjerojatnosti da u promatranim trenucima klijent ne ude u default
S(t(j)) =k∏j=1
pj = pjS(t(j−1)).
Tada traznu vjerojatnost mozemo zapisati
pj =S(t(j))
S(t(j−1)),
28
ili u terminu modela proporcionalnih rizika
pj =S0(t(j))
S0(t(j−1)),
Sada ovu vjerojatnost mozemo zapisati kao
S(t(j))
S(t(j−1))=
S0(t(j))exp(β′x)
S0(t(j−1))exp(β′x)=
(S0(t(j))
S0(t(j−1))
)exp(β′x)
= pexp(β′x)j .
Procijenjene vrijednosti koeficijenata β koji cine vektor β, dobivamo maksimizirajuci izraz
(2.21). Sada procjenitelja vjerojatnosti da klijent u trenutku t(j) ne ude u default dobivamo
rjesavajuci sljedecu jednadzbu
∑l∈Dj
exp(β′x(l))
1− pexp(β′x(l))
j
=∑l∈Rj
exp(β′x(l)) (2.22)
gdje je Rj skup svih klijenata koji u trenutku t(j) nisu usli u default, a Dj predstavlja skup
od dj klijenata koji u trenutku t(j) ulaze u default.
Ukoliko nema vezanih podataka, skup Dj sadrzi samo jednog klijenta i rjesenje izraza (2.22)
zapisujemo
pj =
1−exp(β′x(j))∑
l∈Rj
exp(β′x(l))
− exp(β′x(j))
,
dok kod vezanih podataka rjesenje dobivamo iterativnom metodom. Na kraju osnovnu funkciju
prezivljenja zapisujemo
S0(t) =k∏j=1
1−exp(β′x(j))∑
l∈Rj
exp(β′x(l))
− exp(β′x(j))
.
29
Poglavlje 3
Analiza prezivljenja u modeliranjubihevioralnog skoringa
3.1. Prethodna istrazivanja
Banasik, Crook i Thomas (vidi [2]) u svojem radu koristeci podatke znacajne financij-
ske ustanove iz Velike Britanije usporeduju modele analize prezivljenja s modelom linearne
regresije. Uzorak se sastoji od 50000 prihvacenih zajmova i promatrani su u razdoblju od
lipnja 1994. do ozujka 1997. Kao varijable koristene su pocetne karakteristike zajmotrazitelja,
kao primjerice dob, bracni status, zaposlenje, prebivaliste, te specificne informacije o kre-
ditu, kao svrha i trajanje kredita. Provjeravali su mogucnost predikcije ranije otplate kredita,
kao i trenutak odlaska u default, a za to su kreirali modele logisticke regresije, Coxov PH
model, te eksponencijalni i Weibullov model. Pokazalo se da je model proporcionalnih ri-
zika konkurentan pristupu logisticke regresije u identificiranju klijenata koji odlaze u default
u prvoj godini i da je bolji u predvidanju ranije otplate u prvoj godini. Noh, Roh i Han
(vidi [14]) usporeduju efikasnost neuronskih mreza, metode linearne regresije i metode analize
prezivljenja. Koristili su podatke korisnika kreditnih kartica iz Koreje, a podaci se sastoje od
povijesti koristenja kartica kroz 13 mjeseci, kao i neke demografske informacije. Kao model
analize prezivljenja su koristili model ubrzanog vremena otkazivanja koji je koristio vise vari-
jabli nego ih je bilo u modelu logisticke regresije. U radu su dosli do zakljucka da je model
analize prezivljenja bolje predvidao lose klijente, dok su neuronske mreze i model logisticke
regresije bili bolji u predvidanju dobrih klijenata. Jos kao pozitivnu stranu modela analize
prezivljenja navode da za razliku od logisticke regresije i neuronskih mreza, model analize
prezivljenja predvida i trenutak ulaska klijenta u default. Stepanova i Thomas (vidi [17]) u
svojem radu usporeduju model analize prezivljenja s modelom logisticke regresije. Predlazu
tri poboljsanja analize prezivljenja. Prvo je gruba klasifikacija, tj. segmentiranje, koristenjem
tehnika analize prezivljenja. Drugo je koristenje dijagnostike radi provjere adekvatnosti kre-
ditnog rizika. I trece, koristenje vremenski ovisne varijeble radi povecanja ili smanjenja efekta
30
varijabli na predikciju, te za prevladavanje restrikcija modela proporcionalnih rizika. Koriste
informacije iz glavne Britanske financijske ustanove, a uzorak se sastoji od 50000 odobrenih
kredita. Varijable su uglavnom karakteristike iz kreditne aplikacije, a statusna varijabla pro-
matra je li klijent otisao u default, otplatio kredit na vrijeme, otplatio ranije ili je kredit jos
aktivan. Iz rezultata vidljivo je da model analize prezivljenja gubi na snazi u drugoj godini,
ali u slucaju segmentiranih podataka bolji je nego model logisticke regresije. Stepanova i
Thomas (vidi [16]) kreiraju skoring model na osnovi analze prezivljena i njegove performanse
usporeduju s modelom logisticke regresije. Proces kreiranja modela sadrzi fazu kreiranja i
fazu dijagnostike. U prvoj fazi kreira se model koristeci Coxov model proporcionalnih rizika i
informacije iz kreditne aplikacije, dok se u drugom koraku kreiraju modeli za svaki mjesec do
klijentovog defaulta. Aplikacijski skor iz prvog koraka i bihevioralne varijable se koriste kao
prediktori, dok je zavisna varijabla preostalo vrijeme do defaulta. Podaci dolaze iz anonimne
financijske ustanove iz Velike Britanije i sadrzavaju 11500 aplikacija sa svim njenim karakteris-
tikama i naknadnim varijablama performansi za period od 36 mjeseci. Kreiraju se 3 varijable:
ocekivana bilanca, razlika bilance i razlika razlike bilance koji su indikatori zaostaje li klijent u
placanju kredita ili ga je preplatio. Zakljucak je da su bihevioralne varijable u pocetku vazne,
dok u kasnijim fazama aplikacijske varijable postaju prediktivnije. Usporedujuci rezultate vid-
ljivo je da model proporcionalnih rizika u drugoj godini premasuje predikciju modela logisticke
regresije. Malik i Thomas (vidi [12]) u svojem radu kreiraju Coxov model proporcionalnih ri-
zika u koji ukljucuju bihevioralni skor i makroekonomske faktore, koji ce na kraju predvidati
default klijenata u sljedecih 12 mjeseci. Podaci su iz jedne glavne Britanske banke za period
od 5 godina, a sadrzavaju bihevioralni skor klijenta s njihovim informacijama o vremenu do
defaulta ili cenzoriranja i status defaulta ili cenzoriranja. Oni ne predvidaju buduci bihevi-
oralni skor klijenta nego smatraju da dostupni skor predstavlja najbolju procjenu buduceg
rizika od defaulta. Glavni zakljucak njihova rada je taj da makroekonomski faktori i vrijeme
pocetka kredita znacajno poboljsavaju predikciju defaulta, ali nemaju nekog velikog ucinka
na diskriminatornu sposobnost modela. Andreeva (vidi [1]) u svom radu promatra primjenu
analize prezivljenja na revolving kredite, te istrazuje familije distribucija modela ubrzanog
vremena otkazivanja koji do sada nisu bili obradivani. Usporeduje prediktivnu sposobnost
modela logisticke regresije, parametarskih modela prezivljenja i Coxovog poluparametarskog
modela. Podaci su dobiveni od internacionalne konzultantske kompanije za kreditni skoring
i sadrzava podatke za Belgiju, Njemacku i Nizozemsku. Za svaku zemlju je kreiran genericki
model i promatrani njihova prediktivna sposobnost. Da se ne bi morao praviti model za svaku
zemlju posebno razmatrana je opcija da se napravi jedan model koji ce zadovoljavati sve uvi-
jete i biti iskoristiv u svim zemljama, a to je moguce koristenjem stratifikacije na Coxovom
modelu proporcionalnih rizika. Kao i u prijasnjim istrazivanjima zakljuceno je da model ana-
lize prezivljenja ne zaostaje za modelom logisticke regresije u predikciji defaulta. McDonald,
Matuszyk i Thomas (vidi [13]) opisuju kreiranje i implementaciju modela odredivanja cijena za
31
hipotekarne kredite preko analize prezivljenja, koristenjem modela proporcionalnih rizika. On
omogucuje ukljucivanje klijentovih i specificnih kreditnih atributa, kao npr. LTV - pokrivenost
hipotekarnog kredita procijenjenom trzisnom vrijednoscu nekretnine, i vremenski varirajucih
makroekonomskih faktora kao cijene kuca i osnovne kamatne stope. Zajmodavac tada kreira
portfolio, odreduje jedan ili vise ekonomskih scenarija i predvida diskontirani mjesecni pro-
tok novca kroz cijelo vrijeme trajanja kredita. Simulacija se tada moze iskoristiti za izracun
moguceg defaulta ili ranijeg otplacivanja kredita. Zakljuceno je da ovakav pristup pruza ko-
risne informaciju zajmodavcu i da je pomogao u donosenju odluka za odredivanje vrijednosti
hipotekarnog kredita. Bellotti i Crook (vidi [3]) testiraju hipotezu da vjerojatnost defaulta
ovisi o generalnim ekonomskim uvjetima, koji se mjere makroekonosmkim varijablama kao sto
su kamatna stopa, indeks nezaposlenosti, cijena kuca itd. Podaci dolaze iz Britanske kreditne
ustanove i sadrzi 100000 racuna s aplikacijskim varijablama. Usporedivali su model logisticke
regresije i Coxov model proporcionalnih rizika s ukljucenim makroekonomskim varijablama i
bez njih, radi ispitivanja utjecaja makroekonomskih varijabli na sposobnost predikcije. Za-
kljucak je njihovog rada da je analiza prezivljenja konkurentna s modelom logisticke regresije,
te da ukljucivanje makroekonomskih varijabli znacajno poboljsava prediktivnu sposobnost
modela.
3.2. Kreditni skoring
Poslovne se banke najcesce definiraju prema karakteristicnim aktivnostima kao institucije
koje primaju novcane depozite od najsire javnosti, istodobno odobravaju kredite i obavljaju
placanja. Kreiranje obveza primanjem novcanih depozita i sekundarna emisija novca odobrava-
njem kredita njihova je najvaznija posebna karakteristika koja predstavlja liniju razgranicenja
izmedu banaka i svih drugih financijskih institucija. Depozitno je poslovanje njihova posebna
povlastica, ali odobravanje kredita to nije, jer kredite smiju odobravati i sve druge financijske
institucije pa i poslovna poduzeca. Unatoc tome, banke su i kreditna poduzeca jer kredite
odobravaju stalno, a ne povremeno, cine to profesionalno i simultano s primanjem depozita.
Da bi imala status banke pravna osoba, tehnicki gledajuci, mora obavljati i depozitne i kre-
ditne poslove.
Odobravanje kredita, za razliku primjerice od ulaganja u vrijednosne papire, uvijek pred-
stavlja dvostrani, personalizirani odnos izmedu banke i kreditnog duznika, zahtijeva visokos-
trucna znanja, slozene ekspertize i stalno pracenje kredita. Krediti nose najvise prihoda, ali i
najvise rizika. Propadanja banaka najcesce su povezana s losim kreditnim politikama i losim
kreditnim portfeljem. Zbog takve vaznosti kredita upravljanje se bankama cesto pojednostav-
ljuje i definira kao vjestina ”komponiranja” aktive ili kao sposobnost strukturiranja zdravog
kreditnog portfelja banke.
32
Kredit se moze definirati kao duznicko-vjerovnicki odnos koji nastaje temeljem povjerenja
izmedu osobe koja posuduje neka sredstva (vjerovnik, kreditor) i osobe koja prima ta sredstva
uz obvezu vracanja (duznik, debitor) i druge kreditne uvjete.
Kreditni rizik mozemo definirati na sljedece nacine10:
• posljedica ugovorene i/ili moguce transakcije izmedu davatelja i uzimatelja sredstava
odnosno varijacija mogucih povrata koji bi se mogli zaraditi na financijskoj transakciji
zbog zakasnjelog ili nepotpunog placanja glavnice i/ili kamata,
• vjerojatnost da ce duznik nece platiti/otplatiti dug,
• vjerojatnost da ce klijent koji je dobio kredit otici u default.
Default se kod nas prevodi kao status neispunjavanja obveza, a otici u default smatramo od-
lazak u status neispunjavanja obveza. Prema Odluci o adekvatnosti kapitala koju je propisala
HNB11, status neispunjavanja obveza druge ugovorne strane nastaje kada je ispunjen bilo koji
ili oba sljedeca uvjeta:
(a) kreditna institucija smatra vjerojatnim da druga ugovorna strana nece u cijelosti otplatiti
svoje kreditne obveze, ne uzimajuci u obzir mogucnost naplate iz realizacije instrumenata
osiguranja (ukoliko postoje),
(b) druga ugovorna strana kasni vise od 90 dana po bilo kojoj materijalno znacajnoj kredit-
noj obvezi.
Financijske i kreditne institucije upotrebljavaju razlicite alate i sustave kojima se sluze radi
donosenja odluka o tome odobriti kredit ili ne. Iz perspektive upravljanja rizicima, najvazniji
alat je postao kredit skoring kao statisticki izveden alat za donosenje odluka koji obuhvaca
skor-karticu i skup statistickih pokazatelja. Predvidanje kreditne sposobnosti zajmotrazitelja
je od izuzetnog znacaja za svakog kreditora. Naime, odobravanje kredita zajmotrazitelju koji
ce kasniti u placanju ili koji uopce nece u cjelosti vratiti kredit rezultira gubicima za kreditora
dok, s druge strane, odbijanje zajmotrazitelja koji je potencijalno dobar rezultira manjom
zaradom za kreditora12.
Kreditni skoring je sistem dodjeljivanja bodova zajmotrazitelju ciji zbroj predstavlja nu-
mericku vrijednost koja pokazuje koliko je vjerojatno da zajmotrazitelj kasni u otplati kredita.
Kredit skoring sistem dodjeljuje jednu kvantitativnu mjeru, nazvanu skor, potencijalnom komi-
tentu predstavljajuci buduce ponasanje u otplati dodjeljenog kredita. Analiticari koji razvijaju
skoring sisteme identificiraju one karakteristike komitenata koje najbolje predvidaju otplatu
kredita. Statistickim procedurama dodjeljuju svakoj karakteristici numericku vrijednost tako
da skoring sistem mjeri relativnu vaznost dane karakteristike u predvidanju otplate12.
10preuzeto iz [18]11Odluka o adekvatnosti kapitala kreditnih institucija, Zagreb, lipanj 2012.; dostupno na www.hnb.hr12preuzeto iz [19]
33
Glavni razlozi upotrebe kredit skoringa13:
1. Smanjiti losa zaduzenja.
2. Poboljsati operativnu efikasnost.
3. Osigurati bolju kontrolu kreditnog portfelja putem nadgledanja skoring procesa i karak-
teristika portfelja.
Naime, scoring modeli se mogu podijeliti u dva tipa:
(i) aplikativni scoring koji se odnosi na nove klijente,
(ii) bihevioralni scoring koji se odnosi na racune postojecih klijenata.
Bihevioralni scoring modeli se koriste za donosenje odluka vezanih uz otvorene racune kli-
jenata. Bazirani su na dinamickoj komponenti racuna, a odluke se odnose na upravljanje
racunima, politiku naplate potrazivanja, odredivanje limita, zadrzavanje te zatvaranje racuna
postojecih klijenata i dr. Odabir karakteristika koristenih u razvoju modela zavisi o tipu
kredita, kolicini kredita te namjeni kredita. Kada se radi o aplikativnim scoring modelima,
karakteristike koje se koriste su sljedece: vrijeme provedeno na postojecoj adresi stanovanja,
stambeni status, posjedovanje telefona, godisnji prihod, posjedovanje kreditnih kartica, tip
bankovnog racuna, dob, zanimanje, namjena kredita, bracni status, trajanje racuna u banci,
stabilnost zaposlenja, podaci kreditnog biroa, mjesecne obveze, mjesecni prihodi, broj osoba
u domacinstvu itd. Bihevioralni scoring modeli pored navedenih podataka ukljucuju jos i
podatke ponasanja. Tipicne karakteristike koristene u bihevioralnim modelima, pored nave-
denih, su: povijest neplacanja, povijest koristenja racuna, povijest placanja racuna, naplata
racuna, transakcije vezane uz revolving kredite, podaci iz kreditnih biroa.
3.3. Kreiranje kredit skoring modela
Podaci
Izgradnja bihevioralnog skoring modela u ovom diplomskom radu izvedena je na podacima
jedne banke u Hrvatskoj prikupljanih od 01.01.2009. do 30.06.2009. Uzorak sadrzi 1507
klijenata, ali posto su u podacima bili i oni koji su otisli u default prije pocetka promatranja,
tj. uzorak je sadrzao i one lijevo cenzorirane, njihovim uklanjanjem dolazimo do brojke od
1318 klijenata, od kojih je 736 dobrih, a 582 losa klijenta. U nasem uzorku kao loseg klijenta
smatramo onog koji kasni s placanjem rate kredita vise od 90 dana, dok su dobri svi oni koji do
30.6.2009. nisu usli u default, tj. redovno placaju svoje obveze. Varijable za svakog klijenta
prikazuju njegovo stanje i transakcije putem tekuceg racuna, a sveukupan broj varijabli je
154. Neke od varijabli su: broj transakcija, uplata gotovine, osobni dohodak, kamate u korist
13preuzeto iz [19]
34
klijenta, uplate i isplate internet bankarstva, interne bezgotovinske uplate i isplate na ili sa
racuna, transakcije sa ziro na tekuci racun, ostale uplate, naknada za iskoristen okvirni kredit,
placanje tranih naloga, dugovanja po kreditnim karticama, razne naknade, podizanje gotovine
i placanje karticama, dani u dozvoljenom ili nedozvoljenom prekoracenju, koliko je puta ulazio
u nedozvoljeno prekoracenje, bio u dozvoljenom ili nedozvoljenom prekoracenju, bio u plusu.
Izgradnja skoring modela
Modeliranje skoring modela obavljeno je programskim paketom R, a kreirani su sljedeci
modeli: parametarski eksponencijalni i Weibullov PH model i poluparametarski Coxov PH
model. Kako su karakteristike svih klijenata u nasem uzorku odredene s 154 varijable, potrebno
je odrediti one koje imaju najveci utjecaj na zavisne varijable, a to su vrijeme prezivljenja i
status. Da bi odredili koja karakteristika bolje diskriminira dobre od losih klijenata koristimo
Pearsonov korelacijski koeficijent, tako da gledamo ujecaj kontinuiranih varijabli na varijablu
time, tj. na proteklo vrijeme do ulaska u default, te za utjecaj kategorijalnih varijabli koristimo
Spearmanov koeficijent korelacije i gledamo njihov odnos na varijablu status, tj. na varijablu
koja oznacava dobre i lose klijente (Tablica 3.1).
Kontinuirane varijable r Kontinuirane varijable r
p01sum 0.2491329 ukupneisplateavg 0.2213158
k01sum 0.1742120 stanjeomjersum 0.1109688
k10sum -0.3323261 okvirsaldomax 0.1057174
isplatagotovinesum 0.1622247 ukupneisplatep1 0.1867116
naknadesum -0.1048651 prekokontinup1 -0.2600692
gotovinabankomatsum 0.1643193 prekodanap1 -0.3325098
v313min 0.1801166 odzadnjegp1 0.4515629
z12sum -0.3049184 kolikodop1 0.3119773
iskdozvmin 0.3410618 kolikoputa -0.3763071
okvirmin 0.2609508 Kategorijalne varijable ρ
iskokviravg 0.3417954 biounedozvoljenom 0.3905080
prekokolikosum -0.2924138 bioudozvoljenom 0.2389439
saldomax 0.1106097 biouplusu -0.4051595
ukupneuplatesum 0.1902010 sokvsavg -0.4428060
Tablica 3.1: Kontinuirane i kategorijalne varijable s pripadnim koeficijentima korelacije r i ρ
35
Modele kreiramo i kasnije validiramo na kompletnom uzorku od 1318 klijenata. Od 27
varijabli s najvecim korelacijskim koeficijentom treba se odrediti one koji ce najbolje diskri-
minirati dobre od losih klijenata i koji ce na kraju uci u nas model. Do tih varijabli dolazimo
kombiniranim koristenjem backward stepwise eliminacije i iskljucivanjem varijabli za koje smo
dobili koeficijente koji nam nisu logicni, npr. da smanjenje place uvjetuje smanjenju rizika od
defaulta.
”Backward stepwise elimination” - postupak regresije korak po korak pri cemu se, do
dobivanja ”najboljeg” regresijskog modela, iz modela sukcesivno izbacuju nezavisne varijable
na svakom koraku regresije. Kriterij za eliminaciju varijable iz modela odreden je pomocu
AIC14 vrijednosti tako da se u svakom koraku eliminira ona varijabla za koju je AIC vri-
jednost najmanja, a zaustavlja se kada se prilikom eliminacije varijable AIC vrijednost ne
smanjuje. Ovaj iterativni pristup odbacuje varijable koje neznatno doprinose ili ne doprinose
predvidanju modela i efikasan je kada se radi s velikim brojem varijabli.
Varijable β eβ Wald p
p01sum -0.00003192979 0.999968071 < 0.001k01sum -0.5156148 0.597133364 < 0.001naknadesum 0.003404404 1.003410206 < 0.001v313min -0.01528840 0.984827874 < 0.001stanjeomjersum -0.0002483994 0.999751631 0.001odzadnjegp1 -0.006429900 0.993590728 < 0.001kolikoputa 0.03756552 1.038280023 0.002bioudozvoljenom 1.046972 2.849011238 0.087biouplusu -0.3187504 0.727057 0.001log(scale) 6.683774 799.3300985 < 0.001log(shape) -0.1032535 0.901898313 0.005
Tablica 3.2: Vrijednosti koeficijenata za svaku varijablu modela i njihove p vrijednosti
Podaci u tablici 3.2 prikazuju nam koeficijente Weibullovog PH modela za kojeg ce se kas-
nije pokazati da je najbolji od svih dobivenih modela analize prezivljenja.
Izgled modela:
λ(t) = 799.330 · 0.902 · t−0.098 · exp(−0.00003192979 · p01sum− 0.5156148 · k01sum)·· exp(0.003404404 · naknadesum− 0.01528840 · v313min− 0.0002483994 · stanjeomjersum)·· exp(−0.006429900 · odzadnjegp1 + 0.03756552 · kolikoputa + 1.046972 · bioudozvoljenom)·· exp(−0.3187504 · biouplusu).
14Akaike informacijski kriterij je mjera relativne kvalitete modela. Racuna se: AIC = 2k − 2 log L, gdje jek broj parametara.
36
Nakon dobivenih varijabli koje ukljucujemo u sam model i njihovih pripadnih koeficijenata
dobro bi bilo da se pogleda i njihova interpretacija:
p01sum - predstavlja osobni dohodak ili mirovinu, tj. sumu osobnih dohodaka ili mirovina
kroz promatrani period od 6 mjeseci, u pravilu bi trebalo biti sto veca vrijednost. Po dobive-
nim koeficijentima vidimo da se za svaku dodatnu jedinicu osobnog dohotka ili mirovine rizik
od odlaska u default smanjuje, tj. funkcija rizika se mijenja za faktor 0.999968071.
k01sum - oznacava kamate u korist klijenta i to sumu kroz 6 mjeseci i pozeljno je da budu
sto vece. Koeficijent dobiven modelom govori da se povecanjem kamata u korist klijenta za
jednu jedinicu smanjuje rizik od odlaska u default, tj. funkcija rizika se mijenja za faktor
0.597133364.
naknadesum - oznacava sumu svih naknada koje mora platiti kroz promatranih 6 mjeseci.
Pozeljno je da ova vrijednost bude sto manja, tj. ukoliko se suma naknada poveca za jednu
jedinicu funkcija rizika raste, tj. mijenja se za faktor 1.003410206.
v313min - predstavlja minimalnu naknadu koju je klijent platio na odobreni okvirni kredit.
Bolje da je veca naknada, a samom jedinicnom promjenom naknade funkcija rizika se mijenja
za faktor 0.984827874.
stanjeomjersum - predstavlja omjer salda i odobrenog iznosa okvirnog kredita. Bolje da je
omjer sto veci, tj. da je saldo veci od odobrenog iznosa okvirnog kredita. Tada se za jedinicnu
promjenu kvocijenta funkcija rizika mijenja za faktor 0.999751631.
odzadnjegp1 - nam prikazuje koliko je dana proslo od zadnjeg dana kada je klijent bio u
nedozvoljenom prekoracenju. Bolje nam je da klijent bude sto duze, tj. da uopce nije ula-
zio u nedozvoljeno prekoracenju. Time se funkcija rizika smanjuje, tj. mijenja za faktor
0.993590728, za svaki dan duze proveden izvan nedozvoljenog prekoracenja.
kolikoputa - prikazuje koliko je puta klijent u promatranom razdoblju ulazio u nedozvoljeno
prekoracenje. Bolje da je klijent sto manje ili da uopce nije bio u nedozvoljenom prekoracenju.
Za svako ulazak u nedozvoljeno prekoracenje funkcija rizika se mijenja za faktor 1.038280023.
bioudozvoljenom - oznacava je li klijent bio u dozvoljenom prekoracenju tijekom promatra-
nog perioda, a najbolje bi bilo da nije ulazio u nikakvo prekoracenje. Ukoliko je klijent ulazio
u dozvoljeno prekoracenje njegov rizik odlaska u default raste i to za faktor 2.849011238, u
protivnom rizik se ne mijenja.
biouplusu - oznacava je li klijent bio u plusu tijekom promatranog perioda. Najbolje bi bilo
da je bio u plusu i time si smanjuje rizik od odlaska u default za faktor 0.727057, dok u su-
protnom slucaju njegov rizik ostaje ne promijenjen.
37
Nakon interpretacije varijabli pogledajmo i deskriptivnu statistiku za svaku varijablu.
Min 1st Qu. Median Mean 3rd Qu. Max
p01sum 0 2805 11479 14022 19095 227042k01sum 0 0 0.030 1.478 0.610 126.910naknadesum 0 106.7 158.6 179.6 219.0 8102.9v313min 0 0 0 19.25 30 225stanjeomjersum -5706.24 -22.68 17.07 63.67 101.38 8402.93odzadnjegp1 0 142 180 146.5 180 180kolikoputa 0 0 0 2.14 3 19
Tablica 3.3: Deskriptivna statistika za kontinuirane podatke
0 1Frekvencija Rel. frekvencija Frekvencija Rel. frekvencija
bioudozvoljenom 101 7.66% 1217 92.34%biouplusu 369 28% 949 72%
Tablica 3.4: Frekvencije i relativne frekvencije za kategorijalne podatke
Validacija
Validacija obuhvaca kvalitativan i kvantitativan pristup koji se medusobno nadopunjavaju.
Za valjanu ocjenu skoring modela nije dovoljno provesti samo jednu od navedenih validacija.
Prvo se obavlja kvalitativna validacija i ako su rezultati zadovoljavajuci prelazi se na kvanti-
tativnu validaciju. Kvalitativna validacija obuhvaca tri podrucja analize15:
• dizajn modela (ocjenjuju se opseg, transparentnost i cjelovitost dokumentacije skoring
modela),
• kvaliteta podataka (provjeravaju se potrebni podaci za izgradnju modela, izvori poda-
taka, reprezentativnost uzorka podataka te ciscenje i definicija uzorka),
• upotreba modela (provjerava se integracija skoring modela u cijeli risk management i
reporting sustav banke).
U statistickim modelima kvantitativna validacija obuhvaca veliki dio razvoja samog modela,
dok se kod drugih modela validacija obavlja nakon samog razvoja. Medutim, svi modeli mo-
raju imati kvantitativnu validaciju.
15preuzeto iz [15]
38
Kvantitativna validacija obuhvaca16:
• preciznost klasifikacija modela (provjerava se razlikuje li model dobre od losih klijenata),
• postupak pregledavanja kalibracije modela (provjeravaju se realizirane vjerojatnosti da
ce klijent biti los s predvidenim),
• ispitivanje stabilnosti modela,
• benchmarking,
• stress testing.
U validaciji naseg modela bazirati cemo se samo na kvantitativnu validaciju, tj. na preciznost
klasifikacije modela. Preciznost klasifikacije modela odnosi se na sposobnost tocnog raspozna-
vanja klijenata, tj. na razlikovanje dobrih i losih klijenata.
Cutoff - Na osnovi izracunanih vrijednosti risk score funkcije, moguce je odrediti granicnu
vrijednost na osnovi koje financijska institucija moze ustanoviti hoce li klijent otici u default
u promatranom razdoblju ili ne. Naime, ako vrijednost risk score funkcije prelazi tu granicnu
vrijednost, financijska institucija ce pretpostaviti da ce taj klijent redovno otplacivati kredit, a
ako je izracunana vrijednost manja od granicne vrijednosti, tada ce zajmotrazitelj vjerojatno
otici u default tjekom promatranog perioda.
Matrica konfuzije
Matrica konfuzije sluzi za klasifikaciju gresaka modela. Na glavnoj dijagonali nalaze se
broj klijenata koji su tocno predvideni (broj dobrih koji su procijenjeni kao dobri i broj losih
koji su procijenjeni kao losi). Na sporednoj dijagonali nalaze se broj pogresno procjenjenih
klijenata s obzirom na njihovu kreditnu sposobnost (broj losih koji su procijenjeni kao dobri i
broj dobrih koji su procijenjeni kao losi). U radu ce zbog specificnog nacina prikaza rezultata
matrica konfuzije biti malo drugacije prikazana.
Greske tipa I i II
Greska tipa I - α greska - predstavlja postotak losih klijenata procjenjenih kao dobri u ukup-
nom broju losih klijenata.
Greska tipa II - β greska - predstavlja postotak dobrih klijenata procjenjenih kao losi u ukup-
nom broju dobrih klijenata.
16preuzeto iz [15]
39
Na osnovu dobivenih modela i podataka nacinjene su predikcije odlazaka u default za
vremenske intervale od jednog, tri i sest mjeseci. Uz promatrane modele analize prezivljenja
izraden je i model logisticke regresije radi usporedbe krajnjih rezultata. Vrijednosti cutoffa u
danim modelima odredeni su tako da budu usporedivi sa stvarnim stanjem u danom trenutku,
to znaci da je za izracunate vrijednosti risk score funkcije odreden cutoff takav da je broj
klijenata koji su ispod te vrijednosti jednak stvarnom broju losih klijenata. U nastavku slijede
dobiveni rezultati.
t = 30 eksp Weib Cox LR
Cutoff 0.890963 0.8756821 1.902142 0.03223777
D - D 1134 1024 1023 1024 1020D - L 0 110 111 110 114L - D 0 110 111 110 114L - L 184 74 73 74 70
Good HR 90.30% 90.21% 90.30% 89.95%Bad HR 40.22% 39.67% 40.22% 38.04%Total HR 83.31% 83.16% 83.31% 82.70%
α greska 59.78% 60.33% 59.78% 61.96%β greska 9.70% 9.79% 9.70% 10.05%
AUC 0.8152078 0.8151695 0.8154043 0.7997230KS Stat. 0.5015528 0.4997891 0.5006710 0.4779446
Tablica 3.5: Predikcija za prvi mjesec
Za kratkorocnu predikciju (tablica 3.5), tj. za prediktiranje hoce li klijent otici u default
u slijedecih mjesec dana, nasi modeli jako dobro predvidaju dobre klijente i to s tocnoscu od
oko 90.2%, dok su losiji u predvidanju onih koji ce otici u default gdje je postotak pogodaka
oko 40%. Ali ukupna tocnost modela je dosta visoka s oko 83.2%. Ovdje vidimo da model
logisticke regresije malo zaostaje za modelima analize prezivljenja. Gledajuci greske tipa I i
tipa II, tj. pogreske u predvidanju dobrih i losih klijenata, vidimo da je greska tipa I dosta
visoka i iznosi oko 60%, dok je greska tipa II ispod 10%.
Kod predikcija za odlazak u default u prva tri mjeseca (tablica 3.6) imamo sljedece rezul-
tate. Modeli nesto losije predvidaju dobre klijente nego za prvi mjesec i to s tocnoscu od oko
84%, dok su losiji, ali za usporedbu s predikcijom za prvi mjesec nesto bolji, u predvidanju
losih klijenata gdje je postotak pogodaka iznad 63%. Sada se ukupna tocnost modela smanjuje
i iznosi 78%. U ovom trenutku model logisticke regresije pokazuje malenu prednost u odnosu
na modele analize prezivljenja. Gledajuci greske tipa I i tipa II vidimo da je sada greska tipa
I nesto niza i iznosi oko 36%, dok je greska tipa II oko 15.7%.
40
t = 90 eksp Weib Cox LR
Cutoff 0.2830263 0.2896654 1.318408 0.1790496
D - D 920 775 776 775 784D - L 0 145 144 145 136L - D 0 145 144 145 136L - L 398 253 254 253 262
Good HR 84.24% 84.35% 84.24% 85.22%Bad HR 63.57% 63.82% 63.57% 65.83%Total HR 78.00% 78.15% 78.00% 79.36%
α greska 36.43% 36.18% 36.43% 34.17%β greska 15.76% 15.65% 15.76% 14.78%
AUC 0.8520783 0.8520920 0.8522367 0.8478124KS Stat 0.5879670 0.5901409 0.5879670 0.5766714
Tablica 3.6: Predikcija za prva 3 mjeseca
Kako se predikcije rade na osnovi podataka skupljanih kroz period od sest mjeseci, tada
je razumljivo da se najbolji rezultati dobivaju za predikciju ponasanja klijenata u sljedecih
sest mjeseci (tablica 3.7). Kod ovih predikcija modeli predvidaju dobre klijente kao dobre u
postotku od oko 83.9%, dok tocno predvidanju lose klijenata s oko 79.7%. Ukupna tocnost
modela iznosi visokih 82%. Model logisticke regresije u ovom trenutku pokazuje minimalnu
prednost u odnosu na modele analize prezivljenja. Gledajuci greske tipa I i tipa II vidimo da
je greska tipa I najniza u odnosu na prve dvije predikcije i iznosi oko 20%, dok je greska tipa
II oko 16%.
t = 180 eksp Weib Cox LR
Cutoff -0.1605507 -0.1385059 0.8895138 0.3246809
D - D 736 617 618 618 619D - L 0 119 118 118 117L - D 0 119 118 118 117L - L 582 463 464 464 465
Good HR 83.83% 83.97% 83.97% 84.10%Bad HR 79.55% 79.73% 79.73% 79.90%Total HR 81.94% 82.09% 82.09% 82.25%
α greska 20.45% 20.27% 20.27% 20.10%β greska 16.17% 16.03% 16.03% 15.90%
AUC 0.8904592 0.8905316 0.8905059 0.8923549KS Stat 0.6411176 0.6414771 0.6414771 0.6577394
Tablica 3.7: Predikcija za prvih 6 mjeseci
41
ROC krivulja
ROC17 krivulja je jedan od uobicajenih nacina prikazivanja diskriminacijske moci modela.
Ona prikazuje medusobno kretanje kumulativne frekvencije losih i dobrih zajmotrazitelja pro-
cjenjnih modelom. Pozeljna je konkavnost jer zelimo da je postotak losih zajmotrazitelja u
klasama nizeg ratinga sto veci i da on raste po opadajucoj stopi kako se priblizavamo klasama
viseg ranga.
Povrsinu ispod ROC krivulje cemo oznaciti s AUC18, a ona je mjera kvalitete modela:
0.9− 1: izvrstan model,
0.8− 0.9: dobar model,
0.7− 0.8: osrednji model,
0.6− 0.7: slab model,
0.5− 0.6: los model.
Slika 3.1: ROC krivulje za sva tri vremenska trenutka
Slika 3.1 prikazuje ROC krivulje najboljeg modela za promatrane intervale i iz nje se
vidi kako model bolje klasificira klijente kako se vremenski period povecava. Graficki prikaz
potvrden je i numerickim vrijednostima povrsina ispod ROC krivulje koje mozemo vidjeti u
gore prikazanim tablicama. Kod predvidanja modela za prvi mjesec povrsina je 0.815, za prva
tri mjeseca 0.852, a za sest mjeseci 0.8905 i za model u sva ti slucaja mozemo reci da dobar.
17engl. Receiver Operating Characteristic18engl. Area Under the Curve
42
Slika 3.2: Usporedba ROC krivulji Weibullovog modela i logisticke regresije
Usporedujuci ROC krivulje Weibullovog PH modea i logisticke regresije (Slika 3.2) vidimo
da nema nekih velikih razlika. Vidi se da je Weibullov model bolji kod procijene nizih skorova,
dok je na dalje nesto bolji model logisticke regresije. Gledajuci i AUC vidi se da Weibullov
model ne zaostaje previse za logistickom regresijom, 0.8905059 naspram 0.8923549.
KS test statistika
Jedna od mjera za razlucivost modela jeste tzv. Kologomorov-Smironovljev pokazatelj
koji predstavlja maksimum apsolutnih odstupanja kumulativnih relativnih frekvecija dobrih
od kumulativnih relativnih frekvencija losih klijenata. To je pokazatelj koji mjeri sposobnost
modela da razlikuje dobre od losih klijenata. Test statistika je oblika
Dn = maxt|FD(t)− FN(t)|
gdje n predstavlja velicinu uzorka, FD kumulativnu relativnu frekveciju dobrih, a FN kumu-
lativnu relativnu frekveciju losih klijenata.
Ocjene KS test statistike:
< 0.20: kartica vjerojatno nece raditi
0.20− 0.40: fair
0.41− 0.50: good
0.51− 0.60: very good
0.61− 0.75: awesome
> 0.75: too good to be true
43
Slika 3.3: KS statistika Weibullovog modela za t=180
Slikom 3.3 je prikazana KS statistika Weibullovog modela za predvidanje defaulta u prvih
sest mjeseci. Kako je graf neuobicajenog oblika, uvelike zbog preniskih vrijednosti risk score
funkcije, iz njega ne mozemo iscitati kolika je sposobnost modela da razlikuje dobre od losih
klijenata. Numericka vrijednost KS test statistike, koje vidimo u gornjim tablicama, nam
govori da je model fenomenalan. Vrijednost KS statistike modela kod predvidanja defaulta za
prvi mjesec iznosi 0.4997891, tri mjeseca 0.5901409 i nama najvazniji za sest mjeseci 0.6414771.
3.4. Zakljucak
Iz prijasnjih istrazivanja smo zakljucili da modeli analize prezivljenja nisu nista losiji od
nekih drugih cesce koristenih metoda, kao npr. logisticke regresije ili neuronskih mreza, a uz
to nam pruzaju informaciju o ocekivanom vremenu do defaulta naseg klijenta. Modeli u ovom
diplomskom radu, kreirani na dostupnim podacima, potvrduju tezu iz prijasnja istrazivanja
da modeli analize prezivljenja ne zaostaju za modelom logisticke regresije. Kao najbolji model
odabran je onaj kreiran koristenjem Weibullove distribucije. Iako sva tri modela daju podjed-
nake predikcije Weibullov model je odabran zbog boljih rezultata u predvidanju defaulta za
prva 3 i 6 mjeseci. Jedini nedostatak modela je mali postotak pogodaka losih klijenata za prvi
mjesec, ali je u tome bolji nego logisticka regresija.
44
Bibliografija
[1] G. Andreeva, European generic scoring models using survival analysis, Journal of the
Operational Research Society, 57(2006.), 1180-1187.
[2] J. Banasik, J.N. Crook, L.C. Thomas, Not if but when will borrowers default Journal of
the Operational Research Society, 50(1999.), 1185-1190.
[3] T. Bellotti, J. Crook, Credit scoring with Macroeconomic Variables using Survival
Analysis, Journal of the Operational Research Society, 60(2008.), 1699-1707.
[4] D. Collett, Modelling Survival Data in Medical Research, Second Edition, Chapman &
Hall, 2003.
[5] F.E. Harrell, Jr., Regression Modeling Strategies - with Application to Linear Models,
Logistic Regression and Survival Analysis, Springer, 2002.
[6] D.W. Hosmer, Jr., S. Lemeshow, Applied Survival Analysis - Regression Modeling of Time
to Event Data, Wiley-Interscience, New Jersey, 1999.
[7] Q. Jiezhi, Comparison of Proportional Hazards and Accelerated Failure Time Models,
Department of Mathematics and Statistics, University of Saskatchewan, 2009.
[8] J.D. Kalbfleisch, R.L. Prentice, The Statistical Analysis of Failure Time Data, Wiley-
Interscience, New Jersey, 2002.
[9] J.P. Klein, M.L. Moeschberger, Survival Analysis - Techniques for Censored and Trunca-
ted Data, Springer, 2003.
[10] D.G. Kleinbaum, M. Klein, Survival Analysis - A Self-Learning Text, Third Edition,
Springer, 2012.
[11] E.T. Lee, J.W. Wang, Statistical Methods for Survival Data Analysis, Third Edition,
Wiley-Interscience, New Jersey, 2003.
[12] M. Malik, L.C. Thomas, Modelling credit risk of portfolio of consumer loans, The Journal
of the Operational Research Society, 61(2010.), 411-420.
45
[13] R.A. McDonald, A. Matuszyk, L.C. Thomas, Application of survival analysis to cash
flow modelling for mortgage products, The Journal of the Operational Research Society,
23(2010.), 1-14.
[14] H.J. Noh, T.H. Roh, I. Han, Prognostic personal credit risk model considering censored
information, Expert Systems With Applications, 28(2005.), 753-762.
[15] T. Pavic, Validacija kreditnih skoring modela, Odjel za matematiku, Diplomski rad, Osi-
jek, 2012.
[16] M. Stepanova, L.C. Thomas, PHAB Scores: Proportional Hazards Analysis Behavioural
Scores, The Journal of the Operational Research Society, 52(2001.), 1007-1016.
[17] M. Stepanova, L.C. Thomas, Survival Analysis Methods for Personal Loan Data, Opera-
tions Research, 50(2002.), 277–289.
[18] N. Sarlija, Klasicna kreditna analiza, Predavanja za kolegij ’Upravljanje kreditnim rizi-
cima’, 2008.
[19] N. Sarlija, Upotreba i primjena kredit skoring modela, Predavanja za kolegij ’Upravljanje
kreditnim rizicima’, 2008.
46
Sazetak
Cilj je ovog diplomskog rada objasniti statisticku pozadinu pri odredivanju bihevioral-
nih skorova klijenata koji otplacuju kredit u nekoj banci te kreirati model koji ce najbolje
odredivati vjerojatnost da ce taj klijent u nekom vremenskom periodu otici u default ili ce i
dalje otplacivati taj kredit. U radu je objasnjena analiza prezivljenja i metode za odredivanje
funkcije prezivljenja koji se u njoj koriste. Najjednostavnija je metoda neparametarska koja
se jos naziva Kaplan-Meierov procjenitelj. Od parametarskih metoda objasnjeni su model
proporcionalnog rizika i model ubrzanog vremena otkazivanja koji se koriste kada je poznata
distribucija podataka koje imamo za klijente. Ako nam distribucija nije poznata i ne mozemo
ju odrediti, koristi se poluparametarski Coxov PH model. Prilikom koristenja Coxovog PH
modela dolazimo do problema vezanih podataka, te je u radu objasnjeno kako i njih ukljuciti
u model. U drugom su dijelu rada navedene statisticke metode iskoristene na stvarnim po-
dacima i kreirani su modeli za procjenu hoce li klijent u nekom periodu otici u default ili ne.
Pokazalo se da je najbolji model onaj kreiran metodom proporcionalnih rizika i koristenjem
Weibullove distribucije, a sve je to potvrdeno prilikom validacije svih modela i usporedeno s
modelom logisticke regresije.
Kljucne rijeci: Analiza prezivljenja, Kaplan-Meierov procjenitelj, model proporcionalnih
rizika, model ubrzanog vremena otkazivanja, poluparametarski Coxov model, vezani podaci,
kreditni rizik, bihevioralni skoring
47
Title and Summary
Survival Analysis in modeling bihevioral scoring
The aim of this thesis is to explain the statistical background used to determine the be-
havioral score of clients who are paying off a bank loan and to create a model that will best
determine the probability of a client going into default or continuing the repayment of the loan.
The paper explains the survival analysis and methods for determining the survival functions.
The simplest method is non-parametric method, also called the Kaplan-Meier estimator. The
paper explains two parametric methods, the model of proportional risks and accelerated fa-
ilure time model, which are used when the distribution of data is known. If the distribution
is unknown or if we cannot determine it, we use semi-parametric Cox PH model. When using
Cox PH model, we come to the problem of tied data, so the paper explains how to include
them in the model. In the second part of this thesis, the above mentioned statistical methods
are used on real data, and models were created to assess whether the client will go into defa-
ult or not. It is shown that the best model is created by using proportional hazard method
with Weibull distribution, and all this was confirmed during the validation of the model and
compared with the logistic regression.
Keywords: Survival analysis, Kaplan-Meier estimator, proportional hazard, accelerated
failure time, semi-parametric Cox model, tied data, credit risk, behavioral scoring
48
Zivotopis
Roden sam 28. sijecnja 1983. godine u Osijeku gdje zavrsavam osnovnu skolu ”Grigor
Vitez”, a zatim Ekonomsku i upravnu skolu u Osijeku. Godine 2001. upisujem Sveucilisni
dodiplomski studij Matematika-Informatika na Odjelu za matematiku, ali se 2005. godine
prebacujem na Sveucilisni preddiplomski studij matematike, isto na Odjelu za matematiku,
kojeg sam zavrsio 2009. godine i stekao naziv Sveucilisnog prvostupnika matematike. Od 2009.
godine student sam Sveucilisnog diplomskog studija matematike, smjer poslovna i financijska
matematika.
49