52
Sveuˇ ciliˇ ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi´ c Analiza preˇ zivljenja u modeliranju bihevioralnog skoring modela Diplomski rad Osijek, 2013.

Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

  • Upload
    others

  • View
    3

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Sveuciliste Josipa Jurja Strossmayera u Osijeku

Odjel za matematiku

Davor Nazifovic

Analiza prezivljenja u modeliranjubihevioralnog skoring modela

Diplomski rad

Osijek, 2013.

Page 2: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Sveuciliste Josipa Jurja Strossmayera u Osijeku

Odjel za matematiku

Davor Nazifovic

Analiza prezivljenja u modeliranjubihevioralnog skoring modela

Diplomski rad

Mentor: prof. dr. sc. Natasa SarlijaKomentor: doc. dr. sc. Nenad Suvak

Osijek, 2013.

Page 3: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Sadrzaj

Uvod 1

1 Uvod u analizu prezivljenja 3

2 Modeli prezivljenja 8

2.1. Neparametarski procjenitelji funkcije prezivljenja . . . . . . . . . . . . . . . . 8

2.1.1. Empirijski procjenitelj . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2. Kaplan-Meierov procjenitelj . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.3. Nelson-Aalenov procjenitelj . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2. Parametarski modeli prezivljenja . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.1. Metoda maksimalne vjerodostojnosti . . . . . . . . . . . . . . . . . . . 17

2.2.2. Model proporcionalnih rizika (PH model) . . . . . . . . . . . . . . . . . 21

2.2.3. Model ubrzanog vremena otkazivanja (AFT model) . . . . . . . . . . . 23

2.3. Poluparametarski Coxov PH model . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3.1. Metoda parcijalne vjerodostojnosti . . . . . . . . . . . . . . . . . . . . 26

2.3.2. Procjena osnovne funkcije rizika i osnovne funkije prezivljenja . . . . . 28

3 Analiza prezivljenja u modeliranju bihevioralnog skoringa 30

3.1. Prethodna istrazivanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2. Kreditni skoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.3. Kreiranje kredit skoring modela . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.4. Zakljucak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Bibliografija 45

Sazetak 47

Title and Summary 48

Zivotopis 49

Page 4: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Uvod

Financijske i kreditne institucije odobravanjem kredita stanovnistvu i poduzecima, koji

je za vecinu klijenata primarni izvor financiranja, prihvacaju rizik kako bi ostvarili zaradu.

Krediti donose najvise prihoda, te cine veci dio aktive financijskih institucija, ali s time nose i

najvise rizika. Propadanje banaka najcesce je povezano s losim kreditnim politikama. Kako bi

se rizik od donosenja krivih odluka kome odobriti kredit ili ne smanjio, financijske i kreditne

institucije upotrebljavaju razlicite alate i sustave za ocjenu kreditnog rizika. Tako razvijaju

aplikativni scoring koji se koristi za nove klijente i njime odlucuju kome odobriti kredit, dok se

za postojece klijente koristi bihevioralni scoring koji prati njegove financijske transakcije i na

temelju njih predvidaju koji klijent bi mogao uci u default ili ne, te donose odluku trebaju li

mijenjati neke uvjete kredita. Kao default definiramo status neispunjavanja obveza, tj. kada

klijent vise od 90 dana kasni s podmirivanjem obveza prema banci. Kod kreiranja aplikativnog

i bihevioralnog scoringa koriste se razlicite statisticke procedure, gdje su najpoznatiji pristup

logisticke regresije i diskriminacijska analiza, a jos se koriste probit analiza, matematicko pro-

gramiranje, neuralne mreze, metoda stabla odlucivanja, Markovljevi lanci, geneticki algoritmi

i analiza prezivljenja koja ce biti obradena u ovom radu.

Analiza prezivljenja1 je zajednicki naziv za skup statistickih postupaka koristenih za anali-

ziranje podataka, kod kojih je varijabla od interesa vrijeme potrebno do pojave nekog dogadaja.

Analiza prezivljenja je prvotno razvijena za primjenu u medicini, konkretno za promatranje

ucinaka lijekova i tretmana, te razvoj bolesti, gdje je konacni ishod ozdravljenje pacijenta,

reakcija na terapiju, povrat bolesti ili u nekim slucajevima smrt. Osim u medicini analiza

prezivljenja svoju primjenu ima i u nekim drugim granama znanosti, a to su ekonomija,

drustvene i tehnicke znanosti. Kod drustvenih znanosti promatra se vrijeme trajanja bra-

kova, vrijeme studiranja ili vrijeme do promjene nekih navika. Kod tehnickih znanosti obicno

se promatra vrijeme do pojave nekog kvara na stroju, trajanje kucanskih aparata. U ekono-

miji, sto je dio ovog rada, moze se promatrati vrijeme otplate kredita ili vrijeme do defaulta,

vrijeme nezaposlenosti, inflacija.

1engl. Survival analysis

1

Page 5: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

U prvom poglavlju obradeni su osnovni pojmovi analize prezivljenja, kao sto su vrijeme

prezivljenja i cenzoriranje, te su definirane funkcije prezivljenja, rizika i kumulativnog rizika,

sto ce se upotrebljavati u drugim poglavljima. Drugo se poglavlje bavi neparametarskom pro-

cjenom funkcije prezivljenja i modelima prezivljenja. Od neparametarskih procjena obradeni

su Kaplan-Meierov i Nelson-Aalenov procjenitelj, a od modela parametarski modeli i polu-

parametarski Coxov model. Kod parametarskih modela prezivljenja gleda se nacin na koji

procijeniti parametre promatranih modela, a to su model proporcionalnih rizika i model ubr-

zanog vremena otkazivanja. Parametre procjenjujemo metodom maksimalne vjerodostojnosti

i metodom parcijalne vjerodostojnosti kod poluparametarskih modela. U trecem je poglavlju

obradena teorija primjenjena na podatke kako bi se procjenila sposobnost klijenata da otplate

svoj kredit. Kreirana su tri modela prezivljenja i usporedena s modelom logisticke regresije.

Na kraju je zakljuceno da Weibullov model najbolje procjenjuje klijente kod otplate kredita.

2

Page 6: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Poglavlje 1

Uvod u analizu prezivljenja

Vrijeme prezivljenja2 definiramo kao vrijeme cekanja do pojave nekog dogadaja i mode-

liramo nenegativnom slucajnom varijablom T . Da bi preciznije odredili vrijeme prezivljenja

potrebno je ispuniti sljedece pretpostavke:

• pocetni trenutak mora biti jednoznacno odreden,

• nacin mjerenja protoka vremena mora biti odreden na pocetku promatranja,

• definicija dogadaja mora biti posve jasna.

Specificne poteskoce u analizi prezivljenja uglavnom proizlaze iz cinjenice da je samo jedan

dio klijenata usao u default do kraja promatranja, dok drugi nisu i stoga je njihovo vrijeme

prezivljenja nepoznato. Ova cinjenica nas vodi do pojma cenzoriranja, kojeg modeliramo

slucajnom varijablom C koja oznacava trenutak u kojem je klijent cenzoriran. Da bi lakse

objasnili cenzoriranje koristiti cemo termine koji se koriste u bankarstu. Za pocetak pogle-

dajmo glavne tipove cenzoriranja.

Tip I: uzorak od n klijenata pratimo kroz fiksni vremenski period i biljezimo njihovo vrijeme

do defaulta, tj. cekamo da klijent ode u default. Svako promatranje koje traje duze nego

promatrani vremenski period oznacava se kao cenzorirano.

Tip II: uzorak od n klijenata pratimo dok u default ne ode r promatranih klijenata, a ostale

smatramo cenzoriranima.

Tip III: najcesci tip cenzoriranja jos se naziva i nasumicno cenzoriranje. Vrijeme promatranja

je fiksno, a klijenti ulaze u promatranje u razlicitim trenucima. Razlikujemo tri vrste ovog

tipa cenzoriranja:

2engl. Survival time

3

Page 7: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

• Desno cenzoriranje: dogada se u slucajevima kada klijent nije otisao u default tijekom

promatranja, iskljucen je iz promatranja ili je izgubljen tijekom vremena iz nekog razloga.

• Lijevo cenzoriranje: slucaj kada se ulazak u default zbiva prije ukljucivanja klijenta u

promatranje.

• Intervalno cenzoriranje: pojavljuje se kada ne znamo tocno vrijeme pojavljivanja defa-

ulta, ali znamo vremenski interval u kojem se default dogodio. U slucaju da je interval

veoma malen ignoriramo ovo cenzoriranje i stavljamo jedan rub intervala kao trenutak

kada je klijent usao u default.

Funkcija prezivljenja

Neka je t vrijeme prezivljenja nekog klijenta modelirano slucajnom varijablom T . Pretpos-

tavimo li da slucajna varijabla T ima funkciju gustoce f(t) tada njenu funkciju distribucije

definiramo na sljedeci nacin

F (t) = P (T ≤ t) =

∫ t

0

f(u)du,

te ona predstavlja vjerojatnost da klijent odlazi u default prije ili u trenutku t.

Slika 1.1: Funkcija prezivljenja

Funkciju prezivljenja definiramo kao vjerojatnost da je vrijeme prezivljenja vece od t, tj.

da klijent ulazi u default nakon vremena t, i zapisujemo

S(t) = P (T > t) = 1− F (t), t ≥ 0,

4

Page 8: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

te je ona monotono opadajuca funkcija sa svojstvima

• S(0) = 1,

• limt→∞

S(t) = 0,

• S(ta) ≥ S(tb)⇐⇒ ta ≤ tb,

• S(t) = 1− F (t) =∫∞tf(v)dv.

Funkcija rizika

Funkcija rizika koristi se kako bi izrazila rizik od odlaska u default u nekom trenutku t,

a dobivena je iz vjerojatnosti da klijent ude u default u trenutku t, uz uvjet da nije usao

u default do tog trenutka. Za formalnu definiciju promatramo uvjetnu vjerojatnost slucajne

varijable T takvu da P (t < T ≤ t + dt|T > t). Podjelimo li tu vjerojatnost vremenskim

intervalom dt dobivamo stopu rizika, a funkcija rizika se dobiva tako da stavljamo limes gdje

dt tezi u 0. Zapisujemo

λ(t) = limdt→0

P (t < T ≤ t+ dt|T > t)

dt, t ≥ 0.

Odnos funkcije rizika i funkcije prezivljenja

Koristenjem svojstva uvjetne vjerojatnosti i cinjenice da T modeliramo neprekidnom slucajnom

varijablom dolazimo do sljedeceg zapisa:

λ(t) = limdt→0

P (t < T ≤ t+ dt|T > t)

dt= lim

dt→0

1

dt

P (t < T ≤ t+ dt, T > t)

P (T > t)=

= limdt→0

1

dt

P (t < T ≤ t+ dt ∩ T > t)P (T > t)

= limdt→0

1

dt

P (t < T ≤ t+ dt)

P (T > t)=

= limdt→0

1

dt

P (T ≤ t+ dt)− P (T < t)

P (T > t)= lim

dt→0

1

dt

(1− S(t+ dt))− (1− S(t))

S(t)=

= limdt→0

1

dt

S(t+ dt)− S(t)

−S(t)=dS(t)/dt

−S(t)=

=f(t)

S(t), (1.1)

gdje je f(t) funkcija gustoce slucajne varijable T , a kako je S(t) = 1−∫ t

0

f(v)dv tada vrijedi

f(t) =−dS(t)

dt.

5

Page 9: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Tada funkciju rizika mozemo izraziti na sljedeci nacin

λ(t) =dS(t)/dt

−S(t)=

=−d logS(t)

dt. (1.2)

Kumulativna funkcija rizika

Integriranjem izraza (1.2) dobivamo sljedece∫ t

0

λ(v)dv = − logS(t).

Dobiveni integral oznacavamo Λ(t) i njime definiramo kumulativnu funkciju rizika, a vrijednost

kumulativne funkcije rizika za konkretan t interpretiramo kao akumulirani rizik do trenutka t.

Kako je

Λ(t) =

∫ t

0

λ(v)dv = − logS(t),

tada funkciju prezivljenja mozemo zapisati pomocu funkcije kumulativnog rizika na sljedeci

nacin:

S(t) = e−Λ(t). (1.3)

Stoga poznavanjem bilo koje od funkcija f(t), F (t), S(t), λ(t) i Λ(t) omogucava nam da izve-

demo ostale funkcije.

Kumulativna funkcija rizika ima svojstvo E[Λ(T )] = 1. Iz izraza (1.1) funkciju gustoce

mozemo zapisati kao f(t) = λ(t)S(t), gdje je S(t) = e−Λ(t), i vrijedi

E[Λ(T )] =

∫ ∞−∞

Λ(t)λ(t)e−Λ(t)dt =

=

∫ ∞−∞

ue−udu =

= 1.

Jos jedno svojstvo funkcije kumulativnog rizika mozemo pokazati na sljedeci nacin. Proma-

tramo ocekivanu vrijednost kumulativnog rizika u trenutku min (T, z), gdje je z jedan izdvojen

trenutak:

E[Λ(min (T, z))] = E[Λ(T )I(T ≤ z) + Λ(z)I(T > z)] =

= E[Λ(T )I(T ≤ z)] + Λ(z)S(z), (1.4)

jer je E[I(T > z)] = P (T > z) = S(z). Kako je

I(t ≤ z) = It≤z(t) =

1 , t ≤ z0 , t > z

,

6

Page 10: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

tada ocekivanje s desne strane izraza (1.4) racunamo na sljedeci nacin:

E[Λ(T )I(T ≤ z)] =

∫ ∞0

Λ(t)I(t ≤ z)λ(t)e−Λ(t)dt

=

∫ z

0

Λ(t)λ(t)e−Λ(t)dt

= −[ue−u + e−u]∣∣−Λ(z)

0

= 1− S(z)[Λ(z) + 1].

Uvrstimo li dobiveni rezultat u izraz (1.4) dobivamo

E[Λ(min (T, z))] = 1− S(z)[Λ(z) + 1] + Λ(z)S(z)

= 1− S(z)

= F (z).

Iz toga slijedi dan∑i=1

Λ(min (Ti, z)) procjenjuje ocekivan broj otkazivanja u uzorku dimenzije

n prije trenutka z.

Sada promotrimo neka svojstva distribucije slucajne varijable T :

q-ti kvantil vremena prezivljenja je vrijeme do kojeg ce q-ti udio klijenata uci u default.

Oznacavamo ga s Tq i vrijednost u t mu je takva da S(t) = 1− q, za 0 < q < 1, tj.

Tq = S−1(1− q).

Centralno vrijeme prezivljenja3 je vrijeme do kojeg ce barem polovica klijenata otici u

default, a dobivamo ga iz S(t) = 0.5:

T0.5 = S−1(0.5).

Prosjecno vrijeme prezivljenja4 ili ocekivano vrijeme prezivljenja je povrsina ispod krivulje

prezivljenja za t od 0 do ∞µ = E(T ) =

∫ ∞0

S(t)dt

3engl. Median survival time4engl. Mean survival time

7

Page 11: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Poglavlje 2

Modeli prezivljenja

2.1. Neparametarski procjenitelji funkcije prezivljenja

Nakon prikupljanja podataka o klijentima i njihovih vremena do ulaska u default potrebno

ih je vizualizirati, obicno pomocu krivulje prezivljenja, i iz toga procijeniti prikladnu parame-

tarsku distribuciju kojom cemo dalje opisivati podatke. Neparametarske metode su najkoris-

nije u slucajevima kada niti jedna teorijska distribucija adekvatno ne opisuje nase podatke.

Postoje tri neparametarske metode koje se koriste kod opisivanja vremena do dogadaja:

1. Kaplan-Meierova metoda,

2. Nelson-Aalenova metoda,

3. Metode zivotnih tablica,

a u daljnjem tekstu reci cemo nesto vise samo o Kaplan-Meierovoj i Nelson-Aalenovoj metodi.

2.1.1. Empirijski procjenitelj

U slucaju izostanka cenzoriranih podataka neparametarski procjenitelj za S(t) definira se

promocu empirijske funkcije distribucije i to tako da Sn(t) = 1− Fn(t) predstavlja empirijsku

funkciju prezivljenja i racunamo je na sljedeci nacin:

Sn(t) =1

n

n∑i=1

I(ti > t).

2.1.2. Kaplan-Meierov procjenitelj

Kaplan-Meierov procjenitelj funkcije prezivljenja je neparametarska metoda procjene S(t)

za necenzorirane i desno cenzorirane podatke. Veoma je popularan buduci ne zahtjeva stroge

pretpostavke i pri tome koristi sve dostupne podatke.

8

Page 12: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Slika 2.1: Konstrukcija intervala koristenih za Kaplan-Meirovu procjenu funkcije prezivljenja

David Collett u knjizi Modelling Survival Data in Medical Research (vidi [4], str. 19) slucaj

s cenzoriranim podacima opisuje na sljedeci nacin. Pretpostavimo da su t(1) < t(2) < · · · < t(r)

redom vremena u kojima klijenti ulaze u default. Neka je s nj oznacen broj klijenata ne-

posredno prije t(j), ukljucujuci i one koji u t(j) odlaze u default, a neka dj predstavlja broj

odlazaka u default u trenutku t(j). Ukoliko se u trenutku t(j), zajedno sa slucajevima kada

klijent odlazi u default, pojavljuju i cenzorirani podaci, tada smatramo da se cenzoriranje

dogada nakon defaulta i ukljucujemo ih u nj. Pretpostavimo li da se default dogada na

kraju intervala, tada vjerojatnost da klijent u vremenskom intervalu (t(j) −∆t, t(j)) ude u

default, uz uvjet da nije bio u defaultu zakljucno s trenutkom t(j) − ∆t, tj. vjerojatnost

P (t(j) −∆t < T ≤ t(j)|T > t(j) −∆t), procjenjunjemo kvocijentomdjnj

. Stoga vjerojatnost da

klijent u trenutku t(j) ne ude u default uz uvjet da u t(j) − ∆t nije bio u defaultu, tj. vje-

rojatnost P (T > t(j)|T > t(j) − ∆t), procjenjujemo kvocijentomnj−djnj

. Promotrimo uz ovo

i interval (t(j), t(j+1) − ∆t) u kojem se ne dogada niti jedan default. Tada je vjerojatnost da

klijent u trenutku t(j+1) − ∆t ne ude u default uz uvjet da u trenutku t(j) nije bilo u defa-

ultu jednaka 0. Spojimo li ta dva intervala dobivamo novi interval (t(j) − ∆t, t(j+1) − ∆t) u

kojem vrijedi procjena P (T > t(j+1) −∆t|T > t(j) −∆t) =nj−djnj

. Ukoliko promatramo limes

kad ∆t → 0 dobivamo da prethodna procjena procjenjuje uvjetnu vjerojatnost da klijent u

trenutku t(j+1) ne ude u default pod uvjetom da u trenutku t(j) nije bilo u defaultu, tj. vjero-

jatnost P (T > t(j+1)|T > t(j)).

Za t(k) ≤ t < t(k+1), k = 1, 2, ..., r, gdje je t(0) = 0, a t(r+1) =∞, funkciju prezivljenja mozemo

raspisati

S(t) = P (T > t) = P (T > t ∩ T > t(k)) = P (T > t|T > t(k)) · P (T > t(k)) =

= P (T > t|T > t(k)) · P (T > t(k)|T > t(k−1)) · P (T > t(k−1)) =

...

= P (T > t|T > t(k)) · · ·P (T > t(1)|T > t(0)) · P (T > t(0)) =

=k∏j=1

P (T > t(j)|T > t(j−1)).

Kaplan-Meierov procjenitelj funkcije prezivljenja za t(k) ≤ t < t(k+1), k = 1, 2, ..., r, je

SKM(t) =k∏j=1

nj − djnj

.

9

Page 13: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Slika 2.2: Kaplan-Meirova procjena funkcije prezivljenja

Mozemo ga zapisati i kao

SKM(t) =∏

j:t(j)≤t

nj − djnj

=∏

j:t(j)≤t

(1− dj

nj

).

Delta metoda

Teorem 2.1 (Delta metoda). Pretpostavimo da je Xna∼ N (µ, σ2

n), gdje σn → 0. Neka je g

realna funkcija diferencijabilna u x = µ, s time da g′(µ) 6= 0. Tada je

g(Xn)a∼ N (g(µ), g′(µ)2σ2

n).

Kod procjene varijance Kaplan-Meierovog procjenitelja koristimo tehniku Delta metode.

Da bi ju primijenili, kao funkciju g moramo odabrati onu koju mozemo aproksimirati koristeci

Taylorov razvoj funkcije, tj. mora biti glatka funkcija. U ovom slucaju se koriste logaritamska

i eksponencijalna funkcija. Funkciju g aproksimiramo u okolini µ = E(X):

g(X) ≈ g(µ) + g′(µ)(X − µ),

Var(g(X)) ≈ Var(g(µ) + g′(µ)(X − µ)) =

= g′(µ)2 Var(X − µ) =

= g′(µ)2 Var(X).

Procjenitelj varijance Delta metodom je tada

Var(g(X)) = g′(µ)2σ2,

gdje je σ2 procjenitelj od Var(X), a µ procjenitelj od E(X).

10

Page 14: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Varijanca Kaplan-Meierovog procjenitelja

Procjena varijance Kaplan-Meierovog procjenitelja dana je Greenwoodovom formulom

Var(SKM(t)) = S2KM(t)

k∑j=1

djnj(nj − dj)

.

Da bi pokazali izvod Greenwoodove formule koristiti cemo Delta metodu dva puta i to na

sljedeci nacin:

log(X) ≈ log(µ) + (X − µ)1

µ,

Var(log(X)) = σ2 1

µ2, (2.1)

i

exp(X) ≈ exp(µ) + (X − µ) exp(X),

Var(exp(X)) = (exp(µ))2 σ2. (2.2)

Kaplan-Meierov procjenitelj moze biti zapisan

SKM(t) =k∏j=1

pj, k = 1, 2, ..., r,

gdje je pj =nj−djnj

procjenjena vjerojatnost da u trenutku t(j) klijent nece uci u default. Prvo

gledamo logaritam Kaplan-Meierovog procjenitelja

log SKM(t) = logk∏j=1

(nj − djnj

)=

k∑j=1

log

(nj − djnj

). (2.3)

Moze se pretpostaviti da je broj klijenata koji u trenutku t(j) ne ulaze u default modeliran

binomnom distribucijom s parametrima nj, broj klijenata neposredno prije t(j), i pj, vjero-

jatnosti da klijent u trenutku t(j) nece uci u default. Tada je promatrani broj klijenata koji

ne ulaze u default modeliran s nj − dj, a koristenjem varijance binomne slucajne varijable

dobivamo da je

Var(nj − dj) = njpj(1− pj).

Kako je pj =nj−djnj

, tada je njegova varijanca

Var

(nj − djnj

)=njpj(1− pj)

n2j

=pj(1− pj)

nj.

Sada trazimo varijancu izraza (2.3)

Var

(k∑j=1

log pj

)=

k∑j=1

Var(log pj).

11

Page 15: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Primjenimo li sada (2.1) dobivamo sljedece

Var(log(pj)) =pj(1− pj)

nj

1

p2j

=1− pjnj pj

=dj

nj(nj − dj)

Var(log SKM(t)) =k∑j=1

djnj(nj − dj)

.

Po drugi puta iskoristimo Delta metodu tako da iz (2.2) proizlazi

Var(SKM(t)) = Var(exp(log SKM(t)))

=(

exp(log SKM(t)))2

Var(log SKM(t))

= S2KM(t)

k∑j=1

djnj(nj − dj)

.

Standardna pogreska za procjenitelja, kod velikih uzoraka, je

se(SKM(t)) = SKM(t)

√√√√ k∑j=1

djnj(nj − dj)

.

Interval pouzdanosti za S(t) kreiramo pomocu sljedece formule:

[S(t)− zα/2 · se(SKM(t)), S(t) + zα/2 · se(SKM(t))].

2.1.3. Nelson-Aalenov procjenitelj

Alternativa Kaplan-Meierovom procjenitelju je u Nelson-Aalenovom procjenitelju koji funk-

ciju prezivljenja racuna preko procjene kumulativnog rizika. Kako se iz (1.3) vidi odnos funk-

cije kumulativnog rizika i funkcije prezivljenja, prvo se racuna procjena

Λ(t(i)) =i∑

j=1

djnj,

gdje su oznake iste kao i kod Kaplan-Meierovog procjenitelja, a zatim dolazimo do procjene

funkcije prezivljenja

SNA(t) =k∏j=1

exp

(−djnj

), k = 1, 2, ..., r.

12

Page 16: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

2.2. Parametarski modeli prezivljenja

Primarni je cilj ovog rada promatrati odnos izmedu vjerojatnosti odlaska u default i neza-

visnih varijabli, ali za pocetak promotriti cemo neke parametarske distribucije koje modeliraju

vrijeme potrebno klijentu da ude u default, a koje ne ukljucuju nezavisne varijable. Kada

neparametarskom metodom procijenimo distribuciju podataka i nacrtamo graf procijenjene

funkcije prezivljenja, ponekada se moze uociti da ti podaci slijede neki predvidljivi uzorak. U

takvim je slucajevima, umjesto koristenja neparametarske metode, za opis trenutaka do defa-

ulta pozeljno koristiti neku parametarsku distribuciju. Prednost je u tome sto parametarski

modeli pouzdano predvidaju vrijeme do defaulta dosta nakon zavrsetka perioda iz kojeg nam

dolaze pocetni podaci. Od parametarskih distribucija najcesce su koristene eksponencijalna i

Weibullova distribucija, dok su log-normalna i gamma racunski manje prikladnije, ali su isto

cesto koristene.

Eksponencijalni model

Najprije definirajmo eksponencijalnu distribuciju.

Definicija 2.1. Za kontinuiranu slucajnu varijablu T na vjerojatnosnom prostoru (Ω,F , P )

kazemo da ima eksponencijalnu distribuciju s parametrom λ > 0, ako je njena funkcija gustoce

dana izrazom

f(t) =

λe−λt , t ≥ 00 , t < 0

,

dok je funkcija distribucije dana izrazom

F (t) =

1− e−λt , t ≥ 00 , t < 0

.

(a) funkcija gustoce (b) funkcija distribucije

Slika 2.3: Eksponencijalna distribucija

13

Page 17: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Eksponencijalni model je najjednostavniji model koji pretpostavlja da je rizik konstantan

kroz vrijeme, tj. implicira da je uvjetna vjerojatnost dogadaja jednaka bez obzira u kojem se

trenutku promatra dogadaj, tj. da je

λ(t) = λ. (2.4)

Da bi se doslo do ove funkcije rizika prvo racunamo funkciju prezivljenja koristeci funkciju

distribucije eksponencijalne distribucije

S(t) = 1− F (t)

= 1− 1 + exp(−λt)= exp(−λt). (2.5)

Sada se lagano dolazi i do kumulativne funkcije rizika

Λ(t) = − logS(t)

= − log exp(−λt)= λt.

Na kraju do funkcije rizika dolazimo koristeci funkciju gustoce i funkciju prezivljenja

λ(t) =f(t)

S(t)

=λ exp(−λt)exp(−λt)

= λ.

Slika 2.4: Grafovi funkcije rizika, funkcije prezivljenja i funkcije kumulativnog rizikaeksponencijalne distribucije za λ = 0.2

14

Page 18: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Weibullov model

Definicija 2.2. Za kontinuiranu slucajnu varijablu T na vjerojatnosnom prostoru (Ω,F , P )

kazemo da ima Weibullovu dvoparametarsku distribuciju s parametrima γ > 0 i λ > 0, ako je

njena funkcija gustoce dana izrazom

f(t) =

λγtγ−1e−λt

γ, t ≥ 0

0 , t < 0,

dok je funkcija distribucije dana izrazom

F (t) =

1− e−λtγ , t ≥ 00 , t < 0

.

(a) funkcija gustoce (b) funkcija distribucije

Slika 2.5: Weibullova distribucija

Eksponencijalni model je najjednostavniji, ali je zato ogranicen konstantnim rizikom. Veliki

broj procesa koje mozemo promatrati prirodno pretpostavlja da se rizik mijenja kroz vrijeme,

sto eksponencijalni model ne moze pratiti. Zato definiramo Weibullov model kojem je rizik

opisan funkcijom

λ(t) = λγtγ−1, (2.6)

gdje je γ parametar oblika koji definira oblik funkcije rizika,

• γ = 1 - rizik je konstantan,

• 0 < γ < 1 - rizik monotono pada kroz vrijeme,

• γ > 1 - rizik monotono raste kroz vrijeme.

15

Page 19: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Koristenjem dostupne funkciju distribucije Weibulove distribucije dolazimo do funkcije prezivljenja

S(t) = 1− F (t)

= 1− 1 + exp(−λtγ)= exp(−λtγ). (2.7)

Kumulativnu funkciju rizika dobivamo na sljedeci nacin

Λ(t) = − logS(t)

= − log exp(−λtγ)= λtγ.

Na kraju funkcija rizika proizlazi iz funkcije gustoce i funkcije prezivljenja

λ(t) =f(t)

S(t)

=λγtγ−1 exp(−λtγ)

exp(−λtγ)= λγtγ−1.

Slika 2.6: Grafovi funkcije rizika, funkcije prezivljenja i funkcije kumulativnog rizika Weibullovedistribucije za λ = 2 i γ = 0.7

16

Page 20: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

2.2.1. Metoda maksimalne vjerodostojnosti

Kada se odredi model koji se koristi za opis podataka, potrebno je procijeniti nepoznate

parametre tako da distribucija prati podatke, tj. uskladiti podatke s distribucijom, a to cinimo

metodom maksimalne vjerodostojnosti.

Neka su t1, . . . , tn nezavisna opazanja kontinuirane slucajne varijable T s funkcijom gustoce

f(t; θ), gdje je θ = (θ1, θ2, ..., θk) ∈ Θ ⊆ Rk nepoznati parametar. Bez smanjenja opcenitosti

mozemo pretpostaviti da je

0 < t1 < t2 < . . . < tn.

Odgovarajuca funkcija vjerodostojnosti definira se kao

L(t; θ) =n∏i=1

f(ti; θ). (2.8)

Procjenitelj maksimalne vjerodostojnosti (ili krace ML procjenitelj) je slucajan vektor θ koji

maksimizira (2.8) na skupu svih dozvoljenih vrijednosti nepoznatog parametra θ. Buduci da

je logaritamska funkcija strogo rastuca, problem maksimizacije funkcije L(θ) ekvivalentan je

problemu maksimizacije funkcije logL(θ), pa stoga promatramo funkciju

`(t; θ) = logL(t; θ) =n∑i=1

log f(ti; θ).

Osnovna ideja za procjenu nepoznatih parametara potrebnih za procjenu funkcije rizika

je sljedeca. Neka slucajna varijabla T modelira vrijeme cekanja do ulaska klijenta u defa-

ult s funkcijama distribucije F , gustoce f i prezivljenja Sf , te neka je C slucajna varijabla

koja modelira vrijeme cenzoriranja s funkcijama distribucije G, gustoce g i prezivljenja Sg.

Svaki klijent ima vrijeme do defaulta Ti ili vrijeme cenzoriranja Ci. Za svakog od n klijenata

promatramo uredeni par (Yi, δi) gdje je

Yi = min(Ti, Ci) i δi =

1 , Ti ≤ Ci0 , Ti > Ci

.

Pretpostavljamo da su uredeni parovi (Yi, δi) nezavisno jednako distribuirani, te slucajne vari-

jable Ti i Ci medusobno nezavisne. Pod pretpostavkom nezavisnosti funkcija vjerodostojnosti

poprima jednostavan oblik, u suprotnom gubimo jednostavnost. Neka je M funkcija distribu-

cije, a Sm funkcija prezivljenja slucajne varijable Yi = min (Ti, Ci) dana izrazom

Sm(y) = P (Y > y) = P (T > y,C > y) =

= P (T > y)P (C > y) =

= Sf (y)Sg(y).

17

Page 21: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Funkcija distribucije slucajne varijable Y tada glasi

M(y) = 1− Sf (y)Sg(y).

Funkcija gustoce uredenog para (Yi, δi) proizlazi iz sljedeceg

P (Y = y, δ = 0) = P (C = y, C < T ) = P (C = y, y < T ) =

= P (C = y)P (y < T ) = g(y)Sf (y),

P (Y = y, δ = 1) = P (T = y, T < C) = P (T = y, y < C) =

= P (T = y)P (y < C) = f(y)Sg(y).

Kako je Y neprekidna slucajna varijabla, a δ diskretna, funkciju gustoce zapisujemo

P (Y, δ) = (f(yi)Sg(yi))δi · (g(yi)Sf (yi))

1−δi

Sada je funkcija vjerodostojnosti za n n.j.d. parova (Yi, δi) dana izrazom

L(y; θ) =n∏i=1

(f(yi)Sg(yi))δi · (g(yi)Sf (yi))

1−δi =

=

(n∏i=1

Sg(yi)δig(yi)

1−δi

)(n∏i=1

f(yi)δiSf (yi)

1−δi

).

Ukoliko distribucija slucajne varijable C ne sadrzava nikakve nama vazne parametre, tada prvi

faktor nema nikakvu ulogu u procesu maksimizacije. Stoga, funkcija vjerodostojnosti moze

biti zapisana na sljedeci nacin

L(y; θ) =n∏i=1

f(yi)δiSf (yi)

1−δi . (2.9)

Ovdje vidimo kako je cenzoriranje uklopljeno u prilagodavanje procjene. Svaka promatrana

vrijednost (yi, δi) doprinosi ili funkcijom gustoce f(yi) ili funkcijom prezivljenja Sf (yi), ovisno

o vrijednosti varijable δi, tj. je li trenutak cenzoriran ili je klijent otisao u default.

Prisjetimo se da je f(t) = λ(t)S(t), tada iz (2.9) funkciju log-vjerodostojnosti mozemo zapisati

na sljedeci nacin:

L(t; θ) =n∏i=1

f(t)δiS(t)1−δi =

=n∏i=1

(λ(t)S(t))δiS(t)1−δi =

=n∏i=1

λ(t)δiS(t),

18

Page 22: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

logL(t; θ) =n∑i=1

δi log λ(t) +n∑i=1

logS(t), (2.10)

gdje se u konacnici dolazi do funkcije koja se maksimizira Newton-Raphsonovom metodom,

koju cemo kratko obraditi u nastavku.

Da bi u izraz (2.10) ukljucili nezavisne varijable, dani izraz zapisujemo na sljedeci nacin

logL(t, x; θ) =n∑i=1

δi log λ(t|x) +n∑i=1

logS(t|x). (2.11)

Newton-Raphson metoda

Newton-Raphsonova metoda je jedna od metoda uz pomoc koje rijesavamo nelinearnu

jednadzbu oblika∂`(β)

∂βj= 0, j = 1, . . . , p,

a kao rijesenje dobivamo aproksimirane nepoznate parametre

β(0), β(1), . . . , β(m).

(m+ 1) aproksimaciju nepoznatog parametra dobivamo sljedecom formulom:

β(m+1) = β(m) − J−1(β(m); y)∇`(β(m); y), m = 0, 1, . . . ,

gdje je β(0) vektor nepoznatih parametara, kojem sami zadajemo pocetne vrijednosti, a

∇`(β(m); y) =

[∂`(β(m); y)

∂β1

· · · ∂`(β(m); y)

∂βp

]

je gradijent funkcije log-vjerodostojnosti i

J(β(m); y) =

∂2`(β(m); y)

∂β21

· · · ∂2`(β(m); y)

∂β1∂βp...

...

∂2`(β(m); y)

∂βp∂β1

· · · ∂2`(β(m); y)

∂β2p

Hessian matrica ciji elementi su parcijalne derivacije drugog reda funkcije `(β).

19

Page 23: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Primjer 2.1 (Eksponencijalni model). Koristenjem metode maksimalne vjerodostojnosti (2.10),

funkcije rizika (2.4) i funkcije prezivljenja (2.5) eksponencijalnog modela procjenimo nepoznati

parametar λ. Uvrstavanjem (2.4) i (2.5) u izraz (2.10) slijedi da je

logL(t;λ) = nu log λ− λn∑i=1

ti,

gdje je nu broj necenzoriranih podataka. Oznacimo li s w sumu svih vremena otkazivanja i

cenzoriranih vremena, tj.

w =n∑i=1

ti,

dobivamo sljedece:

logL(t;λ) = nu log λ− λw.

Tada derivacijom logL(t;λ) po λ dobivamo sljedece:

∂ logL(t;λ)

∂λ=nuλ− w,

∂2 logL(t;λ)

∂λ2= −nu

λ2.

Izjednacavanjem derivacije logL(t;λ) s nulom dobivamo da je MLE za λ dan izrazom

λ =nuw.

Dakle, procjena nepoznatog parametra λ moze se interpretirati kao broj otkazivanja po osobi

kroz ukupno vrijeme promatranja. Varijancu od λ2 dobivamo uvrstavanjem MLE od λ u inverz

druge derivacije i dobivamo sljedeci rezultat:

Var λ =nuw2.

Nadalje, standardna pogreska iznosi

se(λ) =

√nuw

.

Primjer 2.2 (Weibullov model). Koristenjem metode maksimalne vjerodostojnosti (2.10),

funkcije rizika (2.6) i funkcije prezivljenja (2.7) Weibullovog modela procjenjujemo nepoznate

parametare λ i γ. Uvrstavanjem (2.6) i (2.7) u izraz (2.10) dobivamo

logL(t;λ, γ) =n∑i=1

δi log(λγtγ−1i )−

n∑i=1

λtγi =

=n∑i=1

δi(log λ+ log γ + (γ − 1) log ti)− λn∑i=1

tγi =

= nu log λ+ nu log γ + (γ − 1)n∑i=1

δi log ti − λn∑i=1

tγi .

20

Page 24: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Derivacijom logL(t;λ, γ) po λ i γ dobivamo:

∂ logL(t;λ, γ)

∂λ=nuλ−

n∑i=1

tγi ,

∂ logL(t;λ, γ)

∂γ=nuγ

+n∑i=1

δi log ti − λn∑i=1

tγi log ti.

Izjednacavanjem parcijalnih derivacija s nulom dobivamo MLE od λ:

λ =nu∑ni=1 t

γi

,

dok procjenitelj parametara γ ne mozemo odrediti analiticki, nego koristimo Newton-Raphsonovu

metodu za pronalazenje numerickog rjesenja, ili pretpostavimo da je γ vec poznat.

U nastavku cemo razmatrati parametarske modele u kojima su ukljucene nezavisne vari-

jable. Najpoznatiji medu njima su model proporcionalnih rizika i model ubrzanog vremena

otkazivanja. Svaki je specifican na svoj nacin, sto cemo pokazati u daljnjem tekstu.

2.2.2. Model proporcionalnih rizika (PH model)

Definicija 2.3. Neka je X = (X1, X2, . . . , Xp)′ vektor nezavisnih varijabli, x = (x1, x2, . . . , xp)

vrijednosti koje prima taj vektor, a β = (β1, β2, . . . , βp)′ vektor regresijskih koeficijenata. Tada

je model proporcionalnih rizika5 dan formulom

λ(t|x) = λ0(t) exp(β′x) = λ0(t) exp(β1x1 + β2x2 + . . .+ βpxp),

gdje se λ0(t) obicno naziva osnovnom funkcijom rizika i odgovara vrijednosti funkcije rizika

kada je β′x = 0.

Pripadna funkcija prezivljenja glasi

S(t|x) = S0(t)exp(β′x), (2.12)

gdje je S0(t) osnovna funkcija prezivljenja.

Za λ0(t) koristimo jednu do pripadnih parametarskih funkcija rizika, a kako ce se kasnije

pokazati, mozemo ju ostaviti i kompletno neodredenu bez smanjivanja mogucnosti procjene

nepoznatog parametra β, koristeci Coxov poluparametarski PH model. Ovisno ima li os-

novna funkcija rizika λ0(t) konstantan parametar skaliranja, β′x moze ali i ne mora sadrzavati

intercept β0. Tada bi osnovnu funkciju rizika mogli zapisati kao

λ∗0(t) = λ0(t) exp(β0),

5engl. proportional hazards - PH.

21

Page 25: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

a kompletna funkcija rizika PH modela tada je dana izrazom

λ(t|x) = λ∗0(t) exp(β′x) = λ0(t) exp(β0 + β1x1 + β2x2 + . . .+ βpxp).

Izraz exp(β′x) nazivamo relativna funkcija rizika ili risk score funkcija i u mnogim je slucajevima

od primarnog interesa buduci opisuje efekte nezavisnih varijabli, koji po pretpostavci ne ovise

o vremenu t. Obicno je nenegativna funkcija vektora nezavisnih varijabli X, koja skalira os-

novnu funkciju rizika.

Svojstvo PH modela implicira da apsolutne razlike u x podrazumjevaju proporcionalne

razlike u riziku u svakom trenutku t. Za neki trenutak t, klijente i i j s vektorima karakteristika

x(i) i x(j) imamo

λ(t|x(i))

λ(t|x(j))= exp(β′x(i) − β′x(j)) = exp[β′(x(i) − x(j))]. (2.13)

Izraz (2.13) jos mozemo zapisati u formi ”relativnog log rizika”

log

[λ(t|x(i))

λ(t|x(j))

]= β′(x(i) − x(j)). (2.14)

Primjetimo da desna strana izraza (2.14) ne ovisi o vremenu prezivljenja, tj. rezultat propor-

cionalnih razlika u riziku je konstantan. Promotrimo li sada klijenta kojemu se mijenja samo

jedna karakteristika i to za neku vrijednost δ, tada imamo

λ(t|xk + δ)

λ(t|xk)= exp[βk((xk + δ)− xk)] = exp(βkδ).

U slucaju kada je δ = 1, tj. kada se karakteristika mijenja samo za jednu jedinicu, dobivamo

jednostavniji izrazλ(t|xk + 1)

λ(t|xk)= exp(βk).

Izraz na desnoj strani poznat je jos pod nazivom omjer rizika, a dobivene rezultate interpre-

tiramo na sljedeci nacin:

• promjena jedne nezavisne varijable za δ utjece na promjenu funkcije rizika za faktor

exp(βkδ), uz ostale nepromijenjene uvjete,

• u slucaju δ = 1 funkcija rizika se mjenja za faktor exp(βk), uz ostale nepromijenjene

uvjete.

22

Page 26: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

2.2.3. Model ubrzanog vremena otkazivanja (AFT model)

Iako je parametarski PH model uvelike primjenjiv u analiziranju podataka o prezivljenju,

malo je distribucija koje se koriste u ovom modelu. Zato kao alternativa postoji model ubrza-

nog vremena otkazivanja6. Pod AFT modelima mjerimo direktne ucinke nezavisnih varijabli

na vrijeme prezivljenja umjesto na rizik, kao sto smo radili u PH modelu. Ova karakteristika

dozvoljava nam laksu interpretaciju rezultata zbog toga sto parametri mjere ucinak referentnih

varijabli na ocekivano vrijeme prezivljenja.

Definicija 2.4. Neka je X = (X1, X2, . . . , Xp)′ vektor nezavisnih varijabli, x = (x1, x2, . . . , xp)

vrijednosti koje prima taj vektor, a α = (α1, α2, . . . , αp)′ vektor regresijskih koeficijenata. Mo-

del ubrzanog vremena otkazivanja dan je izrazom

λ(t|x) = η(x)λ0 (t · η(x)) ,

gdje λ0(t) oznacava osnovnu funkciju rizika i odgovara vrijednosti funkcije rizika kada je

β′x = 0, a η(x) je faktor ubrzanja dan formulom

η(x) = exp(−α1x1 − α2x2 − . . .− αpxp).

Pripadna funkcija prezivljenja glasi

S(t|x) = S0 (t · η(x)) ,

gdje je S0(t) osnovna funkcija prezivljenja.

Odgovarajuce log-linearna forma AFT modela s obzirom na vrijeme dana je s

log T = µ+ α1x1 + α2x2 + . . .+ αpxp + σε, (2.15)

gdje je µ intercept, σ parametar skaliranja i ε je slucajna pogreska. Ovu formu mozemo

zapisati i na sljedeci nacin

log(T · η(x)) = µ+ σε.

Faktor ubrzanja η(x), koji je po pretpostavci konstantan kroz vrijeme, na T djeluje na sljedece

nacine

• η(x) > 1: djeluje tako da ubrza protok vremena, te je vrijeme prezivljenja skraceno,

• η(x) < 1: djeluje tako da uspori protok vremena, te je vrijeme prezivljenja produljeno.

6engl. accelerated failure time - AFT.

23

Page 27: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Funkciju prezivljenja za T mozemo izraziti preko funkcije distribucije od ε

S(t) = P (T ≥ t) =

= P (log T ≥ log t) =

= P (µ+ α′x+ σε ≥ log t) =

= P

(ε ≥ log t− µ− α′x

σ

)=

= 1− Fε(

log t− µ− α′xσ

)=

= Sε

(log t− µ− α′x

σ

). (2.16)

Derivacijom izraza (2.15) dolazimo do regresijskog koeficijenta ovog modela

αk =∂ log T

∂xk.

Sada iz izraza (2.15) dolazimo do sljedeceg:

T = exp(α′x) exp(µ+ σε).

Iz ovoga se vidi da jedinicna promjena nezavisne varijable u AFT modelu utjece na eksponen-

cionalnu promjenu vremena prezivljenja. Usporedujuci dva klijenta koji se razlikuju samo u

k-toj osobini, gdje cemo sa δ oznaciti tu razliku, dolazimo do sljedeceg rezultata

TjTi

= exp[αk((xk + δ)− xk)] = exp(αkδ),

gdje izraz na desnoj strani nazivamo vremenski omjer. Stavimo li δ = 1, uz sve ostale nepro-

mjenjene uvjete dolazimo do zakljucka da je

TjTi

= exp(αk),

tj. jedinicna promjena nezavisne varijable, uz ostale nepromjenjene uvjete, mijenja vrijeme

prezivljenja za faktor exp(αk).

24

Page 28: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Odnos izmedu PH i AFT modela na primjeru Weibullove distribucije

Pretpostavimo da vrijeme prezivljenja T ima Weibullovu distribuciju s parametrima λ, γ > 0,

te neka su funkcija prezivljenja i funkcija rizika dane izrazima (2.6) i (2.7).

PH model

Pod Weibullovim PH modelom, funkcija rizika s ukljucenim nezavisnim varijablama dana

je izrazom

λ(t|x) = λγtγ−1 exp(β′x).

Vidimo da vrijeme prezivljenja ove osobe ima Weibullovu distribuciju s parametrom skalira-

nja λ exp(β′x) i parametrom oblika γ. Stoga Weibullova familija s fiksnim γ ima svojstvo PH

modela. Ovo pokazuje da ucinci nezavisnih varijabli u modelu mijenjaju parametar skaliranja

u distribuciji, dok parametar oblika ostaje konstantan.

Koristenjem izraza (2.12) i osnovne funkcije prezivljenja (2.7) dolazimo do odgovarajuce funk-

cije prezivljenja Weibullovog PH modela

S(t|x) = exp−λtγ exp(β′x). (2.17)

AFT model

Funkciju rizika Weibullovog AFT modela mozemo zapisati koristeci izraz (2.4) i funkciju

rizika (2.6) osnovnog Weibullovog modela

λ(t|x) = η(x)λ0 (t · η(x)) =

= η(x)λγ (t · η(x))γ−1 =

= λγtγ−1 exp (−γα′x) . (2.18)

Ako T ima Weibullovu distribuciju, tada ε ima distribuciju ekstremne vrijednosti (Gumbel

distribuciju)7. Funkcija prezivljenja Gumbel distribucije dana je izrazom

Sε(ε) = e−eε.

Iz jednadzbe (2.16) dan je AFT prikaz funkcije prezivljenja Weibullovog modela

S(t|x) = exp

[− exp

(log t− µ− α′x

σ

)]=

= exp

[−t

1σ exp

(−µ− α′x

σ

)]. (2.19)

7vidi [4], str. 210

25

Page 29: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Usporedujuci formule (2.19) i (2.17), intuitivno dolazimo do zakljucka da parametre λ, γ, βj u

PH modelu mozemo prikazati pomocu parametara µ, σ, αj iz AFT modela

λ = exp(−µσ

),

γ =1

σ, (2.20)

βj =−αjσ

.

Sada koristeci (2.20) i izraz (2.18) mozemo zapisati funkcije rizika Weibullovog AFT modela

λ(t) =1

σt1σ−1 exp

(−µ− α′x

σ

).

2.3. Poluparametarski Coxov PH model

Prisjetimo se funkcije rizika parametarskog PH modela

λ(t|x) = λ0(t) exp(β′x) = λ0(t) exp(β1x1 + β2x2 + . . .+ βpxp).

Poluparametarski PH model, jos poznat kao Coxov8 regresijski model, za razliku od para-

metarskog PH modela ne zahtjeva nikakvu pretpostavku o parametarskoj formi λ0(t), ali

pretpostavlja parametarsku formu za ucinak nezavisnih varijabli na rizik, tj. exp(β′x). Koefi-

cijente β u parametarskom PH modelu procjenjujemo metodom maksimalne vjerodostojnosti,

dok kod Coxovog PH modela koristimo funkciju parcijalne vjerodostojnosti. Osim navedenih

razlika, ova dva modela su u svemu ostalom identicna.

2.3.1. Metoda parcijalne vjerodostojnosti

Neka su t1, t2, . . . , tr promatrana vremena prezivljenja za r osoba, te neka je Rj skup

klijenata koji neposredno prije trenutka t(j) nisu u defaultu. Uvjetna vjerojatnost da j-ti

klijent, s vektorom vrijednosti nezavisnih varijabli x(j), u trenutku t(j) ulazi u default s obzirom

da jedan klijent iz skupa Rj u trenutku t(j) odlazi u default dana je sljedecim izrazom

8Sir David Roxbee Cox (1924. god.) - Britanski statisticar bogate biografije, najpoznatiji po razvitkumodela proporcionalnih rizika. Osvojio zlatnu medalju za istrazivanje raka za razvitak regresijskog modelaproporcionalnih rizika.

26

Page 30: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

P (osoba j odlazi u default u t(j) | jedna osoba iz Rj odlazi u default u t(j)) =

=P (osoba j odlazi u default u t(j))∑

l∈Rj

P (osoba k odlazi u default u t(j))=

=lim

∆t→0P (osoba j odlazi u default u (t(j), t(j) + ∆t))/∆t

lim∆t→0

∑l∈Rj

P (osoba l odlazi u default u (t(j), t(j) + ∆t))/∆t=

=λj(t(j))∑

l∈Rj

λl(t(j))=

λ0(t(j)) exp(β′x(j))∑l∈Rj

λ0(t(j)) exp(β′x(l))=

=exp(β′x(j))∑

l∈Rj

exp(β′x(l)).

Tada je funkcija parcijalne vjerodostojnosti za Coxov PH model dana formulom

LP (t, x; β) =r∏j=1

exp(β′x(j))∑l∈Rj

exp(β′x(l)).

Treba napomenuti da se dobivena funkcija vjerodostojnosti odnosi samo na necenzorirane

podatke i podatke koji nisu vezani9. U slucaju cenzoriranih podataka uvodimo indikator

cenzoriranja δj, gdje nula oznacava trenutak cenzoriranja, tada funkcija vjerodostojnosti moze

biti izrazena kao

LP (t, x; β) =r∏j=1

exp(β′x(j))∑l∈Rj

exp(β′x(l))

δj

. (2.21)

Dok u slucaju vezanih podataka, zbog cinjenice da u trenutku t(j) vise klijenata odlazi u default

i toga sto ne mozemo odrediti redoslijed odlazaka u default, dolazi do problema odredivanja

tocne vrijednosti funkcije parcijalne vjerodostojnosti, te je potrebno odrediti njenu pribliznu

vrijednost. Breslow je predlozio aproksimaciju

LP (t, x; β) =r∏j=1

∏l∈Dj

exp(β′x(l))

∑l∈Rj

exp(β′x(l))

dj,

9Vezani podaci - nazivamo one koji imaju isto vrijeme ulaska u default

27

Page 31: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

gdje je Dj skup od dj klijenata koji ulaze u default u trenutku t(j). Logika ove metode je takva

da posto ne mozemo odrediti redoslijed odlazaka u default u trenutku t(j) pretpostavimo da je

skup Rj iste velicine bez obzira koji klijent prvi ulazi u default. Drugim rijecima, grupiramo

sve vezane podatke, tako da u brojnik ukljucujemo sve klijente koji odlaze u default u trenutku

t(j), a nazivnik modificiramo tako da ukljucuje sve moguce kombinacije odlazaka u default.

Alternativnu aproksimaciju dao je Efron sljedecim izrazom:

LP (t, x; β) =r∏j=1

∏l∈Dj

exp(β′x(l))

dj∏k=1

∑l∈Rj

exp(β′x(l))−k − 1

dj

∑l∈Dj

exp(β′x(l))

.

Efronova metoda uzima u obzir kako se skupRj mijenja ovisno o redoslijedu vezanih podataka.

Takvim nacinom postignuto je da je Efronova metoda uvelike tocnija nego li je to Breslowljeva

metoda.

2.3.2. Procjena osnovne funkcije rizika i osnovne funkije prezivljenja

Procjenu osnovne funkcije prezivljenja izveli su Kalbfleisch i Prentice (vidi [8], str. 114) ko-

risteci metodu maksimalne vjerodostojnosti. Osnovna ideja ovog pristupa proizlazi iz Kaplan-

Meierovog procjenitelja za funkciju prezivljenja

SKM(t) =k∏j=1

nj − djnj

, k = 1, 2, ..., r,

gdje je nj broj klijenata, dj broj onih koji ulaze u default, a promatramo u trenucima

t(1) < t(2) < · · · < t(r). Neka je pj =nj−djnj

procjenitelj vjerojatnosti da klijent u trenutku

t(j) nece uci u default. Tada osnovnu funkciju rizika procjenjujemo s

λ0(t(j)) = 1− pj.

Kako bi dosli do vjerojatnosti koja je procjenjena s pj, gledamo rastav funkcije prezivljenja

na produkt vjerojatnosti da u promatranim trenucima klijent ne ude u default

S(t(j)) =k∏j=1

pj = pjS(t(j−1)).

Tada traznu vjerojatnost mozemo zapisati

pj =S(t(j))

S(t(j−1)),

28

Page 32: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

ili u terminu modela proporcionalnih rizika

pj =S0(t(j))

S0(t(j−1)),

Sada ovu vjerojatnost mozemo zapisati kao

S(t(j))

S(t(j−1))=

S0(t(j))exp(β′x)

S0(t(j−1))exp(β′x)=

(S0(t(j))

S0(t(j−1))

)exp(β′x)

= pexp(β′x)j .

Procijenjene vrijednosti koeficijenata β koji cine vektor β, dobivamo maksimizirajuci izraz

(2.21). Sada procjenitelja vjerojatnosti da klijent u trenutku t(j) ne ude u default dobivamo

rjesavajuci sljedecu jednadzbu

∑l∈Dj

exp(β′x(l))

1− pexp(β′x(l))

j

=∑l∈Rj

exp(β′x(l)) (2.22)

gdje je Rj skup svih klijenata koji u trenutku t(j) nisu usli u default, a Dj predstavlja skup

od dj klijenata koji u trenutku t(j) ulaze u default.

Ukoliko nema vezanih podataka, skup Dj sadrzi samo jednog klijenta i rjesenje izraza (2.22)

zapisujemo

pj =

1−exp(β′x(j))∑

l∈Rj

exp(β′x(l))

− exp(β′x(j))

,

dok kod vezanih podataka rjesenje dobivamo iterativnom metodom. Na kraju osnovnu funkciju

prezivljenja zapisujemo

S0(t) =k∏j=1

1−exp(β′x(j))∑

l∈Rj

exp(β′x(l))

− exp(β′x(j))

.

29

Page 33: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Poglavlje 3

Analiza prezivljenja u modeliranjubihevioralnog skoringa

3.1. Prethodna istrazivanja

Banasik, Crook i Thomas (vidi [2]) u svojem radu koristeci podatke znacajne financij-

ske ustanove iz Velike Britanije usporeduju modele analize prezivljenja s modelom linearne

regresije. Uzorak se sastoji od 50000 prihvacenih zajmova i promatrani su u razdoblju od

lipnja 1994. do ozujka 1997. Kao varijable koristene su pocetne karakteristike zajmotrazitelja,

kao primjerice dob, bracni status, zaposlenje, prebivaliste, te specificne informacije o kre-

ditu, kao svrha i trajanje kredita. Provjeravali su mogucnost predikcije ranije otplate kredita,

kao i trenutak odlaska u default, a za to su kreirali modele logisticke regresije, Coxov PH

model, te eksponencijalni i Weibullov model. Pokazalo se da je model proporcionalnih ri-

zika konkurentan pristupu logisticke regresije u identificiranju klijenata koji odlaze u default

u prvoj godini i da je bolji u predvidanju ranije otplate u prvoj godini. Noh, Roh i Han

(vidi [14]) usporeduju efikasnost neuronskih mreza, metode linearne regresije i metode analize

prezivljenja. Koristili su podatke korisnika kreditnih kartica iz Koreje, a podaci se sastoje od

povijesti koristenja kartica kroz 13 mjeseci, kao i neke demografske informacije. Kao model

analize prezivljenja su koristili model ubrzanog vremena otkazivanja koji je koristio vise vari-

jabli nego ih je bilo u modelu logisticke regresije. U radu su dosli do zakljucka da je model

analize prezivljenja bolje predvidao lose klijente, dok su neuronske mreze i model logisticke

regresije bili bolji u predvidanju dobrih klijenata. Jos kao pozitivnu stranu modela analize

prezivljenja navode da za razliku od logisticke regresije i neuronskih mreza, model analize

prezivljenja predvida i trenutak ulaska klijenta u default. Stepanova i Thomas (vidi [17]) u

svojem radu usporeduju model analize prezivljenja s modelom logisticke regresije. Predlazu

tri poboljsanja analize prezivljenja. Prvo je gruba klasifikacija, tj. segmentiranje, koristenjem

tehnika analize prezivljenja. Drugo je koristenje dijagnostike radi provjere adekvatnosti kre-

ditnog rizika. I trece, koristenje vremenski ovisne varijeble radi povecanja ili smanjenja efekta

30

Page 34: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

varijabli na predikciju, te za prevladavanje restrikcija modela proporcionalnih rizika. Koriste

informacije iz glavne Britanske financijske ustanove, a uzorak se sastoji od 50000 odobrenih

kredita. Varijable su uglavnom karakteristike iz kreditne aplikacije, a statusna varijabla pro-

matra je li klijent otisao u default, otplatio kredit na vrijeme, otplatio ranije ili je kredit jos

aktivan. Iz rezultata vidljivo je da model analize prezivljenja gubi na snazi u drugoj godini,

ali u slucaju segmentiranih podataka bolji je nego model logisticke regresije. Stepanova i

Thomas (vidi [16]) kreiraju skoring model na osnovi analze prezivljena i njegove performanse

usporeduju s modelom logisticke regresije. Proces kreiranja modela sadrzi fazu kreiranja i

fazu dijagnostike. U prvoj fazi kreira se model koristeci Coxov model proporcionalnih rizika i

informacije iz kreditne aplikacije, dok se u drugom koraku kreiraju modeli za svaki mjesec do

klijentovog defaulta. Aplikacijski skor iz prvog koraka i bihevioralne varijable se koriste kao

prediktori, dok je zavisna varijabla preostalo vrijeme do defaulta. Podaci dolaze iz anonimne

financijske ustanove iz Velike Britanije i sadrzavaju 11500 aplikacija sa svim njenim karakteris-

tikama i naknadnim varijablama performansi za period od 36 mjeseci. Kreiraju se 3 varijable:

ocekivana bilanca, razlika bilance i razlika razlike bilance koji su indikatori zaostaje li klijent u

placanju kredita ili ga je preplatio. Zakljucak je da su bihevioralne varijable u pocetku vazne,

dok u kasnijim fazama aplikacijske varijable postaju prediktivnije. Usporedujuci rezultate vid-

ljivo je da model proporcionalnih rizika u drugoj godini premasuje predikciju modela logisticke

regresije. Malik i Thomas (vidi [12]) u svojem radu kreiraju Coxov model proporcionalnih ri-

zika u koji ukljucuju bihevioralni skor i makroekonomske faktore, koji ce na kraju predvidati

default klijenata u sljedecih 12 mjeseci. Podaci su iz jedne glavne Britanske banke za period

od 5 godina, a sadrzavaju bihevioralni skor klijenta s njihovim informacijama o vremenu do

defaulta ili cenzoriranja i status defaulta ili cenzoriranja. Oni ne predvidaju buduci bihevi-

oralni skor klijenta nego smatraju da dostupni skor predstavlja najbolju procjenu buduceg

rizika od defaulta. Glavni zakljucak njihova rada je taj da makroekonomski faktori i vrijeme

pocetka kredita znacajno poboljsavaju predikciju defaulta, ali nemaju nekog velikog ucinka

na diskriminatornu sposobnost modela. Andreeva (vidi [1]) u svom radu promatra primjenu

analize prezivljenja na revolving kredite, te istrazuje familije distribucija modela ubrzanog

vremena otkazivanja koji do sada nisu bili obradivani. Usporeduje prediktivnu sposobnost

modela logisticke regresije, parametarskih modela prezivljenja i Coxovog poluparametarskog

modela. Podaci su dobiveni od internacionalne konzultantske kompanije za kreditni skoring

i sadrzava podatke za Belgiju, Njemacku i Nizozemsku. Za svaku zemlju je kreiran genericki

model i promatrani njihova prediktivna sposobnost. Da se ne bi morao praviti model za svaku

zemlju posebno razmatrana je opcija da se napravi jedan model koji ce zadovoljavati sve uvi-

jete i biti iskoristiv u svim zemljama, a to je moguce koristenjem stratifikacije na Coxovom

modelu proporcionalnih rizika. Kao i u prijasnjim istrazivanjima zakljuceno je da model ana-

lize prezivljenja ne zaostaje za modelom logisticke regresije u predikciji defaulta. McDonald,

Matuszyk i Thomas (vidi [13]) opisuju kreiranje i implementaciju modela odredivanja cijena za

31

Page 35: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

hipotekarne kredite preko analize prezivljenja, koristenjem modela proporcionalnih rizika. On

omogucuje ukljucivanje klijentovih i specificnih kreditnih atributa, kao npr. LTV - pokrivenost

hipotekarnog kredita procijenjenom trzisnom vrijednoscu nekretnine, i vremenski varirajucih

makroekonomskih faktora kao cijene kuca i osnovne kamatne stope. Zajmodavac tada kreira

portfolio, odreduje jedan ili vise ekonomskih scenarija i predvida diskontirani mjesecni pro-

tok novca kroz cijelo vrijeme trajanja kredita. Simulacija se tada moze iskoristiti za izracun

moguceg defaulta ili ranijeg otplacivanja kredita. Zakljuceno je da ovakav pristup pruza ko-

risne informaciju zajmodavcu i da je pomogao u donosenju odluka za odredivanje vrijednosti

hipotekarnog kredita. Bellotti i Crook (vidi [3]) testiraju hipotezu da vjerojatnost defaulta

ovisi o generalnim ekonomskim uvjetima, koji se mjere makroekonosmkim varijablama kao sto

su kamatna stopa, indeks nezaposlenosti, cijena kuca itd. Podaci dolaze iz Britanske kreditne

ustanove i sadrzi 100000 racuna s aplikacijskim varijablama. Usporedivali su model logisticke

regresije i Coxov model proporcionalnih rizika s ukljucenim makroekonomskim varijablama i

bez njih, radi ispitivanja utjecaja makroekonomskih varijabli na sposobnost predikcije. Za-

kljucak je njihovog rada da je analiza prezivljenja konkurentna s modelom logisticke regresije,

te da ukljucivanje makroekonomskih varijabli znacajno poboljsava prediktivnu sposobnost

modela.

3.2. Kreditni skoring

Poslovne se banke najcesce definiraju prema karakteristicnim aktivnostima kao institucije

koje primaju novcane depozite od najsire javnosti, istodobno odobravaju kredite i obavljaju

placanja. Kreiranje obveza primanjem novcanih depozita i sekundarna emisija novca odobrava-

njem kredita njihova je najvaznija posebna karakteristika koja predstavlja liniju razgranicenja

izmedu banaka i svih drugih financijskih institucija. Depozitno je poslovanje njihova posebna

povlastica, ali odobravanje kredita to nije, jer kredite smiju odobravati i sve druge financijske

institucije pa i poslovna poduzeca. Unatoc tome, banke su i kreditna poduzeca jer kredite

odobravaju stalno, a ne povremeno, cine to profesionalno i simultano s primanjem depozita.

Da bi imala status banke pravna osoba, tehnicki gledajuci, mora obavljati i depozitne i kre-

ditne poslove.

Odobravanje kredita, za razliku primjerice od ulaganja u vrijednosne papire, uvijek pred-

stavlja dvostrani, personalizirani odnos izmedu banke i kreditnog duznika, zahtijeva visokos-

trucna znanja, slozene ekspertize i stalno pracenje kredita. Krediti nose najvise prihoda, ali i

najvise rizika. Propadanja banaka najcesce su povezana s losim kreditnim politikama i losim

kreditnim portfeljem. Zbog takve vaznosti kredita upravljanje se bankama cesto pojednostav-

ljuje i definira kao vjestina ”komponiranja” aktive ili kao sposobnost strukturiranja zdravog

kreditnog portfelja banke.

32

Page 36: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Kredit se moze definirati kao duznicko-vjerovnicki odnos koji nastaje temeljem povjerenja

izmedu osobe koja posuduje neka sredstva (vjerovnik, kreditor) i osobe koja prima ta sredstva

uz obvezu vracanja (duznik, debitor) i druge kreditne uvjete.

Kreditni rizik mozemo definirati na sljedece nacine10:

• posljedica ugovorene i/ili moguce transakcije izmedu davatelja i uzimatelja sredstava

odnosno varijacija mogucih povrata koji bi se mogli zaraditi na financijskoj transakciji

zbog zakasnjelog ili nepotpunog placanja glavnice i/ili kamata,

• vjerojatnost da ce duznik nece platiti/otplatiti dug,

• vjerojatnost da ce klijent koji je dobio kredit otici u default.

Default se kod nas prevodi kao status neispunjavanja obveza, a otici u default smatramo od-

lazak u status neispunjavanja obveza. Prema Odluci o adekvatnosti kapitala koju je propisala

HNB11, status neispunjavanja obveza druge ugovorne strane nastaje kada je ispunjen bilo koji

ili oba sljedeca uvjeta:

(a) kreditna institucija smatra vjerojatnim da druga ugovorna strana nece u cijelosti otplatiti

svoje kreditne obveze, ne uzimajuci u obzir mogucnost naplate iz realizacije instrumenata

osiguranja (ukoliko postoje),

(b) druga ugovorna strana kasni vise od 90 dana po bilo kojoj materijalno znacajnoj kredit-

noj obvezi.

Financijske i kreditne institucije upotrebljavaju razlicite alate i sustave kojima se sluze radi

donosenja odluka o tome odobriti kredit ili ne. Iz perspektive upravljanja rizicima, najvazniji

alat je postao kredit skoring kao statisticki izveden alat za donosenje odluka koji obuhvaca

skor-karticu i skup statistickih pokazatelja. Predvidanje kreditne sposobnosti zajmotrazitelja

je od izuzetnog znacaja za svakog kreditora. Naime, odobravanje kredita zajmotrazitelju koji

ce kasniti u placanju ili koji uopce nece u cjelosti vratiti kredit rezultira gubicima za kreditora

dok, s druge strane, odbijanje zajmotrazitelja koji je potencijalno dobar rezultira manjom

zaradom za kreditora12.

Kreditni skoring je sistem dodjeljivanja bodova zajmotrazitelju ciji zbroj predstavlja nu-

mericku vrijednost koja pokazuje koliko je vjerojatno da zajmotrazitelj kasni u otplati kredita.

Kredit skoring sistem dodjeljuje jednu kvantitativnu mjeru, nazvanu skor, potencijalnom komi-

tentu predstavljajuci buduce ponasanje u otplati dodjeljenog kredita. Analiticari koji razvijaju

skoring sisteme identificiraju one karakteristike komitenata koje najbolje predvidaju otplatu

kredita. Statistickim procedurama dodjeljuju svakoj karakteristici numericku vrijednost tako

da skoring sistem mjeri relativnu vaznost dane karakteristike u predvidanju otplate12.

10preuzeto iz [18]11Odluka o adekvatnosti kapitala kreditnih institucija, Zagreb, lipanj 2012.; dostupno na www.hnb.hr12preuzeto iz [19]

33

Page 37: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Glavni razlozi upotrebe kredit skoringa13:

1. Smanjiti losa zaduzenja.

2. Poboljsati operativnu efikasnost.

3. Osigurati bolju kontrolu kreditnog portfelja putem nadgledanja skoring procesa i karak-

teristika portfelja.

Naime, scoring modeli se mogu podijeliti u dva tipa:

(i) aplikativni scoring koji se odnosi na nove klijente,

(ii) bihevioralni scoring koji se odnosi na racune postojecih klijenata.

Bihevioralni scoring modeli se koriste za donosenje odluka vezanih uz otvorene racune kli-

jenata. Bazirani su na dinamickoj komponenti racuna, a odluke se odnose na upravljanje

racunima, politiku naplate potrazivanja, odredivanje limita, zadrzavanje te zatvaranje racuna

postojecih klijenata i dr. Odabir karakteristika koristenih u razvoju modela zavisi o tipu

kredita, kolicini kredita te namjeni kredita. Kada se radi o aplikativnim scoring modelima,

karakteristike koje se koriste su sljedece: vrijeme provedeno na postojecoj adresi stanovanja,

stambeni status, posjedovanje telefona, godisnji prihod, posjedovanje kreditnih kartica, tip

bankovnog racuna, dob, zanimanje, namjena kredita, bracni status, trajanje racuna u banci,

stabilnost zaposlenja, podaci kreditnog biroa, mjesecne obveze, mjesecni prihodi, broj osoba

u domacinstvu itd. Bihevioralni scoring modeli pored navedenih podataka ukljucuju jos i

podatke ponasanja. Tipicne karakteristike koristene u bihevioralnim modelima, pored nave-

denih, su: povijest neplacanja, povijest koristenja racuna, povijest placanja racuna, naplata

racuna, transakcije vezane uz revolving kredite, podaci iz kreditnih biroa.

3.3. Kreiranje kredit skoring modela

Podaci

Izgradnja bihevioralnog skoring modela u ovom diplomskom radu izvedena je na podacima

jedne banke u Hrvatskoj prikupljanih od 01.01.2009. do 30.06.2009. Uzorak sadrzi 1507

klijenata, ali posto su u podacima bili i oni koji su otisli u default prije pocetka promatranja,

tj. uzorak je sadrzao i one lijevo cenzorirane, njihovim uklanjanjem dolazimo do brojke od

1318 klijenata, od kojih je 736 dobrih, a 582 losa klijenta. U nasem uzorku kao loseg klijenta

smatramo onog koji kasni s placanjem rate kredita vise od 90 dana, dok su dobri svi oni koji do

30.6.2009. nisu usli u default, tj. redovno placaju svoje obveze. Varijable za svakog klijenta

prikazuju njegovo stanje i transakcije putem tekuceg racuna, a sveukupan broj varijabli je

154. Neke od varijabli su: broj transakcija, uplata gotovine, osobni dohodak, kamate u korist

13preuzeto iz [19]

34

Page 38: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

klijenta, uplate i isplate internet bankarstva, interne bezgotovinske uplate i isplate na ili sa

racuna, transakcije sa ziro na tekuci racun, ostale uplate, naknada za iskoristen okvirni kredit,

placanje tranih naloga, dugovanja po kreditnim karticama, razne naknade, podizanje gotovine

i placanje karticama, dani u dozvoljenom ili nedozvoljenom prekoracenju, koliko je puta ulazio

u nedozvoljeno prekoracenje, bio u dozvoljenom ili nedozvoljenom prekoracenju, bio u plusu.

Izgradnja skoring modela

Modeliranje skoring modela obavljeno je programskim paketom R, a kreirani su sljedeci

modeli: parametarski eksponencijalni i Weibullov PH model i poluparametarski Coxov PH

model. Kako su karakteristike svih klijenata u nasem uzorku odredene s 154 varijable, potrebno

je odrediti one koje imaju najveci utjecaj na zavisne varijable, a to su vrijeme prezivljenja i

status. Da bi odredili koja karakteristika bolje diskriminira dobre od losih klijenata koristimo

Pearsonov korelacijski koeficijent, tako da gledamo ujecaj kontinuiranih varijabli na varijablu

time, tj. na proteklo vrijeme do ulaska u default, te za utjecaj kategorijalnih varijabli koristimo

Spearmanov koeficijent korelacije i gledamo njihov odnos na varijablu status, tj. na varijablu

koja oznacava dobre i lose klijente (Tablica 3.1).

Kontinuirane varijable r Kontinuirane varijable r

p01sum 0.2491329 ukupneisplateavg 0.2213158

k01sum 0.1742120 stanjeomjersum 0.1109688

k10sum -0.3323261 okvirsaldomax 0.1057174

isplatagotovinesum 0.1622247 ukupneisplatep1 0.1867116

naknadesum -0.1048651 prekokontinup1 -0.2600692

gotovinabankomatsum 0.1643193 prekodanap1 -0.3325098

v313min 0.1801166 odzadnjegp1 0.4515629

z12sum -0.3049184 kolikodop1 0.3119773

iskdozvmin 0.3410618 kolikoputa -0.3763071

okvirmin 0.2609508 Kategorijalne varijable ρ

iskokviravg 0.3417954 biounedozvoljenom 0.3905080

prekokolikosum -0.2924138 bioudozvoljenom 0.2389439

saldomax 0.1106097 biouplusu -0.4051595

ukupneuplatesum 0.1902010 sokvsavg -0.4428060

Tablica 3.1: Kontinuirane i kategorijalne varijable s pripadnim koeficijentima korelacije r i ρ

35

Page 39: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Modele kreiramo i kasnije validiramo na kompletnom uzorku od 1318 klijenata. Od 27

varijabli s najvecim korelacijskim koeficijentom treba se odrediti one koji ce najbolje diskri-

minirati dobre od losih klijenata i koji ce na kraju uci u nas model. Do tih varijabli dolazimo

kombiniranim koristenjem backward stepwise eliminacije i iskljucivanjem varijabli za koje smo

dobili koeficijente koji nam nisu logicni, npr. da smanjenje place uvjetuje smanjenju rizika od

defaulta.

”Backward stepwise elimination” - postupak regresije korak po korak pri cemu se, do

dobivanja ”najboljeg” regresijskog modela, iz modela sukcesivno izbacuju nezavisne varijable

na svakom koraku regresije. Kriterij za eliminaciju varijable iz modela odreden je pomocu

AIC14 vrijednosti tako da se u svakom koraku eliminira ona varijabla za koju je AIC vri-

jednost najmanja, a zaustavlja se kada se prilikom eliminacije varijable AIC vrijednost ne

smanjuje. Ovaj iterativni pristup odbacuje varijable koje neznatno doprinose ili ne doprinose

predvidanju modela i efikasan je kada se radi s velikim brojem varijabli.

Varijable β eβ Wald p

p01sum -0.00003192979 0.999968071 < 0.001k01sum -0.5156148 0.597133364 < 0.001naknadesum 0.003404404 1.003410206 < 0.001v313min -0.01528840 0.984827874 < 0.001stanjeomjersum -0.0002483994 0.999751631 0.001odzadnjegp1 -0.006429900 0.993590728 < 0.001kolikoputa 0.03756552 1.038280023 0.002bioudozvoljenom 1.046972 2.849011238 0.087biouplusu -0.3187504 0.727057 0.001log(scale) 6.683774 799.3300985 < 0.001log(shape) -0.1032535 0.901898313 0.005

Tablica 3.2: Vrijednosti koeficijenata za svaku varijablu modela i njihove p vrijednosti

Podaci u tablici 3.2 prikazuju nam koeficijente Weibullovog PH modela za kojeg ce se kas-

nije pokazati da je najbolji od svih dobivenih modela analize prezivljenja.

Izgled modela:

λ(t) = 799.330 · 0.902 · t−0.098 · exp(−0.00003192979 · p01sum− 0.5156148 · k01sum)·· exp(0.003404404 · naknadesum− 0.01528840 · v313min− 0.0002483994 · stanjeomjersum)·· exp(−0.006429900 · odzadnjegp1 + 0.03756552 · kolikoputa + 1.046972 · bioudozvoljenom)·· exp(−0.3187504 · biouplusu).

14Akaike informacijski kriterij je mjera relativne kvalitete modela. Racuna se: AIC = 2k − 2 log L, gdje jek broj parametara.

36

Page 40: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Nakon dobivenih varijabli koje ukljucujemo u sam model i njihovih pripadnih koeficijenata

dobro bi bilo da se pogleda i njihova interpretacija:

p01sum - predstavlja osobni dohodak ili mirovinu, tj. sumu osobnih dohodaka ili mirovina

kroz promatrani period od 6 mjeseci, u pravilu bi trebalo biti sto veca vrijednost. Po dobive-

nim koeficijentima vidimo da se za svaku dodatnu jedinicu osobnog dohotka ili mirovine rizik

od odlaska u default smanjuje, tj. funkcija rizika se mijenja za faktor 0.999968071.

k01sum - oznacava kamate u korist klijenta i to sumu kroz 6 mjeseci i pozeljno je da budu

sto vece. Koeficijent dobiven modelom govori da se povecanjem kamata u korist klijenta za

jednu jedinicu smanjuje rizik od odlaska u default, tj. funkcija rizika se mijenja za faktor

0.597133364.

naknadesum - oznacava sumu svih naknada koje mora platiti kroz promatranih 6 mjeseci.

Pozeljno je da ova vrijednost bude sto manja, tj. ukoliko se suma naknada poveca za jednu

jedinicu funkcija rizika raste, tj. mijenja se za faktor 1.003410206.

v313min - predstavlja minimalnu naknadu koju je klijent platio na odobreni okvirni kredit.

Bolje da je veca naknada, a samom jedinicnom promjenom naknade funkcija rizika se mijenja

za faktor 0.984827874.

stanjeomjersum - predstavlja omjer salda i odobrenog iznosa okvirnog kredita. Bolje da je

omjer sto veci, tj. da je saldo veci od odobrenog iznosa okvirnog kredita. Tada se za jedinicnu

promjenu kvocijenta funkcija rizika mijenja za faktor 0.999751631.

odzadnjegp1 - nam prikazuje koliko je dana proslo od zadnjeg dana kada je klijent bio u

nedozvoljenom prekoracenju. Bolje nam je da klijent bude sto duze, tj. da uopce nije ula-

zio u nedozvoljeno prekoracenju. Time se funkcija rizika smanjuje, tj. mijenja za faktor

0.993590728, za svaki dan duze proveden izvan nedozvoljenog prekoracenja.

kolikoputa - prikazuje koliko je puta klijent u promatranom razdoblju ulazio u nedozvoljeno

prekoracenje. Bolje da je klijent sto manje ili da uopce nije bio u nedozvoljenom prekoracenju.

Za svako ulazak u nedozvoljeno prekoracenje funkcija rizika se mijenja za faktor 1.038280023.

bioudozvoljenom - oznacava je li klijent bio u dozvoljenom prekoracenju tijekom promatra-

nog perioda, a najbolje bi bilo da nije ulazio u nikakvo prekoracenje. Ukoliko je klijent ulazio

u dozvoljeno prekoracenje njegov rizik odlaska u default raste i to za faktor 2.849011238, u

protivnom rizik se ne mijenja.

biouplusu - oznacava je li klijent bio u plusu tijekom promatranog perioda. Najbolje bi bilo

da je bio u plusu i time si smanjuje rizik od odlaska u default za faktor 0.727057, dok u su-

protnom slucaju njegov rizik ostaje ne promijenjen.

37

Page 41: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Nakon interpretacije varijabli pogledajmo i deskriptivnu statistiku za svaku varijablu.

Min 1st Qu. Median Mean 3rd Qu. Max

p01sum 0 2805 11479 14022 19095 227042k01sum 0 0 0.030 1.478 0.610 126.910naknadesum 0 106.7 158.6 179.6 219.0 8102.9v313min 0 0 0 19.25 30 225stanjeomjersum -5706.24 -22.68 17.07 63.67 101.38 8402.93odzadnjegp1 0 142 180 146.5 180 180kolikoputa 0 0 0 2.14 3 19

Tablica 3.3: Deskriptivna statistika za kontinuirane podatke

0 1Frekvencija Rel. frekvencija Frekvencija Rel. frekvencija

bioudozvoljenom 101 7.66% 1217 92.34%biouplusu 369 28% 949 72%

Tablica 3.4: Frekvencije i relativne frekvencije za kategorijalne podatke

Validacija

Validacija obuhvaca kvalitativan i kvantitativan pristup koji se medusobno nadopunjavaju.

Za valjanu ocjenu skoring modela nije dovoljno provesti samo jednu od navedenih validacija.

Prvo se obavlja kvalitativna validacija i ako su rezultati zadovoljavajuci prelazi se na kvanti-

tativnu validaciju. Kvalitativna validacija obuhvaca tri podrucja analize15:

• dizajn modela (ocjenjuju se opseg, transparentnost i cjelovitost dokumentacije skoring

modela),

• kvaliteta podataka (provjeravaju se potrebni podaci za izgradnju modela, izvori poda-

taka, reprezentativnost uzorka podataka te ciscenje i definicija uzorka),

• upotreba modela (provjerava se integracija skoring modela u cijeli risk management i

reporting sustav banke).

U statistickim modelima kvantitativna validacija obuhvaca veliki dio razvoja samog modela,

dok se kod drugih modela validacija obavlja nakon samog razvoja. Medutim, svi modeli mo-

raju imati kvantitativnu validaciju.

15preuzeto iz [15]

38

Page 42: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Kvantitativna validacija obuhvaca16:

• preciznost klasifikacija modela (provjerava se razlikuje li model dobre od losih klijenata),

• postupak pregledavanja kalibracije modela (provjeravaju se realizirane vjerojatnosti da

ce klijent biti los s predvidenim),

• ispitivanje stabilnosti modela,

• benchmarking,

• stress testing.

U validaciji naseg modela bazirati cemo se samo na kvantitativnu validaciju, tj. na preciznost

klasifikacije modela. Preciznost klasifikacije modela odnosi se na sposobnost tocnog raspozna-

vanja klijenata, tj. na razlikovanje dobrih i losih klijenata.

Cutoff - Na osnovi izracunanih vrijednosti risk score funkcije, moguce je odrediti granicnu

vrijednost na osnovi koje financijska institucija moze ustanoviti hoce li klijent otici u default

u promatranom razdoblju ili ne. Naime, ako vrijednost risk score funkcije prelazi tu granicnu

vrijednost, financijska institucija ce pretpostaviti da ce taj klijent redovno otplacivati kredit, a

ako je izracunana vrijednost manja od granicne vrijednosti, tada ce zajmotrazitelj vjerojatno

otici u default tjekom promatranog perioda.

Matrica konfuzije

Matrica konfuzije sluzi za klasifikaciju gresaka modela. Na glavnoj dijagonali nalaze se

broj klijenata koji su tocno predvideni (broj dobrih koji su procijenjeni kao dobri i broj losih

koji su procijenjeni kao losi). Na sporednoj dijagonali nalaze se broj pogresno procjenjenih

klijenata s obzirom na njihovu kreditnu sposobnost (broj losih koji su procijenjeni kao dobri i

broj dobrih koji su procijenjeni kao losi). U radu ce zbog specificnog nacina prikaza rezultata

matrica konfuzije biti malo drugacije prikazana.

Greske tipa I i II

Greska tipa I - α greska - predstavlja postotak losih klijenata procjenjenih kao dobri u ukup-

nom broju losih klijenata.

Greska tipa II - β greska - predstavlja postotak dobrih klijenata procjenjenih kao losi u ukup-

nom broju dobrih klijenata.

16preuzeto iz [15]

39

Page 43: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Na osnovu dobivenih modela i podataka nacinjene su predikcije odlazaka u default za

vremenske intervale od jednog, tri i sest mjeseci. Uz promatrane modele analize prezivljenja

izraden je i model logisticke regresije radi usporedbe krajnjih rezultata. Vrijednosti cutoffa u

danim modelima odredeni su tako da budu usporedivi sa stvarnim stanjem u danom trenutku,

to znaci da je za izracunate vrijednosti risk score funkcije odreden cutoff takav da je broj

klijenata koji su ispod te vrijednosti jednak stvarnom broju losih klijenata. U nastavku slijede

dobiveni rezultati.

t = 30 eksp Weib Cox LR

Cutoff 0.890963 0.8756821 1.902142 0.03223777

D - D 1134 1024 1023 1024 1020D - L 0 110 111 110 114L - D 0 110 111 110 114L - L 184 74 73 74 70

Good HR 90.30% 90.21% 90.30% 89.95%Bad HR 40.22% 39.67% 40.22% 38.04%Total HR 83.31% 83.16% 83.31% 82.70%

α greska 59.78% 60.33% 59.78% 61.96%β greska 9.70% 9.79% 9.70% 10.05%

AUC 0.8152078 0.8151695 0.8154043 0.7997230KS Stat. 0.5015528 0.4997891 0.5006710 0.4779446

Tablica 3.5: Predikcija za prvi mjesec

Za kratkorocnu predikciju (tablica 3.5), tj. za prediktiranje hoce li klijent otici u default

u slijedecih mjesec dana, nasi modeli jako dobro predvidaju dobre klijente i to s tocnoscu od

oko 90.2%, dok su losiji u predvidanju onih koji ce otici u default gdje je postotak pogodaka

oko 40%. Ali ukupna tocnost modela je dosta visoka s oko 83.2%. Ovdje vidimo da model

logisticke regresije malo zaostaje za modelima analize prezivljenja. Gledajuci greske tipa I i

tipa II, tj. pogreske u predvidanju dobrih i losih klijenata, vidimo da je greska tipa I dosta

visoka i iznosi oko 60%, dok je greska tipa II ispod 10%.

Kod predikcija za odlazak u default u prva tri mjeseca (tablica 3.6) imamo sljedece rezul-

tate. Modeli nesto losije predvidaju dobre klijente nego za prvi mjesec i to s tocnoscu od oko

84%, dok su losiji, ali za usporedbu s predikcijom za prvi mjesec nesto bolji, u predvidanju

losih klijenata gdje je postotak pogodaka iznad 63%. Sada se ukupna tocnost modela smanjuje

i iznosi 78%. U ovom trenutku model logisticke regresije pokazuje malenu prednost u odnosu

na modele analize prezivljenja. Gledajuci greske tipa I i tipa II vidimo da je sada greska tipa

I nesto niza i iznosi oko 36%, dok je greska tipa II oko 15.7%.

40

Page 44: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

t = 90 eksp Weib Cox LR

Cutoff 0.2830263 0.2896654 1.318408 0.1790496

D - D 920 775 776 775 784D - L 0 145 144 145 136L - D 0 145 144 145 136L - L 398 253 254 253 262

Good HR 84.24% 84.35% 84.24% 85.22%Bad HR 63.57% 63.82% 63.57% 65.83%Total HR 78.00% 78.15% 78.00% 79.36%

α greska 36.43% 36.18% 36.43% 34.17%β greska 15.76% 15.65% 15.76% 14.78%

AUC 0.8520783 0.8520920 0.8522367 0.8478124KS Stat 0.5879670 0.5901409 0.5879670 0.5766714

Tablica 3.6: Predikcija za prva 3 mjeseca

Kako se predikcije rade na osnovi podataka skupljanih kroz period od sest mjeseci, tada

je razumljivo da se najbolji rezultati dobivaju za predikciju ponasanja klijenata u sljedecih

sest mjeseci (tablica 3.7). Kod ovih predikcija modeli predvidaju dobre klijente kao dobre u

postotku od oko 83.9%, dok tocno predvidanju lose klijenata s oko 79.7%. Ukupna tocnost

modela iznosi visokih 82%. Model logisticke regresije u ovom trenutku pokazuje minimalnu

prednost u odnosu na modele analize prezivljenja. Gledajuci greske tipa I i tipa II vidimo da

je greska tipa I najniza u odnosu na prve dvije predikcije i iznosi oko 20%, dok je greska tipa

II oko 16%.

t = 180 eksp Weib Cox LR

Cutoff -0.1605507 -0.1385059 0.8895138 0.3246809

D - D 736 617 618 618 619D - L 0 119 118 118 117L - D 0 119 118 118 117L - L 582 463 464 464 465

Good HR 83.83% 83.97% 83.97% 84.10%Bad HR 79.55% 79.73% 79.73% 79.90%Total HR 81.94% 82.09% 82.09% 82.25%

α greska 20.45% 20.27% 20.27% 20.10%β greska 16.17% 16.03% 16.03% 15.90%

AUC 0.8904592 0.8905316 0.8905059 0.8923549KS Stat 0.6411176 0.6414771 0.6414771 0.6577394

Tablica 3.7: Predikcija za prvih 6 mjeseci

41

Page 45: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

ROC krivulja

ROC17 krivulja je jedan od uobicajenih nacina prikazivanja diskriminacijske moci modela.

Ona prikazuje medusobno kretanje kumulativne frekvencije losih i dobrih zajmotrazitelja pro-

cjenjnih modelom. Pozeljna je konkavnost jer zelimo da je postotak losih zajmotrazitelja u

klasama nizeg ratinga sto veci i da on raste po opadajucoj stopi kako se priblizavamo klasama

viseg ranga.

Povrsinu ispod ROC krivulje cemo oznaciti s AUC18, a ona je mjera kvalitete modela:

0.9− 1: izvrstan model,

0.8− 0.9: dobar model,

0.7− 0.8: osrednji model,

0.6− 0.7: slab model,

0.5− 0.6: los model.

Slika 3.1: ROC krivulje za sva tri vremenska trenutka

Slika 3.1 prikazuje ROC krivulje najboljeg modela za promatrane intervale i iz nje se

vidi kako model bolje klasificira klijente kako se vremenski period povecava. Graficki prikaz

potvrden je i numerickim vrijednostima povrsina ispod ROC krivulje koje mozemo vidjeti u

gore prikazanim tablicama. Kod predvidanja modela za prvi mjesec povrsina je 0.815, za prva

tri mjeseca 0.852, a za sest mjeseci 0.8905 i za model u sva ti slucaja mozemo reci da dobar.

17engl. Receiver Operating Characteristic18engl. Area Under the Curve

42

Page 46: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Slika 3.2: Usporedba ROC krivulji Weibullovog modela i logisticke regresije

Usporedujuci ROC krivulje Weibullovog PH modea i logisticke regresije (Slika 3.2) vidimo

da nema nekih velikih razlika. Vidi se da je Weibullov model bolji kod procijene nizih skorova,

dok je na dalje nesto bolji model logisticke regresije. Gledajuci i AUC vidi se da Weibullov

model ne zaostaje previse za logistickom regresijom, 0.8905059 naspram 0.8923549.

KS test statistika

Jedna od mjera za razlucivost modela jeste tzv. Kologomorov-Smironovljev pokazatelj

koji predstavlja maksimum apsolutnih odstupanja kumulativnih relativnih frekvecija dobrih

od kumulativnih relativnih frekvencija losih klijenata. To je pokazatelj koji mjeri sposobnost

modela da razlikuje dobre od losih klijenata. Test statistika je oblika

Dn = maxt|FD(t)− FN(t)|

gdje n predstavlja velicinu uzorka, FD kumulativnu relativnu frekveciju dobrih, a FN kumu-

lativnu relativnu frekveciju losih klijenata.

Ocjene KS test statistike:

< 0.20: kartica vjerojatno nece raditi

0.20− 0.40: fair

0.41− 0.50: good

0.51− 0.60: very good

0.61− 0.75: awesome

> 0.75: too good to be true

43

Page 47: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Slika 3.3: KS statistika Weibullovog modela za t=180

Slikom 3.3 je prikazana KS statistika Weibullovog modela za predvidanje defaulta u prvih

sest mjeseci. Kako je graf neuobicajenog oblika, uvelike zbog preniskih vrijednosti risk score

funkcije, iz njega ne mozemo iscitati kolika je sposobnost modela da razlikuje dobre od losih

klijenata. Numericka vrijednost KS test statistike, koje vidimo u gornjim tablicama, nam

govori da je model fenomenalan. Vrijednost KS statistike modela kod predvidanja defaulta za

prvi mjesec iznosi 0.4997891, tri mjeseca 0.5901409 i nama najvazniji za sest mjeseci 0.6414771.

3.4. Zakljucak

Iz prijasnjih istrazivanja smo zakljucili da modeli analize prezivljenja nisu nista losiji od

nekih drugih cesce koristenih metoda, kao npr. logisticke regresije ili neuronskih mreza, a uz

to nam pruzaju informaciju o ocekivanom vremenu do defaulta naseg klijenta. Modeli u ovom

diplomskom radu, kreirani na dostupnim podacima, potvrduju tezu iz prijasnja istrazivanja

da modeli analize prezivljenja ne zaostaju za modelom logisticke regresije. Kao najbolji model

odabran je onaj kreiran koristenjem Weibullove distribucije. Iako sva tri modela daju podjed-

nake predikcije Weibullov model je odabran zbog boljih rezultata u predvidanju defaulta za

prva 3 i 6 mjeseci. Jedini nedostatak modela je mali postotak pogodaka losih klijenata za prvi

mjesec, ali je u tome bolji nego logisticka regresija.

44

Page 48: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Bibliografija

[1] G. Andreeva, European generic scoring models using survival analysis, Journal of the

Operational Research Society, 57(2006.), 1180-1187.

[2] J. Banasik, J.N. Crook, L.C. Thomas, Not if but when will borrowers default Journal of

the Operational Research Society, 50(1999.), 1185-1190.

[3] T. Bellotti, J. Crook, Credit scoring with Macroeconomic Variables using Survival

Analysis, Journal of the Operational Research Society, 60(2008.), 1699-1707.

[4] D. Collett, Modelling Survival Data in Medical Research, Second Edition, Chapman &

Hall, 2003.

[5] F.E. Harrell, Jr., Regression Modeling Strategies - with Application to Linear Models,

Logistic Regression and Survival Analysis, Springer, 2002.

[6] D.W. Hosmer, Jr., S. Lemeshow, Applied Survival Analysis - Regression Modeling of Time

to Event Data, Wiley-Interscience, New Jersey, 1999.

[7] Q. Jiezhi, Comparison of Proportional Hazards and Accelerated Failure Time Models,

Department of Mathematics and Statistics, University of Saskatchewan, 2009.

[8] J.D. Kalbfleisch, R.L. Prentice, The Statistical Analysis of Failure Time Data, Wiley-

Interscience, New Jersey, 2002.

[9] J.P. Klein, M.L. Moeschberger, Survival Analysis - Techniques for Censored and Trunca-

ted Data, Springer, 2003.

[10] D.G. Kleinbaum, M. Klein, Survival Analysis - A Self-Learning Text, Third Edition,

Springer, 2012.

[11] E.T. Lee, J.W. Wang, Statistical Methods for Survival Data Analysis, Third Edition,

Wiley-Interscience, New Jersey, 2003.

[12] M. Malik, L.C. Thomas, Modelling credit risk of portfolio of consumer loans, The Journal

of the Operational Research Society, 61(2010.), 411-420.

45

Page 49: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

[13] R.A. McDonald, A. Matuszyk, L.C. Thomas, Application of survival analysis to cash

flow modelling for mortgage products, The Journal of the Operational Research Society,

23(2010.), 1-14.

[14] H.J. Noh, T.H. Roh, I. Han, Prognostic personal credit risk model considering censored

information, Expert Systems With Applications, 28(2005.), 753-762.

[15] T. Pavic, Validacija kreditnih skoring modela, Odjel za matematiku, Diplomski rad, Osi-

jek, 2012.

[16] M. Stepanova, L.C. Thomas, PHAB Scores: Proportional Hazards Analysis Behavioural

Scores, The Journal of the Operational Research Society, 52(2001.), 1007-1016.

[17] M. Stepanova, L.C. Thomas, Survival Analysis Methods for Personal Loan Data, Opera-

tions Research, 50(2002.), 277–289.

[18] N. Sarlija, Klasicna kreditna analiza, Predavanja za kolegij ’Upravljanje kreditnim rizi-

cima’, 2008.

[19] N. Sarlija, Upotreba i primjena kredit skoring modela, Predavanja za kolegij ’Upravljanje

kreditnim rizicima’, 2008.

46

Page 50: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Sazetak

Cilj je ovog diplomskog rada objasniti statisticku pozadinu pri odredivanju bihevioral-

nih skorova klijenata koji otplacuju kredit u nekoj banci te kreirati model koji ce najbolje

odredivati vjerojatnost da ce taj klijent u nekom vremenskom periodu otici u default ili ce i

dalje otplacivati taj kredit. U radu je objasnjena analiza prezivljenja i metode za odredivanje

funkcije prezivljenja koji se u njoj koriste. Najjednostavnija je metoda neparametarska koja

se jos naziva Kaplan-Meierov procjenitelj. Od parametarskih metoda objasnjeni su model

proporcionalnog rizika i model ubrzanog vremena otkazivanja koji se koriste kada je poznata

distribucija podataka koje imamo za klijente. Ako nam distribucija nije poznata i ne mozemo

ju odrediti, koristi se poluparametarski Coxov PH model. Prilikom koristenja Coxovog PH

modela dolazimo do problema vezanih podataka, te je u radu objasnjeno kako i njih ukljuciti

u model. U drugom su dijelu rada navedene statisticke metode iskoristene na stvarnim po-

dacima i kreirani su modeli za procjenu hoce li klijent u nekom periodu otici u default ili ne.

Pokazalo se da je najbolji model onaj kreiran metodom proporcionalnih rizika i koristenjem

Weibullove distribucije, a sve je to potvrdeno prilikom validacije svih modela i usporedeno s

modelom logisticke regresije.

Kljucne rijeci: Analiza prezivljenja, Kaplan-Meierov procjenitelj, model proporcionalnih

rizika, model ubrzanog vremena otkazivanja, poluparametarski Coxov model, vezani podaci,

kreditni rizik, bihevioralni skoring

47

Page 51: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Title and Summary

Survival Analysis in modeling bihevioral scoring

The aim of this thesis is to explain the statistical background used to determine the be-

havioral score of clients who are paying off a bank loan and to create a model that will best

determine the probability of a client going into default or continuing the repayment of the loan.

The paper explains the survival analysis and methods for determining the survival functions.

The simplest method is non-parametric method, also called the Kaplan-Meier estimator. The

paper explains two parametric methods, the model of proportional risks and accelerated fa-

ilure time model, which are used when the distribution of data is known. If the distribution

is unknown or if we cannot determine it, we use semi-parametric Cox PH model. When using

Cox PH model, we come to the problem of tied data, so the paper explains how to include

them in the model. In the second part of this thesis, the above mentioned statistical methods

are used on real data, and models were created to assess whether the client will go into defa-

ult or not. It is shown that the best model is created by using proportional hazard method

with Weibull distribution, and all this was confirmed during the validation of the model and

compared with the logistic regression.

Keywords: Survival analysis, Kaplan-Meier estimator, proportional hazard, accelerated

failure time, semi-parametric Cox model, tied data, credit risk, behavioral scoring

48

Page 52: Davor Nazifovi c - Odjel Za Matematikumdjumic/uploads/diplomski/NAZ02.pdfSveu cili ste Josipa Jurja Strossmayera u Osijeku Odjel za matematiku Davor Nazifovi c Analiza pre zivljenja

Zivotopis

Roden sam 28. sijecnja 1983. godine u Osijeku gdje zavrsavam osnovnu skolu ”Grigor

Vitez”, a zatim Ekonomsku i upravnu skolu u Osijeku. Godine 2001. upisujem Sveucilisni

dodiplomski studij Matematika-Informatika na Odjelu za matematiku, ali se 2005. godine

prebacujem na Sveucilisni preddiplomski studij matematike, isto na Odjelu za matematiku,

kojeg sam zavrsio 2009. godine i stekao naziv Sveucilisnog prvostupnika matematike. Od 2009.

godine student sam Sveucilisnog diplomskog studija matematike, smjer poslovna i financijska

matematika.

49