Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Praca dyplomowa magisterska
Modelowanie straty przy użyciu GLM i kopuł
Sylwia Piotrowska
Rok akademicki 2017/2018
Spis treści
Wstęp i cel pracy 3
1 Kopuły 4
1.1 Definicja kopuły . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Własności kopuł . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Twierdzenie Sklara . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Kopuły a tau Kendall’a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Rodziny kopuł . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Estymacja łącznej szkody z wykorzystaniem kopuł 19
2.1 Kopuła dla ciągło-dyskretnych rozkładów brzegowych . . . . . . . . . . . . . . . . 19
2.2 Rozkład łącznej szkody z polisy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Rozkłady brzegowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.2 Model rozkładu łącznego dla średniej wartości szody i liczby szkód z wyko-
rzystaniem kopuły . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.3 Estymacja łącznej szkoda z polisy . . . . . . . . . . . . . . . . . . . . . . . 25
3 Modele regresyjne 30
3.1 Zagadnienie klasyfikacji w ubezpieczeniach . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Uogólnione modele liniowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 GLM dla liczby szkód i średniej wartości szkody . . . . . . . . . . . . . . . . . . . 38
3.3.1 Modelowanie niezależne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Modelowanie z wykorzystaniem kopuły . . . . . . . . . . . . . . . . . . . . . 46
4 Podsumowanie 52
A Dodatek: podstawowe elementy rachunku prawdopodobieństwa 53
B Dodatek: rozkłady zmiennych losowych 57
C Dodatek: estymatory największej wiarogodności 59
D Dodatek: kody programów 61
Wykaz rysunków i tabel 68
Wykaz literatury 69
2
Wstęp i cel pracy
W życiu każdego człowieka dochodzi do zdarzeń, które są od niego niezależne i w ogólności są
postrzegane jako przypadkowe. Niektóre z tych zdarzeń mogą nieść ze sobą koszty, straty lub innego
rodzaju skutki wyrażane w jednostkach pieniężnych. Aby człowiek mógł zwiększyć poczucie swo-
jego bezpieczeństwa, powstały instytucje takie jak towarzystwa ubezpieczeniowe, które świadczą
ochronę ubezpieczeniową dla swoich klientów. Tak więc, aby zabezpieczyć się przed niekorzystnymi
przypadkami losowymi, zawierane są umowy ubezpieczenia, czyli tzw. polisy ubezpieczeniowe. Poli-
sa jest dokumentem potwierdzającym przeniesienie na ubezpieczyciela odpowiedzialności za szkody
powstałe w wyniku zdarzeń ujętych w wykazie tzw. ryzyk ubezpieczeniowych i z tego tytułu obję-
tych stosowną ochroną. Ponadto w umowie ubezpieczenia ubezpieczony jest zobowiązany zapłacić
składkę. Zasadniczo wyróżnia się dwa działy ubezpieczeń: ubezpieczenia osobowe i ubezpieczenia
majątkowe. Do ubezpieczeń majątkowych zalicza się między innymi ubezpieczenia komunikacyj-
ne (w tym ubezpieczenia odpowiedzialności cywilnej od pojazdów mechanicznych - ubezpieczenia
OC), które są najczęściej zawieranymi umowami ubezpieczeń.
Zasadniczym elementem funkcjonowania zakładu ubezpieczeń jest oszacowanie łącznej wartości
szkód w portfelu ubezpieczeniowym, które jest niezbędne do wyceny wartości umów ubezpieczenio-
wych oraz do kalkulacji składki. Stosując pojęcia teorii ryzyka można powiedzieć, że zagadnienie to
sprowadza się do znalezienia rozkładu zmiennej losowej wyrażającej stratę, która w odniesieniu do
ubezpieczeń komunikacyjnych wyraża łączną wartość szkód. Powszechnie stosowanym podejściem
jest przy tym modelowanie średniej wartości szkody oraz liczby szkód jako wielkości niezależnych od
siebie. Następnie określa się łączną wartość szkód powstałych w wyniku pewnych zdarzeń objętych
ochroną ubezpieczeniową w danym czasie, jako iloczyn dwóch wymienionych wielkości. Jednakże,
jak się okazuje, założenie o niezależności wielkości sterujących jest zbyt restrykcyjne i prowadzi
najczęściej do nadmiernego (lub niedokładnego) oszacowania łącznej szkody odpowiadającej danej
polisie, co w konsekwencji wpływa na błędną estymację łącznej szkody w całym portfelu szkód.
Niniejsza praca ma na celu przedstawienie modelu rozkładu łącznej wartości szkód z polisy ubez-
pieczeniowej, który uwzględnia występowanie zależności pomiędzy średnim rozmiarem szkód oraz
ich liczbą. Osiągniemy to poprzez połączenie rozkładów brzegowych dla obydwu tych zmiennych z
rodzinami dwuwymiarowych kopuł. Następnie rozszerzymy przedstawione podejście, zezwalając na
to, aby zmienne losowe wyrażające średnią wartość szkody oraz liczbę szkód zależały od pewnego
zbioru zmiennych dotyczących ubezpieczonego, zatem zastosujemy uogólnione modele liniowe.
Podstawowe definicje i własności kopuł są przedmiotem rozważań rozdziału pierwszego. Zostało
w nim również przedstawione twierdzenie Sklara jako fundamentalne twierdzenie teorii kopuł. W
rozdziale drugim zajęto się modelowaniem łącznej wartości szkody z wykorzystaniem kopuły, który
zezwala na zależność pomiędzy średnią liczbą szkód a ich liczbą dla polisy na podstawie podejścia
zaprezentowanego w pracy [13]. Rozdział trzeci zawiera zagadnienie klasyfikacji w ubezpieczeniach
oraz teorię modelowania uogólnionych modeli liniowych. W przykładzie wykorzystującym dane dla
ubezpieczeń komunikacyjnych stworzono modele regresyjne dla średniej wartości szkody i liczby
szkód.
3
1 Kopuły
Po raz pierwszy słowo kopuła (ang. copula) zostało wprowadzone przez Abe Sklara w 1956 roku
w twierdzeniu, które obecne nosi jego nazwę. Kopuły są zatem dość nowym pojęciem w probabi-
listyce i statystce, a w ciągu kilkunastu lat można zaobserwować znaczny wzrost zainteresowania
kopułami i ich zastosowaniami. Świadczą o tym liczne prace naukowe oraz międzynarodowe kon-
ferencje poświęcone przedstawionej idei.
Czym są zatem kopuły? Z jednej strony można powiedzieć, że kopuły są funkcjami, które łączą
lub „parują” wielowymiarowe dystrybuanty z ich jednowymiarowymi brzegowymi dystrybuanta-
mi. Bądź alternatywnie, kopuły są wielowymiarowymi dystrybuantami łącznymi, których jedno-
wymiarowe rozkłady brzegowe są jednostajne. Najprościej mówi się też, że kopuły są funkcjami
połaczenia [16]. W tym rozdziale przedstawimy ogólne definicje kopuł oraz twierdzenia i własności
kopuł ograniczając się do dwóch wymiarów.
1.1 Definicja kopuły
Zanim wprowadzimy definicję kopuły potrzebne nam będą dwa pojęcia. Przez I2 oznaczamy
kwadrat jednostkowy, czyli produkt kartezjański I×I, gdzie I = [0, 1]. Niech S1 i S2 będą niepustymi
podzbiorami R oraz H będzie funkcją określoną na S1 × S2 o wartościach w R.
Definicja 1.1. [16]
H-objętość prostokąta [a, b]× [c, d] ⊆ S1 × S2 definiowana jest przez
VH([a, b]× [c, d]) = H(b, d)−H(b, c)−H(a, d) +H(a, c).
Definicja 1.2. [16]
Funkcję H nazywamy 2-rosnącą, jeśli VH 0 dla każdego prostokąta [a, b]× [c, d] ⊆ S1 × S2.
H-objętość na [a, b]× [c, d] można interpretować jako pole prostokąta zadane przez funkcję H,
zaś gdy VH 0 oznacza to, że pole dowolnego prostokąta jest nieujemne.
Warto wspomnieć, że w ogólności sformułowanie „H jest 2-rosnąca” nie implikuje, ani nie jest
implikowane przez sformułowanie „H jest niemająca względem każdego z argumentów”. Natomiast
jeśli dodamy dodatkowe założenie (w literaturze zwane grounded), że zbiór S1 ma najmniejszy
element a0, zbiór S2 ma najmniejszy element b0 oraz H(a, b0) = H(a0, b) = 0 dla wszystkich
a ∈ S1, b ∈ S2, wówczas 2-rosnąca funkcja H jest niemalejąca względem każdego argumentu (dowód
tej implikacji można zaleźć w [16]).
Wprowadzimy teraz definicję kopuły w formie charakteryzacji, czyli przedstawimy warunki,
jakie powinna spełniać dana funkcja, aby mogła być kopułą.
Definicja 1.3 (charakteryzacja). [10]
Kopułą 2-wymiarową (w skrócie kopułą) nazywamy funkcję C : I2 → I spełniającą następujące
warunki:
(C1) Dla każdego u, v ∈ I,C(u, 0) = C(0, v) = 0.
(C2) Dla każdego u, v ∈ I,C(u, 1) = u, C(1, v) = v.
4
(C3) Dla każdego u1, u2, v1, v2 ∈ I takich, że u1 ¬ u2, v1 ¬ v2,
C(u2, v2)− C(u2, v1)− C(u1, v2) + C(u1, v1) 0.
Warunki (C1) i (C2) nazywamy warunkami brzegowymi, natomiast warunek (C3) orzeka, że ko-
puła jest funkcją 2-rosnącą. Bardzo często w literaturze spotyka się alternatywną, probabilistyczną
definicję kopuły.
Definicja 1.4.
Kopuła jest dwuwymiarową dystrybuantę skoncentrowaną na I2 o jednostajnych rozkładach brze-
gowych na I.
Teraz będziemy chcieli pokazać, że definicja 1.3 i 1.4 są równoważne, ale zanim to zrobimy
przypomnijmy, jakie warunki musi spełniać dystrybuanta (oczywiście mamy na myśli dystrybuantę
2-wymiarową).
Twierdzenie 1.1.
Funkcja F : I2 → R jest dystrybuantą wtedy i tylko wtedy, gdy spełnia następujące warunki:
(i) Funkcja F jest niemalejąca ze względu na każdą ze zmiennych (przy ustalonej wartości drugiej
zmiennej).
(ii)
∀x limy→−∞
F (x, y) = 0, ∀y limx→−∞
F (x, y) = 0
oraz
limx,y→+∞
F (x, y) = 1.
(iii) Funkcja F jest prawostronnie ciągła ze względu na każdą ze zmiennych (przy ustalonej war-
tości drugiej zmiennej).
(iv) Funkcja F jest 2-rosnąca, tzn.
∀x1¬x2∀y1¬y2 F (x2, y2)− F (x2, y1)− F (x1, y2) + F (x1, y1) 0.
Twierdzenie 1.2.
Definicja kopuły w postaci charakteryzacji jest równoważna definicji probabilistycznej.
Dowód : ”⇐=” Oczywisty wniosek z własności dystrybuanty.
”=⇒” Z warunków (C1) i (C3) wynika, że C jest funkcją niemalejącą względem każdego argumentu,
zaś warunek o tym, że C jest 2-rosnąca dostajemy z założenia. Później okaże się również, że
kopuły są funkcjami prawostronnie ciągłymi (co więcej kopuły, są funkcjami Lipshitzowskimi).
Zatem z twierdzania 1.1 wynika, że C jest dystrybuantą. Ponadto warunki (C1) i (C2) zapewniają
jednostajność jednowymiarowych rozkładów brzegowych na I.
Uwaga. Pomiędzy dystrybuantą a rozkładem (miarą probabilistyczną na zbiorach borelowskich)
istnieje wzajemna jednoznaczna odpowiedniość (patrz: dodatek A).
Ponieważ dystrybuanta indukuje miarę probabilistyczną na zbiorach borelowskich, zatem każda
kopuła C również indukuje miarę probabilistyczną µC na I2. Konstruujemy tę miarę w następu-
jący sposób: na początku bierzemy C-objętość VC prostokąta [a, b]× [c, d] zgodnie z definicją 1.1.
5
Następnie miarę VC można rozszerzyć na σ-ciało B(I2) zbiorów borelowskich, które pokrywa się z
miarą µC [10].
Przez C 2 będziemy oznaczać rodzinę wszystkich 2-wymiarowych kopuł. Możemy również uogól-
nić pojęcie kopuły do większej liczby wymiarów. Niech d 2 będzie liczbą naturalną.
Definicja 1.5. [10]
Kopułą d-wymiarową (w skrócie d-kopułą) nazywamy funkcję C : Id → I spełniającą następujące
warunki:
(C1’) Dla każdego u1, . . . , ud ∈ I oraz i = 1, . . . , d,
C(u1, . . . , ui−1, 0, ui+1, . . . , ud) = 0.
(C2’) Dla każdego u1, . . . , ud ∈ I oraz i = 1, . . . , d,
C(1, . . . , 1, ui, 1, . . . , 1) = ui.
(C3’) Dla każdego prostokąta [a,b] := ×di=1[ai, bi] ∈ Id, gdy ai ¬ bi oraz i = 1, . . . , d
VC([a,b]) =2∑j1
· · ·2∑jd
(−1)j1+···+jdC(u1j1 , . . . , udjd ) 0,
gdzie ui1 = ai i ui2 = bi dla i = 1, . . . , d.
Zauważmy, że również w przypadku wielowymiarowym możemy przedstawić równoważną defi-
nicję kopuły w języku probabilistycznym.
Definicja 1.6. [7]
Kopułą d-wymiarową nazywamy d-wymiarową dystrybuantę skoncentrowaną na Id, której jedno-
wymiarowe rozkłady brzegowe są jednostajne na I.
Poniżej przedstawimy ważną uwagę wynikającą z probabilistycznej definicji kopuły, która odnosi
się do dystrybuanty.
Uwaga. Z każdą kopułą powiązany jest pewien wektor losowy X = (X1, X2, . . . , Xd) taki, że jego
rozkłady brzegowe są jednostajne na I (tj. Xi ∼ U [0, 1] dla i = 1, . . . , d) oraz dystrybuanta jest za-
dana przez kopułę C. I odwrotnie, każdy wektor losowy, którego składniki mają rozkład jednostajny
na I, może być związany z pewną kopułą.
1.2 Własności kopuł
W naszych rozważaniach ograniczymy się do 2 wymiarów, dlatego w dalszej części przedstawimy
pewne własności dla kopuł 2-wymiarowych, które będziemy nazywać krótko kopułami. Jednak
pamiętajmy, że zaprezentowane własności można uogólnić dla przypadku wielowymiarowego.
Ograniczenia Frecheta - Hoeffinga
Twierdzenie 1.3. [16]
Niech C ∈ C 2. Wtedy dla każdego (u, v) ∈ I2 mamy
W (u, v) := max(u+ v − 1, 0) ¬ C(u, v) ¬ min(u, v) =: M(u, v). (1.1)
6
Dowód : Niech (u, v) będzie dowolnym punktem należącym do I2. Zauważmy, że z warunków (C2)
i (C3) wiemy, że kopuła C jest funkcją niemalejącą względem każdego z argumentów, zatem
C(u, v) ¬ C(u, 1) = u oraz C(u, v) ¬ C(1, v) = v, a stąd C(u, v) ¬ min(u, v). Ponadto
VC([u, 1]× [v, 1]) = C(1, 1)− C(1, v)− c(u, 1) + C(u, v) 0,
implikuje C(u, v) u+v−1, co w połączeniu z C(u, v) 0 prowadzi do C(u, v) max(u+v−1, 0).
W istocie ograniczenia w (1.1) są same w sobie kopułami i funkcja M , będąca górnym ograni-
czeniem, zwana jest kopułą komonotoniczną (ang. comonotonicity), natomiast funkcja W , będąca
dolnym ograniczam, nazywana jest kopułą przeciwnie monotoniczną (ang. countermonotonicity).
Ograniczenia Frecheta - Hoeffinga mówią nam, że każda kopuła C, czyli kształt wykresu kopuły,
znajduję się pomiędzy dwiema konkretnym kopułami. Co więcej, powyższe ograniczenia są najlep-
szymi w tym sensie, że punktowe infimum i supremum po wszystkich elementach C 2 pokrywa się
z W i M odpowiednio, to znaczy dla (u, v) ∈ I2:
W (u, v) = infC∈C 2
C(u, v) M(u, v) = supC∈C 2
C(u, v).
Trzecią ważną kopułą jest kopuła produktowa Π(u, v) = uv. Kopuła Π zwana jest też kopułą
niezależną. W literaturze kopuły W , M oraz Π zwane są kopułami fundamentalnymi. Rysunek 1
przedstawia wykresy powierzchniowe kopuł W , M oraz Π.
(a) kopuła przeciwnie monotoniczna W (b) kopuła produktowa Π
(c) kopuła komonotoniczna M
Rysunek 1: Wykresy powierzchniowe kopuł W , Π i M (źródło: opracowanie własne)
7
Innym efektywnym sposobem prezentowania wykresów kopuł jest użycie wykresu poziomico-
wego, czyli wykresu z jego poziomami wartości C(u, v) = a, gdzie a ∈ I. Rysunek 2 przedstawia
wykresy poziomicowe kopuł W , M oraz Π.
(a) kopuła przeciwnie monotoniczna W (b) kopuła produktowa Π
(c) kopuła komonotoniczna M
Rysunek 2: Wykresy poziomicowe kopuł W , Π i M (źródło: opracowanie własne)
Lipschitzowskość
Twierdzenie 1.4. [16]
Niech C ∈ C 2. Dla każdego (u1, v1), (u2, v2) ∈ I2
|C(u2, v2)− C(u1, v1)| ¬ |u2 − u1|+ |v2 − v1|. (1.2)
Dowód : Na początku zauważmy, że
v = 0 C(u2, 0)− C(u1, 0) = 0,
v = 1 C(u2, 1)− C(u1, 1) = u2 − u2,
8
zatem z własności kopuły dostajemy, że dla dowolnego v ∈ I zachodzi
0 ¬ C(u2, v)− C(u1, v) ¬ u2 − u2. (1.3)
Analogicznie otrzymujemy, że dla dowolnego u ∈ I zachodzi
0 ¬ C(u2, v)− C(u1, v) ¬ u2 − u2. (1.4)
Ostatecznie nierówność (1.2) wynika z nierówności (1.3) i (1.4), gdyż
|C(u2, v2)− C(u1, v1)| = |C(u2, v2)− C(u1, v2) + C(u1, v2)− C(u1, v1)|
¬ |C(u2, v2)− C(u1, v2)|+ |C(u1, v2)− C(u1, v1)|
= |u2 − u1|+ |v2 − v1|
Powyższe twierdzenie mówi, że kopuła C spełnia warunek Lipschitza ze stałą równą 1. Jak
wiadomo, funkcje Lipschitzowskie są jednostajne ciągłe. Własność ta pociąga za sobą zwykłą cią-
głość, a tym bardziej prawostronną ciągłość. Zatem kopuły posiadają istotną własność dystrybuant
zgodnie z definicją 1.4.
Pochodna kopuły
W dalszej części rozdziału będziemy stosować następujące oznaczenia dla pochodnych cząstkowych
∂
∂uC(u, v) := ∂uC(u, v),
∂
∂vC(u, v) := ∂vC(u, v).
Twierdzenie 1.5. [16]
Niech C ∈ C 2. Dla każdego v ∈ I pochodna cząstkowa ∂uC(u, v) istnieje dla prawie wszystkich
u ∈ I oraz
0 ¬ ∂uC(u, v) ¬ 1. (1.5)
Podobnie, dla każdego u ∈ I pochodna cząstkowa ∂vC(u, v) istnieje dla prawie wszystkich v ∈ I oraz
0 ¬ ∂vC(u, v) ¬ 1. (1.6)
Dowód : Jak już wcześniej powiedziano, kopuła C jest funkcją niemalejącą wzgledem każdego z
argumentów, więc istnienie pochodnych cząstkowych ∂vC(u, v) oraz ∂uC(u, v) jest natychmiastowe,
ponieważ z teorii miary wiadomo, że funkcje monotoniczne są różniczkowalne prawie wszędzie [3].
Natomiast nierówności (1.5), (1.6) wynikają z twierdzenia 1.2, gdyż C spełnia warunek Lipschitza
ze stałą równą 1 ze względu na każdą ze zmiennych.
1.3 Twierdzenie Sklara
Przejdziemy teraz do twierdzenie Sklara, które jest fundamentalnym twierdzeniem w teorii
kopuł i podstawą dla wielu zastosowań w różnych dziedzinach nauki, m.in. w statystyce, finansach
i ubezpieczeniach. Wyjaśnia ono rolę kopuł w związku między wielowymiarowymi dystrybuantami
a ich jednowymiarowymi rozkładami brzegowymi. W pracy przeprowadzimy dowód twierdzenia
Sklara dla kopuł 2-wymiarowych. Inne dowody twierdzenia Sklara można znaleźć w [10].
9
Twierdzenie 1.6. [16] (Sklar, 1959)
Niech F będzie dystrybuantą łączną o rozkładach brzegowych F1, F2. Wówczas istnieje kopuła C
taka, że dla każdego x1, x2 ∈ R zachodzi
F (x1, x2) = C(F1(x1), F2(x2)). (1.7)
Ponadto, jeśli F1, F2 są ciągłe, to kopuła C jest wyznaczona jednoznacznie, w przeciwnym wypadku
wyznaczona jest na RanF1×RanF2, gdzie RanFi = Fi(R) oznacza zbiór wartości Fi dla i = 1, 2..
I odwrotnie, jeżeli C jest kopułą oraz F1, F2 są dystrybuantami (jednowymiarowymi), wówczas F
zdefiniowana przez (1.7) jest dystrybuantą łączną o rozkładach brzegowych F1, F2.
Aby udowodnić twierdzenie Sklara, będziemy korzystać z pojęcia uogólnionej dystrybuanty
odwrotnej.
Definicja 1.7. [4]
Niech F będzie dystrybuantą zmiennej losowej X. Uogólnioną dystrybuantą odwrotną nazywamy
funkcję F−1 : [0, 1]→ [−∞,+∞] określoną wzorem
F−1(y) = infx ∈ R : F (x) y, y ∈ [0, 1].
Oczywiste jest, że F−1(0) = −∞ oraz F−1(1) = +∞. Ponadto dla każdego y ∈ (0, 1) mamy
∞ < F−1(y) < +∞.
Uwaga. Jeżeli zmienna losowa X jest ściśle rosnąca i ciągła, wówczas uogólniona funkcja odwrotna
jest po prosu funkcją odwrotną dystrybuanty F .
Przedstawimy teraz własności uogólnionej dystrybuanty odwrotnej, które będą dla nas przydatne.
Dowód tych własności można znaleźć w [4].
Lemat 1.1. [4]
Niech F będzie dystrybuantą, a F−1 jej uogólnioną dystrybuantą odwrotną. Wtedy
(i) dla każdego x ∈ R oraz dla każdego y ∈ [0, 1] zachodzi równoważność
F (x) y ⇐⇒ x F−1(y) lub równowanie F (x) < y ⇐⇒ x < F−1(y)
(ii) F (F−1(0)) = 0, F (F−1(0)) = 1
(iii) dla x ∈ R mamy F−1(F (x)) ¬ x
(iv) dla y ∈ [0, 1] mamy F (F−1(y)) y
(v) uogólniona dystrybuanta odwrotna jest niemalejąca i lewostronnie ciągła w przedziale (0, 1]
(vi) jeżeli dystrybuanta jest ciągła, to dla każdego y ∈ [0, 1] F (F−1(y)) = y
W dowodzie będziemy również potrzebowali transformacji kwantyla oraz transformacji praw-
dopodobieństwa, które są określone w kolejnym lemacie.
Lemat 1.2. [15]
Niech F będzie dystrybuantą zmiennej losowej X, a F−1 uogólnioną dystrybuantą odwrotną.
1. Transformacja kwantyla: Jeżeli U ∼ U [0, 1], to P(F−1(U) ¬ x) = F (x) (tzn. zmienna
losowa F−1(U) ma taki sam rozkład jak X).
10
2. Transformacja prawdopodobieństwa: Jeżeli Y ma ciągłą dystrybuantę F , to
F (Y ) ∼ U [0, 1].
Możemy teraz przejść do dowodu twierdzenia Sklara. Udowodnimy istnienie i jednoznaczność ko-
puły w przypadku, gdy dystrybuanty brzegowe są ciągłe.
Dowód : (twierdzenia Sklara - dla ciągłych dystrybuant)
Niech F będzie dystrybuantą łączną wektora X = (X1, X2), a F1, F2 dystrybuantami brzegowymi.
Ponieważ F1 oraz F2 są ciągłe, stąd z punktu 2 lematu 1.2 wnioskujemy, że F1(X1) oraz F2(X2)
mają rozkład jednostajny na I, czyli Fi(Xi) ∼ U [0, 1] dla i = 1, 2. Oznacza to, że dystrybuanta,
oznaczmy ją przez C, wektora losowego (F1(X1), F2(X2)) spełnia definicję 1.4 kopuły. Ponadto z
punktu 1 lematu 1.2 wiemy, że F−1(Fi(Xi)) ma taki sam rozkład jak Xi dla i = 1, 2, zatem dla
dowolnych x1, x2 w R, korzystając z własności (i) lematu 1.1, mamy
F (x1, x2) = P(X1 ¬ x1, X2 ¬ x2)
= P(F−1(F1(X1)) ¬ x1, F−1(F2(X2)) ¬ x2)
(i)= P(F1(X1) ¬ F1(x1), F2(X2) ¬ F2(x2))
= C(F1(x1), F2(x2)).
W ten sposób dostajemy równość (1.7). Jeżeli do równości (1.7) podstawiamy za argument xi =
F−1(ui) dla ui ∈ [0, 1], i = 1, 2 oraz stosując własność (vi) lematu 1.1, możemy zapisać
F (F−1(u1), F−1(u2)) = C(F1(F−1(u1)), F2(F−1(u2))) = C(u1, u2),
co daje nam reprezentację C względem F i jej rozkładów brzegowych. Otrzymaliśmy więc jedno-
znaczność kopuły.
Dla przeprowadzenia dowodu w drugą stronę załóżmy, że C jest kopułą oraz F1, F2 są jedno-
wymiarowymi dystrybuantami. Konstruujemy wektor losowy (X1, X2) o dystrybuancie F poprzez
wzięcie wektora losowego U o dystrybuancie C oraz przyjmując
X := (F−11 (U1), F−1
2 (U2)).
Możemy wówczas, przy ponownym użyciu własności (i) uogólnionej funkcji odwrotnej, uzyskać
równość (1.7). Mianowicie
F (x1, x2) = P(X1 ¬ x1, X2 ¬ x2)
= P(F−11 (U1) ¬ x1, F
−12 (U2) ¬ x2)
(i)= P(U1 ¬ F1(x1), U2 ¬ F2(x2))
= C(F1(x1), F2(x2)).
Wniosek 1. Mając dystrybuantę F oraz ciągłe dystrybuanty brzegowe F1 i F2, kopułę C można
wyliczyć
C(u1, u2) = F (F−11 (u1), F−1
2 (u2)), (1.8)
gdzie F−1i oznacza uogólnioną dystrybuantę odwrotną do Fi dla i = 1, 2.
Równości (1.7) oraz (1.8) mają istotne znaczenie w teorii kopuł. Pierwszy wzór pokazuje, że
dystrybuantę łączną F można sformułować poprzez połączenie dystrybuant brzegowych z kopułą,
11
natomiast drugi pokazuje, jak kopuły są wyodrębniane z dwuwymiarowych dystrybuant o ciągłych
rozkładach brzegowych. Twierdzenie Sklara również sugeruje, że w przypadku ciągłych rozkładów
brzegowych naturalne jest definiowanie rozkładu poprzez kopuły.
Uwaga. W przypadku wielowymiarowych rozkładów dyskretnych koncepcja definiowana rozkładu
poprzez kopuły jest mniej naturalna. Dzieje się tak, ponieważ istnieje więcej niż jedna kopuła, która
może być użyta do połączenia z dystrybuantami brzegowymi w celu utworzenia dystrybuanty łącznej.
Zauważmy, że twierdzenie Sklara zapisane jest w postaci równoważności. Jednak druga część
tego twierdzenia jest bardziej użyteczna, ponieważ umożliwia uzyskanie informacji o rozkładzie
łącznym za pomocą funkcji kopuły i rozkładów brzegowych. Taka informacja jest pożądana przy
modelowaniu wielowymiarowych rozkładów, ponieważ z reguły łatwiej jest dysponować rozkładem
brzegowym (czyli tak na prawdę rozkładem jednowymiarowym).
Na zakończenie tego podrozdziału podamy twierdzenie Sklara dla wielowymiaru. Dowód w
przypadku ciągłych dystrybuant brzegowych przebiega analogicznie jak w przypadku 2-kopuł i
można go znaleźć w [15].
Twierdzenie 1.7. [15] (Sklar, 1959)
Niech F będzie dystrybuantą łączną o rozkładach brzegowych F1, . . . , Fd. Wówczas istnieje kopuła
C taka, że dla każdego x1, . . . , xd ∈ R zachodzi
F (x1, . . . , xd) = C(F1(x1), . . . , Fd(xd)). (1.9)
Ponadto, jeśli F1, . . . , Fd są ciągłe, to kopuła C jest wyznaczona jednoznacznie, w przeciwnym
wypadku wyznaczona jest na RanF1×RanF2 × · · ·×RanFd, gdzie RanFi = Fi(R) oznacza zbiór
wartości Fi dla i = 1, 2, . . . , d. I odwrotnie, jeżeli C jest kopułą oraz F1, . . . , Fd są dystrybuantami
(jednowymiarowymi), wówczas F zdefiniowana przez (1.9) jest dystrybuantą łączną o rozkładach
brzegowych F1, . . . , Fd.
1.4 Kopuły a tau Kendall’a
Jak już zauważyliśmy, każda kopuła odnosi się do dystrybuanty, która jest powiązana z pewnym
wektorem losowym X. Dlatego dalej będziemy chcieli przedstawić probabilistyczne własności kopuł,
które można wnioskować z twierdzenia Sklara.
Na początku przedstawmy jeszcze raz twierdzenie Sklara, używając zmiennych losowych i ich
dystrybuant.
Twierdzenie 1.8.
Niech X1 i X2 będą zmiennymi losowymi o dystrybuantach, odpowiednio, F1 i F2 oraz niech F
będzie ich dystrybuantą łączną. Wówczas istnieje kopuła C taka, że zachodzi (1.7). Jeśli F1, F2
są ciągłe, to kopuła C jest wyznaczona jednoznacznie, w przeciwnym wypadku wyznaczona jest na
RanF1×RanF2.
Kopułę C identyfikowaną ze zmiennymi losowymi X1 i X2 będziemy oznaczać CX1,X2 jeśli takie
rozróżnienie będzie potrzebne.
Okazuje się, że kopuły posiadają bardzo korzystną własność, która jest przydatna przy badaniu
zależności między zmiennymi losowymi. Pokażemy, iż przy przekształceniach ściśle monotonicznych
wektorów losowych kopuły nie zmieniają się, bądź zmieniają się w przewidywalny sposób. Na
początku zajmiemy się translacjami ściśle rosnącymi, o których mówi poniższe twierdzenie.
12
Twierdzenie 1.9. [16]
Niech X1, X2 będą ciągłymi zmiennymi losowymi o kopule CX1,X2 . Jeżeli ϕ1, ϕ2 będą przekształ-
ceniami ściśle rosnącymi określonymi, odpowiednio, na RanX1, RanX2, wówczas wektory losowe
(X1, X2) i (ϕ1(X1), ϕ2(X2)) mają taką samą kopułę, tzn.
Cϕ1(X1),ϕ2(X2) = CX1,X2 .
Dowód : Niech F1, F2, G1, G2 będą dystrybuantami zmiennych losowych, odpowiednio, X1, X2,
ϕ1(X1), ϕ2(X2). Ustalmy dodatkowo, że F będzie dystrybuantą łączną wektora (X1, X2), zaś
G wektora (ϕ1(X1), ϕ2(X2)). Ponadto zauważmy, iż funkcje ϕ1 i ϕ2 są ściśle monotoniczne oraz
„na”, zatem są odwracalne, tzn. istnieją funkcje odwrotne ϕ−11 oraz ϕ−2
2 określone, odpowiednio,
na Ranϕ1 i Ranϕ2. Wobec tego dla każdego u, v ∈ R zachodzi
G1(u) = P(ϕ1(X1) ¬ u) = P(X1 ¬ ϕ−11 (u)) = F1(ϕ−1
1 (u))
G2(v) = P(ϕ2(X2) ¬ v) = P(X2 ¬ ϕ−12 (v)) = F1(ϕ−1
2 (v)).
Korzystając z twierdzenia Sklara mamy
Cϕ1(X1),ϕ2(X2)(G1(u), G2(v)) = G(u, v)
= P(ϕ1(X1) ¬ u, ϕ2(X2) ¬ v)
= P(X1 ¬ ϕ−11 (u), X2 ¬ ϕ−1
2 (v))
= F (ϕ−11 (u), ϕ−1
2 (v))
= CX1,X2(F1(ϕ−11 (u)), F2(ϕ−1
2 (v)))
= CX1,X2(G1(u), G2(v)).
Jeżeli co najmniej jedna z ϕ1, ϕ2 są ściśle malejąca, wówczas kopuła Cϕ1(X1),ϕ2(X2) jest prostą
transformacją kopuły CX1,X2 .
Twierdzenie 1.10. [16]
Niech X1, X2 będą ciągłymi zmiennymi losowymi o kopule CX1,X2 . Jeżeli ϕ1, ϕ2 będą przekształce-
niami ściśle monotonicznymi określonymi, odpowiednio, na RanX1, RanX2.
1. Jeśli ϕ1 jest ściśle rosnąca i ϕ2 jest ściśle mająca, wtedy
Cϕ1(X1),ϕ2(X2)(u, v) = u− CX1,X2(u, 1− v).
2. Jeśli ϕ1 jest ściśle malejąca i ϕ2 jest ściśle rosnąca, wtedy
Cϕ1(X1),ϕ2(X2)(u, v) = v − CX1,X2(1− u, v).
3. Jeśli ϕ1 i ϕ2 są ściśle malejące, wtedy
Cϕ1(X1),ϕ2(X2)(u, v) = u+ v − 1 + CX1,X2(1− u, 1− v).
Następne twierdzania charakteryzują pewne szczególne własności wektorów losowych za pomo-
cą podstawoowych kopuł M , W oraz Π. Poniższe twierdzenia podajemy bez dowodu.
Twierdzenie 1.11. [7]
Niech (X1, X2) będzie wektorem losowym o ciągłej dystrybuancie łącznej. Wówczas kopuła CX1,X2jest kopułą Π wtedy i tylko wtedy, gdy X1, X2 są niezależne.
13
Twierdzenie 1.12. [7]
Niech (X1, X2) będzie wektorem losowym o ciągłej dystrybuancie łącznej. Wówczas kopuła CX1,X2jest kopułą M wtedy i tylko wtedy, gdy istnieje zmienna losowa Z i rosnące funkcje ϕ1, ϕ2 takie,
że (X1, X2) = (ϕ(X1), ϕ(X2)) prawie na pewno.
Twierdzenie 1.13. [7]
Niech (X1, X2) będzie wektorem losowym o ciągłej dystrybuancie łącznej. Wówczas kopuła CX1,X2jest kopułą M wtedy i tylko wtedy, gdy dla pewnej ściśle malejącej funkcji ϕ, X2 = ϕ(X1) prawie
na pewno.
Na mocy twierdzenia 1.9 wiemy, że kopuły posiadają własność niezmienniczości względem trans-
lacji ściśle rosnących, zwaną również „niezmiennikiem skali” (ang. scale-invariant). Własność ta
jest pożądana dla miar opisujących siłę związku między zmiennymi losowymi i, jak się w okazuje,
można takie miary zdefiniować za pomocą kopuł. Do najbardziej znanych miar, które posiada-
ją własność „niezmiennika skali”, należą współczynniki tau Kendall’a oraz rho Spearman’a. W
naszych rozważaniach skupimy się na pierwszym z nich.
Definicja 1.8 (tau Kendall’a). [7]
Niech (X1, X2) i (X1, X2) będą niezależnymi wektorami losowymi o takim samym rozkładzie (tj.
(X1, X2) jest niezależną kopią wektora (X1, X2)). Współczynnik tau Kendall’a definiujemy jako
prawdopodobieństwo zgodności minus prawdopodobieństwo niezgodności tj.
τ = τ(X1, X2) = P[(X1 − X1)(X2 − X2) > 0]− P[(X1 − X1)(X2 − X2) < 0].
Występującą w definicji różnicę możemy rozumieć jako różnicę pomiędzy prawdopodobieństwem,
że wartości porównywanych zmiennych losowych układają się w tym samym porządku, a prawdopo-
dobieństwem przeciwnym. Tau Kendall’a należy do współczynników korelacji rangowych (inaczej
porządkowych). Współczynnik ten mierzy monotoniczną (niekoniecznie liniową) zależność między
zmiennymi losowymi i przyjmuje wartości od −1 do 1.
Współczynnik tau Kendall’a można też wyliczyć dla próby statystycznej. W tym celu bierze-
my wszystkie pary obserwacji (x1, x2), (x1, x2) z n-elementowej próbki pochodzącej od wektora
losowego (X1, X2), a następnie dzielimy je na:
• pary zgodne - gdy x1 < x1 oraz x2 < x2 albo x1 > x1 oraz x2 > x2. Liczbę par zgodnych
oznaczmy przez Z.
• pary niezgodne - gdy x1 < x1 oraz x2 > x2 albo x1 > x1 oraz x2 < x2. Liczbę par
niezgodnych znakiem oznaczmy przez NZ.
Wszystkich par jest tyle, ile jest możliwości wyboru 2 elementów ze zbioru n-elementowego. Esty-
mator tau Kendall’a otrzymujemy wówczas ze wzoru [14]
τ =Z −NZ +N
= 2Z −Nn(n− 1)
.
Przedstawimy teraz twierdzenie pokazujące, że τ można wyrazić za pomocą kopuł.
Twierdzenie 1.14. [16]
Niech X1, X2 będą ciągłymi zmiennymi losowymi o kopule C. Wówczas współczynnik tau Kendall’a
definiujemy jako
τ = τ(X1, X2) = 4∫∫
I2C(u, v)dC(u, v)− 1.
14
Dowód : Niech X1 i X2 są ciągłymi zmiennymi losowymi o dystrybuantach, odpowiednio, F1 i F2
oraz niech (X1, X2) będzie niezależną kopią wektora losowego (X1, X2). Tau-Kendall’a wynosi
τ = τ(X1, X2) = P[(X1 − X1)(X2 − X2) > 0]− P[(X1 − X1)(X2 − X2) < 0]. (1.10)
Ponieważ X1, X2 są ciągłymi zmiennymi losowymi (również X1, X2 są ciągłymi zmiennymi loso-
wymi), więc zachodzi
P[(X1 − X1)(X2 − X2) = 0) = P[(X1 − X1) = 0 ∨ (X2 − X2) = 0]
¬ P[(X1 − X1) = 0] + P[(X2 − X2) = 0] = 0,
a zatem otrzymujemy
P[(X1 − X1)(X2 − X2) < 0] = 1− P[(X1 − X1)(X2 − X2) > 0]
i wobec tego równość (1.10) możemy zapisać jako
τ = τ(X1, X2) = 2P[(X1 − X1)(X2 − X2) > 0]− 1. (1.11)
Zauważmy, że powyższe prawdopodobieństwo można rozbić w sposób następujący
P[(X1 − X1)(X2 − X2) > 0] = P[X1 > X1, X2 > X2] + P[X1 < X1, X2 < X2]. (1.12)
Oznaczmy przez F rozkład łączny. Następnie, warunkując jednym z wektorów losowych (w naszym
przypadku (X1, X2)), możemy wyznaczyć te prawdopodobieństwa w postaci całek, a następnie
korzystając z twierdzenia Sklara otrzymujemy
P[X1 < X1, X2 < X2] =∫∫
R2P[X1 < x1, X2 < x2]dF (x1, x2)
=∫∫
R2P[X1 < x1, X2 < x2]dC(F1(x1), F2(x2))
=∫∫
R2C(F1(x1), F2(x2))dC(F1(x1), F2(x2)),
a stąd podstawiając u = F1(x1) oraz v = F2(x2) dostajemy
P[X1 < X1, X2 < X2] =∫∫
I2C(u, v)dC(u, v). (1.13)
Podobnie
P[X1 > X1, X2 > X2] = 1− P[X1 ¬ x1]− P[X2 ¬ x2] + P[X1 ¬ X1, X2 ¬ X2]
=∫∫
R2
[1− P[X1 ¬ x1]− P[X2 − x2] + P[X1 ¬ X1, X2 ¬ X2]
]dF (x1, x2)
=∫∫
R2[1− F1(x1)− F2(x2) + F (x1, x2)] dF (x1, x2)
=∫∫
R2[1− F1(x1)− F2(x2) + C(F1(x1), F2(x2))] dC(F1(x1), F2(x2))
=∫∫
R2[1− u− v + C(u, v)] dC(u, v)
=∫∫
I2[1− u− v + C(u, v)] dC(u, v).
Następnie zauważmy, że kopuła C jest dystrybuantą łączną wektora losowego (X1, X2), którego
rozkłady brzegowe są jednostajne na I, czyli E(X1) = E(X2) = 12 . Zatem poszczególne całki
możemy zapisać ∫∫I2udC(u, v) =
∫∫I2vdC(u, v) =
12,
∫∫I2dC(u, v) = 1.
15
Ostatecznie otrzymujemy
P[X1 > X1, X2 > X2] = 1− 12− 1
2+∫∫
I2C(u, v)dC(u, v) =
∫∫I2C(u, v)dC(u, v). (1.14)
Podstawiając (1.13) i (1.14) do (1.12) dostajemy wzór
P[(X1 − X1)(X2 − X2) > 0] = 2∫∫
I2C(u, v)dC(u, v),
który podstawimy do równości (1.11) na τ , uzyskując tezę twierdzenia
τ = τ(X1, X2) = 4∫∫
I2C(u, v)dC(u, v)− 1.
1.5 Rodziny kopuł
Dzięki twierdzeniu Sklara kopuły znalazły zastosowanie przy modelowaniu wielowymiarowych
rozkładów łącznych, szczególnie w przypadku, gdy między zmiennymi losowymi istnieje pewna
zależność. Jak pokazaliśmy w rozdziale 1.4, informacja o zależności ukryta jest właśnie w kopule.
W praktyce, aby znaleźć nieznany wielowymiarowy rozkład łączny, staramy się dobrać pewną rodzi-
nę kopuł o preferowanych własnościach, która najlepiej pasuje do naszego przypadku. Oczywiście
wyboru kopuły dokonujemy przyjmując określone przez nas kryterium.
Rodziny kopuł zależą od parametru θ, który należy do podzbioru Θ ⊆ Rd. Rodzinę kopuł
indeksowaną parametrami θ ∈ Θ oznaczać będziemy przez Cθθ∈Θ. Wyróżnia się dwie klasy
kopuł: kopuły eliptyczne oraz kopuły archimedejskie. Poniżej przedstawiamy definicje tych rodzin i
kilka standardowych przykładów kopuł, które będą nam potrzebne w późniejszej części dotyczącej
modelowania.
Klasa kopuł eliptycznych
Na początku przypomnijmy pojęcie rozkładu eliptycznego. Mówimy, że wektor losowy
X = (X1, X2, . . . , Xd) ma rozkład eliptyczny o średniej µ ∈ Rd, macierzy kowariancji Σ = (σij)
oraz generatorze g : [0,∞)→ [0,∞), co zapisujemy X ∼ E (µ,Σ, g), jeśli zachodzi
X = µ+RAU
gdzie AAt = Σ, U jest d-wymiarowym wektorem losowym o rozkładzie jednostajnym na sferze
Sd−1 = u ∈ Rd : u21 + · · · + u2
d = 1, oraz R jest dodatnią zmienną losową niezależną od U o
gęstości
fg(r) =2πd/2
Γ(d/2)rd−1g(r2) dla każdego r > 0.
Funkcja gęstości (o ile istnieje) rozkładu eliptycznego jest dana przez
hg(x) = |Σ|−1/2g((x− µ)tΣ−1(x− µ)) dla każdego x ∈ Rd.
Definicja 1.9. [7]
Niech X będzie wektorem losowym o rozkładzie eliptycznym, X ∼ E (µ,Σ, g). Załóżmy, że dla każ-
dego i ∈ 1, . . . , d, (Xi/√σii) ∼ Fg. Kopułę eliptyczną nazywamy dystrybuantę wektora losowego(Fg
(X1√σii
), Fg
(X2√σ22
), . . . , Fg
(Xd√σdd
)).
16
Zwykle postać kopuły eliptycznej nie ma prostej formy. Przykładami kopuł eliptycznych jest
kopuła Gaussa oraz t Studenta. Podamy wzór pierwszej z nich, ponieważ w dalszej części będzie
ona obiektem zainteresowań.
Kopuła Gaussa
CGaθ (u, v) =∫ Φ−1(u)
−∞
∫ Φ−1(v)
−∞
1
2π√
1− θ2
(−s
2 − 2θst+ t2
2(1− θ2)
)dsdt,
gdzie θ ∈ (−1, 1) oraz Φ−1 oznacza funkcję odwrotną do dystrybuanty standardowego rozkładu
normalnego. Zauważmy, iż kopułę Gaussa możemy zapisać za pomocą dystrybuanty standardowego
dwuwymiarowego rozkładu normalnego Φ2.
CGaθ (u, v) = Φ2(Φ−1(u),Φ−1(v)).
Klasa kopuł archimiedejskich
Zaczniemy od wprowadzenia pojęcia funkcji pseudo-odwrotnej, którą wykorzystuje się w definicji
kopuł archimedejskich.
Definicja 1.10. [15]
Niech φ : I → [0,∞) będzie ciągłą i ściśle malejącą funkcją taką, że φ(1) = 0 oraz φ(0) ¬ ∞.
Pseudo-odwrotność funkcji φ o dziedzinie [0, 1] i przeciwdziedzinie [0,∞) definiujemy przez
φ[−1](t) =
φ−1(t) 0 ¬ t ¬ φ(0),
0 φ(0),¬ t ¬ ∞.(1.15)
Jak łatwo zauważyć, φ[−1] jest ciągła i nierosnąca na [0,∞), oraz ściśle malejąca na [0, φ(0)].
Co więcej, φ[−1](φ(u)) = u na I oraz
φ(φ[−1](t)) =
t, 0 ¬ t ¬ φ(0),
φ(0), φ(0) ¬ t ¬ ∞= mint, φ(0).
Ponadto, jeżeli φ(0) =∞, wówczas φ[−1] = φ−1.
Twierdzenie 1.15. [15]
Niech φ : I→ [0,∞) będzie ciągłą i ściśle malejącą funkcją taką, że φ(1) = 0 oraz niech φ[−1] będzie
jej funkcją pseudo-odwrotną zdefiniowaną przez (1.15). Wtedy funkcja C : I2 → I dana przez
C(u1, u2) = φ[−1](φ(u1) + φ(u2)) (1.16)
jest kopułą wtedy i tylko wtedy, gdy φ jest funkcją wypukłą.
Dowód powyższego twierdzenia można znaleźć w [16]. Kopuły, które można zapisać w postaci
(1.16) nazywamy dwuwymiarowymi kopułami archimedejskimi (lub kopułami Archimedesa).
Definicja 1.11 (Generator kopuły archimedejskiej). [15]
Ciągłą, ściśle malejącą , wypukłą funkcję φ : I→ [0,∞) spełniającą warunek φ(1) = 0 nazywamy
generatorem kopuły Archimedesa. Jeżeli φ(0) =∞, wówczas φ nazywamy generatorem ścisłym.
Zauważmy, że jeżeli generator kopuły jest generatorem ścisłym, wtedy φ[−1] = φ−1, zatem w
równości (1.16) możemy zapisać w następującej postaci
C(u1, u2) = φ−1(φ(u1) + φ(u2)).
Tak określone kopuły nazywamy ścisłymi kopułami Archimedesa. Przedstawimy teraz przykłady
kopuł należących do klasy kopuł archimedejskich, które używamy w niniejszej pracy. Kopuły te
należą do jednoparametrycznych rodzin kopuł archimedejskich.
17
• Kopuła Claytona
CClθ (u, v) = (u+ v − 1)−1θ ,
gdzie θ ∈ (0,∞). W przypadku, gdy θ → 0 to kopuła Claytona odpowiada kopule niezależ-
nej Π, czyli kopule o niezależnych rozkładach brzegowych natomiast, gdy θ → +∞ kopule
komonotonicznej. Ścisły generator kopuły Claytona wynosi φ(t) =1θ
(t−θ − 1),
• Kopuła Gumbela
CGuθ (u, v) = exp(−((− log u)θ + (− log v)θ
) 1θ
),
gdzie θ ∈ [1,∞). W szczególnym przypadku, gdy θ = 1 uzyskujemy kopułę niezależną,
natomiast jeśli θ → +∞ kopułę komonotoniczną. Ścisły generator kopuły Gumbela wynosi
φ(t) = (− log t)θ.
Więcej przykładów kopuł Archimedasa można znaleźć w [16]. Na mocy twierdzenia 1.14 wiemy,
że tau Kendall’a możemy wyrazić za pomocą kopuł, a co za tym idzie zależność między zmiennymi
za pomocą parametru θ. Relację między θ, a τ przedstawiono tabeli.
Tabela 1: Zależność pomiędzy tau Kendall’a a parametrem θ (źródło: [13])
rodzina kopuł przedział θ związek z τ
Gauss (−1, 1) τ =2π
arcsin(θ) ∈ R
Clayton θ ∈ (0,∞) τ =θ
θ + 2∈ (0,∞)
Gumbel [1,∞) τ =θ − 1θ∈ (0,∞)
18
2 Estymacja łącznej szkody z wykorzystaniem kopuł
Oszacowanie łącznej wartości szkód w portfelu ubezpieczeniowym jest kluczowe dla wielu de-
cyzji aktuarialnych, np. do wyceny umów ubezpieczeniowych oraz do kalkulacji składki. Z punktu
widzenia aktuariusza zagadnienie to sprowadza się do znalezienia rozkładu zmiennej losowej wy-
rażającej stratę, co w odniesieniu do ubezpieczeń komunikacyjnych wyraża łączną wartość szkód
z polisy (ang. policy loss). W praktyce ubezpieczeniowej powszechne jest modelowanie średniej
wartości szkody (ang. average claim size) oraz liczby szkód (ang. numer of claims) niezależnie,
a następnie określenie łącznej wartości szkód odpowiadającej pojedynczej polisie w danym czasie
jako iloczynu tych dwóch wielkości. Jednak można się zastanowić, czy w rzeczywistości między
zmiennych losowymi opisującymi liczbę i wielkość szkody istnieje zależność. Rozważmy podział
kierowców na takich, którzy poruszają się głównie po mieście oraz na kierowców poruszających się
po autostradach. Można spodziewać się, że pierwszy typ kierowców, ze względu na mniejszy ruch w
miastach, będzie częściej powodował szkody, ale jednocześnie dotkliwość powstałych szkód będzie
mniejsza niż w drugim typie kierowców. Ten przykład sugeruje ujemną korelację między liczbą i
wartością pojedynczych szkód. W związku z tym założenie o niezależności jest zbyt restrykcyjne i
prowadzić może do nadmiernego lub niedokładnego oszacowania łącznej wartości szkody z polisy,
a w konsekwencji do błędnej estymacji łącznej wartości szkód w portfelu polis.
Z tej przyczyny w niniejszym rozdziale zaprezentujemy model łącznej szkody z polisy, który
dopuszcza zależność między średnią wartością szkody i liczbą szkód. Zagdanienia przedstawione w
tym rodziale zostały zaczerpnięte z pracy [13].
2.1 Kopuła dla ciągło-dyskretnych rozkładów brzegowych
Jak już wiemy z poprzedniego rozdziału, z (dwuwymiarową) kopułą C : I2 → I, czyli dys-
trybuantą łączną wektora losowego (X1, X2), której rozkłady brzegowe są jednostajne na I (tzn.
Xi ∼ U [0, 1] dla i = 1, 2), wiąże się bardzo ważne twierdzenie Sklara (twierdzenie 1.6). Umożli-
wia ono podział dwuwymiarowej dystrybuanty na kopułę i dystrybuanty brzegowe. Dzięki temu
jesteśmy w stanie modelować rozkład łączny za pomocą połączania ze sobą rozkładów brzegowych
z kopułą. Dodatkowo kopuły są niezmiennicze na translacje ściśle rosnące. Zatem zamiast współ-
czynnika korelacji, który mierzy liniowy związek między zmiennymi, stosujemy monotoniczne miary
zależności. Jedną z takich miar jest współczynnik tau Kendall’a, który na mocy twierdzenia 1.14
jest wyrażany za pomocą kopuł.
W tej pracy będziemy wykorzystywać kopułę do modelowania rozkładu łącznego przy ciągło-
dystretnych rozkładach brzegowych. Niech (Ω,F ,P) będzie przestrzenią probabilistyczną. Oznacz-
my przez X ciągłą zmienną losową o wartościach w (0,∞) oraz przez Y dyskretną zmienną losową
przyjmującą wartości w zbiorze 1, 2, . . .. Niech FX , FY będę dystrybuantami, odpowiednio, X,
Y . Na mocy twierdzenia Sklara dystrybuanta wektora losowego (X,Y ) zdefiniowana jest przez
kopułę C poprzez
FX,Y (x, y) = C(FX(x), FY (y)).
Pamiętajmy, że kopuła jest wyznaczona jednoznacznie w przypadku ciągłych dystrybuant brzego-
wych.
Określamy wektor losowy (X,Y ) w następujący sposób
(X,Y ) : (Ω,F ,P)→ ((0,∞)× 1, 2, . . .,S , λ× ν),
19
S to σ-ciało produktowe, generowane przez zbiory postaci B × y, gdzie B to zbiór borelowski
w (0,∞), zaś y = 1, 2, . . .. Miara λ to miara Lebesgue’a oraz ν to miara licząca określona przez
ν(y) = 1, y = 1, 2, . . . .
Miara λ× ν jest miarą produktową. Wektor losowy (X,Y ) ma ciągło-dyskretną strukturę, wobec
tego do dalszej estymacji potrzebujemy łączną gęstości/funkcję prawdopodobieństwa ze względu na
występowanie w rozkładzie łącznym ciągłej zmiennej losowej X oraz dyskretnej zmiennej losowej Y .
Rozkład wektora losowego (X,Y ) dany jest wzorem
µX,Y (A) = P((X,Y )−1(A)), A ∈ S .
Stosując twierdzenie Radoma-Nikodyma, otrzymujemy
µX,Y (A) =∫A
fX,Y (x, y)d(λ× ν)(x, y), A ∈ S ,
a więc w szczególności możemy zapisać
µX,Y (B × y) =∫B
fX,Y (x, y)dλ(x) =∫B
fX,Y (x, y)dx. (2.1)
Przyjmując za B = (0, x] do (2.1) uzyskujemy
µX,Y ((0, x]× y) = P(X ¬ x, Y = y) =∫ x
0fX,Y (t, y)dt. (2.2)
Funkcja fX,Y jest gęstością rozkładu µX,Y względem miary produktowej λ × ν (tzw. pochodną
Radoma-Nikodyma). Zauważmy, że z (2.2) możemy zapisać
fX,Y (x, y) =∂
∂xP(X ¬ x, Y = y). (2.3)
Funkcję fX,Y będziemy po prostu nazywali gęstością łączną wektora losowego (X,Y ).
Następnie wprowadzimy formułę dla gęstości łącznej odnosząc się do kopuły C. Na początku
oznaczmy przez
C ′1(u, v) := ∂uC(u, v)
dla v ∈ I pochodną cząstkową kopuły względem pierwszej zmiennej. Zgodnie z twierdzeniem 1.5
wiemy, że ∂uC istnieje dla prawie wszystkich u ∈ I. Poniższe twierdzenie przedstawia gęstość łączną
fX,Y przy wykorzystaniu kopuły i jej pochodnej cząstkowej względem pierwszej współrzędnej.
Twierdzenie 2.1 (Funkcja gęstości). [13]
Niech X będzie ciągłą zmienną losową oraz Y dyskretną zmienną losową. Gęstość łączna fX,Y
dana jest wzorem
fX,Y (x, y) = fX(x)(C ′1(FX(x), FY (y))− C ′1(FX(x), FY (y − 1))). (2.4)
Dowód : Z definicji wyrażonej wzorem (2.3), z twierdzenia Sklara oraz przy wykorzystaniu wzoru
na pochodną funkcji złożonej mamy
∂
∂xP(X ¬ x, Y = y) =
∂
∂xP(X ¬ x, Y ¬ y)− ∂
∂xP(X ¬ x, Y ¬ y − 1)
=∂
∂xC(FX(x), FY (y))− ∂
∂xC(FX(x), FY (y − 1))
= fX(x)∂xC(FX(x), FY (y))− fX∂xC(FX(x), FY (y − 1))
= fX(x)(C ′1(FX(x), FY (y))− C ′1(FX(x), FY (y − 1)))
20
W naszych rozważaniach skupimy się na 3 jednoparametrycznych rodzinach kopuł C(·, ·|θ).Będą to rodziny Gaussa, Claytona i Gumbela. W rozdziale 1.5 przedstawione zostały wzory dla
tych rodzin oraz ich związek z τ Kendall’a (tabela 1). Aby wyznaczyć funkcję gęstości z twierdze-
nia 2.1, powinniśmy znać pierwsze pochodne cząstkowe dla wybranych rodzin kopuł. W tabeli 2
zamieszczono pochodne cząstkowe C ′1(u, v|θ) dla kopuły Gaussa, Claytona oraz Gumbela.
Tabela 2: Pierwsze pochodne cząstkowe dla wybranych rodzin kopuł (źródło: [13])
rodzina kopuł pierwsza pochodna cząstkowa C ′1(u, v|θ)
Gauss Φ(
Φ−1(v)− θΦ−1(u)√1− θ2
)Clayton
(u−θ + v−θ − 1
)−1/θ−1u−θ−1
Gumbel u−1(− log u)θ−1((− log u)θ + (− log v)θ
)1/θ−1exp
(−((− log u)θ + (− log v)θ
)1/θ)
Uwaga. Zauważmy, że równość (2.4) możemy zapisać
fX,Y (x, y|θ) = fX(x)(C ′1(FX(x), FY (y)|θ)− C ′1(FX(x), FY (y − 1)|θ)). (2.5)
2.2 Rozkład łącznej szkody z polisy
Zagadnienia przedstawione w rozdziale 2.1 mogą być stosowane dla ogólnych ciągło-dyskretnych
wektorów losowych, natomiast teraz wykorzystamy je do naszych potrzeb, czyli do modelu rozkładu
łącznej wartości szkód, powstałych w wyniku pewnych zdarzeń objętych ochroną ubezpieczeniową
(ryzyk), co krócej będziemy nazywali: łączną szkodą z polisy (ang. policy loss). Miejmy na uwadze,
że modelując rozkład łącznej szkody z polisy, tak naprawdę modelujemy rozkład zmiennej losowej
wyrażającej stratę.
2.2.1 Rozkłady brzegowe
Niech X będzie dodatnią zmienną losową opisującą średnią wartość szkody z pojedyn-
czej polisy. W naszym modelu zakładamy, że średnia wartość szkody X ma rozkład Gamma
(X ∼ Gamma(µ, δ)) o parametrze średniej µ > 0 oraz parametrze dyspersji δ > 0. Zmienna
losowa X ma rozkład ciągły o funkcji gęstości danej wzorem
fX(x|µ, δ) =1
xΓ( 1δ )
(x
µδ
) 1δ
exp(− x
µδ
)dla x > 0, (2.6)
gdzie Γ oznacza funkcję Gamma zdefiniowaną następująco:
Γ(p) =∫ ∞
0xp−1e−xdx.
Następnie przyjmujemy, że liczbę szkód opisuje dodatnia zmienna losowa Y o uciętym w zerze
rozkładzie Poissona (ang. zero-truncated Poisson) z parametrem λ > 0 (Y ∼ ZTP (λ)). Funkcja
prawdopodobieństwa zmiennej Y wynosi
fY (y|λ) =λy
y!(1− e−λ)e−λ dla y = 1, 2, . . . . (2.7)
Zauważmy, że zakładamy przyjmowanie dodatnich wartość zarówno przez zmienną losową X,
jak i Y . Oznacza to, iż w naszym modelu bierzemy pod uwagę tylko polisy szkodowe, to znaczy
takie, w których w badanym okresie zaistniała co najmniej jedna szkoda o wartości niezerowej.
21
W ubezpieczeniach korzysta się z różnych rozkładów dla liczby i średniej wartości szkody. Do
najcześciej przyjmowanych rozkładów dla liczby szkód należą rozkład Poissona oraz rozkład ujemny
dwumianowy, natomiast dla średniej wartości szkód, oprócz rozkładu gamma, wykorzystywany jest
również rozkład log-normalny1.
Jak już wspominaliśmy, w praktyce ubezpieczeniowej przyjmuje się założenie o niezależności
średniej wartości szkody X i liczby szkód Y , które nie zawsze jest spełnione. Będziemy jednak do-
puszczali istnienie zależności między rozpatrywanymi zmiennymi losowymi, dlatego posłużymy się
dwuwymiarowym rozkładem łącznym tych zmiennych. Związek między X i Y będziemy opisywali
za pomocą współczynnika τ Kendall’a.
2.2.2 Model rozkładu łącznego dla średniej wartości szody i liczby szkód z wykorzy-
staniem kopuły
Teraz możemy połączyć rozważania na temat kopuł z przyjętymi przez nas rozkładami brzego-
wymi modelującymi liczbę szkód i ich średnią wartość, otrzymując poniższy ogólny model rozkładu
łącznego zmiennych losowych X i Y .
Definicja 2.1 (Rozkład łączny dla średniej wartości szody i liczby szkód). [13]
Niech X będzie dodatnią zmienną losową określającą średnią wartość szkody o rozkładzie Gamma
i funkcji gęstości (2.6) oraz Y dodatnią zmienną losową określająca liczbę szkód o uciętym w zerze
rozkładzie Poissona i funkcji prawdopodobieństwa (2.7). Wówczas model rozkładu łącznego dla X
i Y , oparty na kopule z twierdzenia 2.1, jest zdefiniowany przez gęstość łączną daną wzorem
fX,Y (x, y|µ, δ, λ, θ) = fX(x|µ, δ)(C ′1(FX(x|µ, δ), FY (y|λ)|θ)−C ′1(FX(x|µ, δ), FY (y−1|λ)|θ)) (2.8)
dla x > 0 oraz y = 1, 2, . . ..
Powyższy model rozkładu łącznego fX,Y zależy od 4 parametrów: µ, δ (rozkładu Gamma),
λ (rozkładu ZTP), które są związane z rozkładami brzegowymi, oraz parametru θ związanego z
kopułą. Korzystając z powyższej definicji otrzymujemy elementarne kolejne twierdzenie.
Twierdzenie 2.2. [13]
Rozkład warunkowy Y |X = x liczby szkód przy ustalanej średniej wartości szkody x jest dany przez
P(Y = y|X = x, µ, δ, λ, θ) = C ′1 (FX(x|µ, δ), FY (y|λ)|θ)− C ′1 (FX(x|µ, δ), FY (y − 1|λ)|θ)) . (2.9)
Dowód : Teza twierdzenia wynika natychmiast z twierdzenia 2.1 i wzoru na rozkład warunkowy
zmiennej losowej Y przy warunku X = x
P(Y = y|X = x, µ, δ, λ, θ) =fX,Y (x, y|µ, δ, λ, θ)
fX(x|µ, δ).
Przykład 1
Niech X ∼ Gamma(µ, δ) opisuje średnią wartość szkody, wyrażaną w zł, oraz Y ∼ ZTP (λ) liczbę
szkód. Rozważmy pewną grupę posiadaczy polis oraz przyjmijmy, że wartość oczekiwana średniej
wartości szkody wynosi 1000 zł
E(X) = µ = 1000,
1Inne metody modelowania rozkładu liczby szkód i wartości szkody można znaleźć w Otto W.: Ubezpieczenia
majątkowe. Część I Teoria Ryzyka, Wydawnictwa Naukowo-techniczne, 2004
22
natomiast λ = 2.5, wówczas wartość oczekiwana liczby szkód wynosi
E(Y ) =λ
1− e−λ≈ 2.723564.
Dodatkowo załóżmy, że odchylenie standardowe X wynosi 300 zł (√V ar(X) = 300), zatem może-
my policzyć parametr dyspersji następująco:
δ =V ar(X)µ2 =
3002
10002 =9
100.
(a) Wyznaczymy rozkład warunkowy Y |X = x, gdy średnia wartość szkody wynosi x = 1200 zł
dla kopuły Claytona z 4 różnymi wartościami τ = 0, 0.1, 0.3, 0.5, gdzie τ to współczynnik tau
Kendall’a, mierzący zależność między zmiennymi X i Y . W tym celu, korzystając z twier-
dzenia 2.2, wyliczymy rozkład warunkowy w programie SAS (kod D.3), ale najpierw musimy
rozpisać pojawiające się w nim obiekty. Pochodna kopuły Claytona wyraża się wzorem (patrz:
tabela 2)
C ′C1 (u, v) =(u−θ + v−θ − 1
)−1/θ−1u−θ−1 θ ∈ (0,∞).
Z kolei mamy następującą relację miedzy θ a τ dla kopuły Claytona
τ =θ
θ + 2⇒ θ =
2τ1− τ
, θ ∈ (0,∞)
zatem, gdy τ = 0.1, 0.3, 0.5 wartości θ wynoszą, odpowiednio, 29 ,
67 , 2. W przypadku, gdy τ = 0
wiemy, że kopuła Claytona dąży do kopuły produktowej Π, dlatego przyjmiemy wówczas
θ = 0.00001 ≈ 0. Następnie sprowadzamy rozkład X do parametryzacji skalo-kształtej (patrz:
dodatek B2.), gdyż taka parametryzacja jest używana przez SAS
δ =1α⇒ α =
1δ
µ = αβ ⇒ β =µ
α= µδ,
więc w naszym przypadku otrzymujemy β = 90, zaś α = 100/9. Potrzebujemy jeszcze warto-
ści funkcji dystrybuanty zmiennej losowej Y o uciętym w zerze rozkładzie Poissona. Wynosi
ona
FY (y) = P(Y ¬ y) =y∑i=1
P(Y = i) =y∑i=1
λie−λ
i!(1− e−λ).
Ostatecznie wzór (2.9) dla y = 1, 2, . . . . przyjmuje postać
P(Y = y|X = 1200) = FX(1200)−θ−1 (FX(1200)−θ + FY (y)−θ − 1)−1/θ−1
(2.10)
−FX(1200)−θ−1 (FX(1200)−θ + FY (y − 1)−θ − 1)−1/θ−1
,
gdzie θ = 0.00001, 29 ,
67 , 2. Zauważmy, że dla y = 1 powyższy wzór sprowadza się tylko do
pierwszego składnika, ponieważ drugi składnik się zeruje. Istotnie
FY (0) =0∑i=1
P(Y = i) = 0,
zatem (FX(1200)−θ + FY (0)−θ − 1
)−1/θ−1=
(FX(1200)−θ + 0−θ − 1
)−1/θ−1
=(FX(1200)−θ +∞− 1
)−1/θ−1
= (∞)−1/θ−1 = 0.
23
Rysunek 3: Warunkowa funkcja prawdopodobieństwa zmiennej Y |X = 1200 dla kopuły Claytona
z τ = 0, 0.1, 0.3, 0.5 (źródło: opracowanie własne)
Rysunek 3 pokazuje warunkową funkcję prawdopodobieństwa zmiennej Y |X = 1200 dla
kopuły Claytona z τ = 0, 0.1, 0.3, 0.5 (θ = 0.00001, 29 ,
67 , 2). Możemy, zauważyć, że wraz ze
wzrostem τ funkcje prawdopodobieństwa „przesuwają się” w prawo oraz pojawiają się większe
wartości prawdopodobieństwa określonego zdarzenia. Jest to spowodowane zwiększającą się
zależnością między zmiennymi X i Y oraz wynika z faktu, że wartość przyjętego warunku
x = 1200 zł jest wyższa niż oczekiwana wartość średniej wielkości szkód µ = 1000 zł.
(b) Następnie chcemy wyznaczyć warunkowy rozkład prawdopodobieństwa Y |X = x, gdy śred-
nia wartość szkody wynosi x = 1200 zł dla kopuły Gaussa, Claytona oraz Gumbela przy
współczynniku τ = 0.3. Postępujemy analogicznie jak w punkcie (a) stosując odpowiednią
pierwszą pochodną cząstkową C ′1 dla danej kopuły oraz formułę na θ. Mianowicie dla kopuły
Gaussa mamy
C ′Ga1 (u, v) = Φ(
Φ−1(v)− θΦ−1(u)√1− θ2
)oraz
τ =2π
arcsin θ ⇒ θ = sin(τπ
2
),
dla kopuły Gumbela
C ′Gu1 (u, v) = u−1(− log u)θ−1 ((− log u)θ + (− log v)θ)1/θ−1
exp(−((− log u)θ + (− log v)θ
)1/θ)oraz
τ = 1− 1θ⇒ θ =
11− τ
.
W kodzie D.4 znajdują się wyliczenia w SAS do tej części przykładu. Rysunek 4 przedstawia
warunkową funkcję prawdopodobieństwa Y |X = 1200 dla kopuły Gaussa, Claytona i Gum-
bela przy ustalonej wartości współczynnika τ = 0.3. Możemy zauważyć, że przy ustalonej
zależności między zmiennymi losowymi rozkład warunkowy w zależności od kopuły nieznacz-
nie się różni. Ponadto dla kopuły Gumbela prawy ogon rozkładu jest bardziej przesunięty w
prawo w porównaniu z pozostałymi kopułami.
24
Rysunek 4: Warunkowa funkcja prawdopodobieństwa zmiennej Y |X = 1200 przy τ = 0.3 dla
kopuły Gaussa, Claytona i Gumbela (źródło: opracowanie własne)
Na podstawie tego przykładu możemy wysunąć wniosek, że znacznie większy wpływ na rozkład
warunkowy ma wybór zależności niż wybór rodziny kopuł, a co za tym idzie wpływ ten jest za-
uważalny również dla rozkładu łącznego liczby i średniej wartości szkód. Zatem założenie o braku
zależności miedzy zmiennymi losowymi może prowadzić do błędów estymacji.
2.2.3 Estymacja łącznej szkoda z polisy
Możemy teraz przejść do głównego celu niniejszej pracy, czyli do wprowadzania rozkładu łącz-
nej wartości szkód odpowiadającej pojedynczej polisie. Na początku zdefiniujemy zmienną losową
określającą tę wielkość.
Definicja 2.2 (Łączna szkoda z polisy). [13]
Niech X będzie dodatnią zmienną losową określającą średnią wartość szkody oraz Y dodatnią
zmienną losową określającą liczbę szkód. Łączna szkoda z polisy jest definiowana jako iloczyn tych
wielkości, tj.
L := X · Y. (2.11)
Łączna szkoda z polisy jest dodatnią, ciągłą zmienną losową i zależy od 4 parametrów, o
których mowa była już wcześniej. Poniższe twierdzenie przedstawia rozkład łącznej wartości szkód
(lub równoważnie mówiąc łącznej szkody z polisy), czyli rozkład zmiennej losowej L.
Twierdzenie 2.3.
Rozkład łącznej szkody z polisy L jest dany przez funkcję gęstości
fL(l|µ, δ, λ, θ) =∞∑y=1
[C ′1
(FX
(l
y|µ, δ
), FY (y|λ) |θ
)− C ′1
(FX
(l
y|µ, δ
), FY (y − 1|λ) |θ
)]·1yfX
(l
y|µ, δ
)(2.12)
dla l > 0.
25
Dowód : Dla uproszczenia notacji pominiemy parametry modelu zapisane w powyższej formule.
Rozważmy dwuwymiarowy wektor losowy
(L, Y )T ∈ R+ × 1, 2, . . .
Zatem widzimy, że wektor losowy (L, Y ) ma ciągło-dyskretną strukturę, wobec tego możemy za-
stosować wzór (2.3) na gęstość łączną
fL,Y (l, y) =∂
∂lP(L ¬ l, Y = y). (2.13)
Przekształcając wzór (2.11) do X = L/Y i w kolejnym kroku podstawiając x = l/y, otrzymujemy
fL,Y (l, y) =∂
∂lP(X ¬ l
y, Y = y
)= fX,Y
(l
y, y
)· 1y.
Korzystając z twierdzenia 2.1 dostajemy rozkład łączny wektora (L, Y )
fL,Y (l, y) = fX
(l
y
)[C ′1
(FX
(l
y
), FY (y)
)− C ′1
(FX
(l
y
), FY (y − 1)
)]· 1y,
a następnie, stosując wzór na rozkład brzegowy, gdy Y jest zmienną losową o rozkładzie dyskret-
nym, otrzymujemy tezę twierdzenia
fL(l) =∫
1,2,...
fL,Y (l, y)dν =∑
y=1,2,...
fL,Y (l, y),
gdzie ν jest miarą liczącą.
Twierdzenie 2.3 daje nam formułę, dzięki której możemy odczytać pewne własności rozkładu.
Ponadto mamy możliwość oszacowania gęstości dla łącznej szkody z polisy L przy ustalonym
zbiorze parametrów µ, δ, λ, związanych z zadanymi rozkładami brzegowymi, oraz parametrze θ
związanym z rodziną kopuł.
W pierwszej kolejności zilustrujemy gęstości L w zależności od wyboru kopuły oraz stopnia
zależności między średnią wartością szkody X oraz liczbą szkód Y , przy takich samych para-
metrach rozkładu dla rozkładów brzegowych jak w przykładzie 1. Następnie zilustrujemy gę-
stość L przy założeniu niezależności między omawianymi zmiennymi. Ponadto, korzystając z pa-
kietu CopulaRegression2 wyznaczymy wartość oczekiwaną łącznej wartości szkód z polisy.
Przykład 1 - kontynuacja
(c) Przypomnijmy, że
X ∼ Gamma(1000, 0.09)
oraz
Y ∼ ZTP (2.5).
Korzystając z twierdzenia 2.3 w programie SAS wyliczamy teoretyczne wartości funkcji gęsto-
ści fL dla kopuły Gaussa, Claytona oraz Gumbela i dla 3 różnych parametrów współczynnika
τ Kendall’a, równych 0.1, 0.3 i 0.5 (kod D.5). Otrzymane wyniki przedstawia rysunek 5.
2Pakiet CopulaRegression programu R został stworzony przez autorów pracy [13] i zawiera zaimplementowane
zagadnienia z owej pracy
26
Rysunek 5: Gęstości łącznej szkody z polisy dla kopuły Gaussa, Claytona oraz Gumbela przy trzech
wartościach τ Kendall’a (źródło: opracowanie własne)
27
Po pierwsze zauważamy, że rozkład łącznej szkody z polisy cechuje się prawostronną asyme-
trią, gdyż prawy ogon rozkładu jest dłuższy. Na wykresach widoczne również są dwa mak-
sima, co oznacza, iż rozkład posiada dwie najczęściej występujące wartości (mody). Zatem
teoretyczne gęstości fL mają tendencję do wielomodalności. W dodatku występujące „gór-
ki” stają się bardziej wyraźne przy wzroście współczynnika τ . Te dwie własności (skośność i
wielomodalność) można łatwo wyjaśnić z twierdzenia 2.3. Wprowadzając oznaczenie
κ(y, l|µ, δ, λ, θ) :=1yP(Y = y|X =
l
y, µ, δ, λ, θ
),
gęstość szkody z polisy Lmożemy zapisać jako nieskończoną „kombinację” rozkładów Gamma
fL(l|µ, δ, λ, θ) =∞∑y=1
κ(y, l|µ, δ, λ, θ) · fX(l
y|µ, δ
).
Ponieważ poszczególne gęstości Gamma charakteryzują się skośnością, to wydaje się być na-
turalnym, że „kombinacja” tych gęstości również posiada tę własność. Ponadto „kombinacja”
jednomodalnych gęstości Gamma także może być wielomodalna. Niewątpliwie zbiór przyję-
tych parametrów µ, δ, λ, θ wpływa na liczbę najczęściej występujących wartości oraz na to,
jak wyraźne one są. Jednak najważniejszym spostrzeżeniem wynikającym z rysunku 5 jest
to, że wykresy gęstości fL są prawie identyczne dla wszystkich trzech kopuł, a więc wybór ro-
dziny kopuł w bardzo małym stopniu wpływa na rozkład łącznej szkody z polisy. Natomiast
na rozkład L zdecydowanie wpływa współczynnik τ .
Następnie przedstawimy oszacowaną gęstość łącznej wartości szkód L przy założeniu nie-
zależności między średnią wartością szkody X a liczbą szkód Y . W tym celu w programie
SAS stworzono symulację (kod D.6) n = 1000 wartości łącznej szkody z polisy, będących
iloczynem obserwacji pochodzących z rozkładu Gamma oraz ZTP
li = xi · yi, i = 1, . . . , 1000,
gdzie xi, yi są niezależnie losowane z odpowiedniego rozkładu. Za pomocą procedury proc
kde oszacowano gęstość jądra dla L, co przedstawia rysunek 6.
Rysunek 6: Oszacowana gęstość L przy założeniu niezależności X i Y . (źródło: opracowanie własne)
28
Statystyczne szacowanie gęstości obejmuje przybliżenie hipotetycznej funkcji gęstości praw-
dopodobieństwa z obserwowanych danych3. Na podstawie rysunku 6 widzimy, że gęstość
zmiennej L = X ·Y przy założeniu niezależności między X i Y również cechuje się asymetrią
prawostronną. Jednak w tym przypadku nie zauważamy wielomodalności.
W kolejnym kroku wyznaczymy wartość oczekiwaną zmiennej losowej L wyrażającej łączną
wartość szkód z polisy dla różnych wartości współczynnika τ , wynoszących 0.1, 0.3 i 0.5 dla
kopuły Gaussa, Claytona oraz Gumbela. Zauważmy, że wartość oczekiwaną L = X · Y , przy
założeniu niezależności zmiennych X od Y , wynosi
E(L) = E(X · Y ) ⊥= E(X) · E(Y ) = 1000 · 2.723 = 2723 (zł)
Korzystając z funkcji epolicyloss wyznaczamy w programie R wartości oczekiwane łącznej
szkody z polisy (kod D.7). Otrzymane wyniki przedstawia tabela 3.
Tabela 3: Wartość oczekiwana łącznej szkody z polisy L w złotych dla kopuły Gaussa, Claytona
oraz Gumbela (źródło: opracowanie własne)
rodzina kopuł wartość τ
0.1 0.3 0.5
Gauss 2788 2912 3020
Clayton 2778 2881 2974
Gumbel 2801 2934 3037
Wartość oczekiwana łącznej szkody z polisy przy założeniu niezależności X i Y wynosi 2723
zł. Natomiast przy zwiększającej się wartości współczynnika τ , wyrażającego związek miedzy
X i Y , zauważamy, że dla wszystkich kopuł wartości oczekiwane L są większe od 2723 zł.
Oznacza to, że założenie o niezależności średniej wartości szkody i liczby szkód prowadzi do
niedoszacowania łącznej szkody z polisy.
Bazując na przedstawionych w tym rozdziale przykładach widzimy, że wybór rodziny kopuł nie
wpływa w znacznym stopniu na rozkład łącznej wartości szkód z polisy L. Natomiast obserwujemy
silną zależność rozkładu tej zmiennej w stosunku do wielkości współczynnika τ , który mówi o
występowaniu zależności między średnią wartością szkody X a liczbą szkód Y .
3Szacowanie gęstości jądra jest nieparametryczną techniką oceny gęstości, w której znaną funkcję gęstości (jądro)
uśrednia się w obserwowanych punktach danych, aby uzyskać gładkie przybliżenie.
29
3 Modele regresyjne
Jak już zostało powiedziane, głównym zadaniem firm ubezpieczeniowych jest problem kalkulacji
składki i należy tego dokonać w taki sposób, aby zapewniała ona zdolność wypłacenia wszystkich
należnych świadczeń. W poprzednim rozdziale przedstawiliśmy ten problem z punktu widzenia
aktuariusza, bowiem poszukiwaliśmy rozkładu łącznej wartości szkód z polisy, jednak teraz rozwa-
żymy go pod kątem wyceny umów ubezpieczeniowych. Oczywistym jest, że firma ubezpieczeniowa
nie powinna stosować tej samej składki dla wszystkich polis. Składka powinna być ustalona ze
względu na indywidualne cechy klienta, na podstawie których przejawia on podatność na ryzyko
wystąpienia dowolnego roszczenia. Tak więc kolejnym podejściem do omawianego zagadnienia jest
przeprowadzenie poprawnego podziału klientów na tzw. grupy taryfowe.
3.1 Zagadnienie klasyfikacji w ubezpieczeniach
Klasyfikacja klientów w ubezpieczeniach komunikacyjnych polega na tym, aby wyznaczyć zbiór
cech charakteryzujących daną grupę taryfową, w której klienci będą generować podobną wysokość
roszczeń. Należy przez to rozumieć, że osoby należące do tej samej klasy taryfowej przejawia-
ją podobną podatność na ryzyko. Wyznaczenie grup taryfowych odbywa się w oparciu o zbiór
zmiennych (zbiór danych statystycznych) opisujących danego klienta, czyli tak zwanych czynni-
ków ryzyka. Przy poprawnie przeprowadzonej klasyfikacji powstaje (względnie) jednorodny portfel
polis ubezpieczeniowych. W ten sposób aktuariusz może sprawiedliwie i uczciwie wycenić składkę
dla osób o podobnym profilu ryzyka. Z punktu widzenia firmy ubezpieczeniowej jest to niezwykle
ważne, gdyż poprawne określenie taryfy daje przewagę na rynku ubezpieczeń.
W obecnej praktyce ubezpieczeń komunikacyjnych ratemaking, czyli proces klasyfikacji ryzyka,
składa się zasadniczo z dwóch etapów. Pierwszy z nich to klasyfikacja a priori, czyli proces kla-
syfikacji kierowców na grupy ryzyka w momencie zakładania polisy na podstawie obserwowalnych
czynników. Do zmiennych objaśniających (zwanych też klasyfikującymi) w tym procesie należą mię-
dzy innymi: wiek; płeć; miejsce zamieszkania; wykonywany zawód; status materialny; rodzaj, kolor,
marka samochodu; pojemność silnika, cel użytkowania samochodu, jak i wiele innych. Zauważmy,
że wymienione zmienne, czyli czynniki ryzyka, możemy podzielić na następujące grupy [17]:
• czynniki opisujące kierowcę,
• czynniki dotyczące pojazdu,
• czynniki zawierające cele,
• pozostałe czynniki.
Ponadto zmienne objaśniające można również podzielić ze względu na ich rodzaj: zmienne liczbo-
we (np. pojemność silnika), zmienne kategorialne (np. wiek), zmienne dychotomiczne (np. płeć).
Jednakże system klasyfikacji a priori nie jest w stanie uwzględnić wszystkich ważnych czynników,
ponieważ niektórych z nich nie możemy w żaden sposób zmierzyć. Do takich zmiennych należą mię-
dzy innymi: umiejętność prowadzenia samochodu, stan techniczny samochodu, stan wzroku, stan
zdrowia, szybkość odruchów, agresywność podczas prowadzenia samochodu, respektowanie prze-
pisów ruchu drogowego, przebieg samochodu. Mimo iż wymienione zmienne niewątpliwie powinny
być brane pod uwagę przy ustalaniu składki klienta, to ze względu na ich indywidualny charakter
nie ma jednak możliwości wprowadzenia ich do systemu taryfikującego. Tak więc nawet najdo-
kładniejsza klasyfikacja a priori, uwzględniająca szereg zmiennych klasyfikujących, nie przedstawi
30
całkowitej podatności na ryzyko, co w konsekwencji będzie prowadzić do niejednorodności całego
portfela. Z tego powodu klasyfikacja a posteriori jest niezbędna, aby umożliwić ponowną ocenę
składki, uwzględniającą zwyżki i zniżki na podstawie indywidualnej historii zgłoszonych roszczeń
ubezpieczonego, gdy stanie się ona dostępna [2]. W pracy ograniczymy się do taryfikacji a priori.
Aby skonstruować strukturę taryfową, która odzwierciedla różne profile ryzyka w portfelu polis
ubezpieczeniowych, stosuje się modele statystyczne. Techniki regresyjne pozwalają na włączenie
różnych zmiennych objaśnianych, tak aby aktuariusz był w stanie skonstruować klasy ryzyka z
mniej lub bardziej podobnymi profilami ryzyka. Dla ubezpieczeń majątkowych typowymi zmienn-
zmi objaśnianymi w tych modelach są: częstość zgłoszonych roszczeń (ang. claim frequency) oraz
odpowiadająca jej kwota roszczenia (ang. claim severity). W odniesieniu do polis komunikacyjnych
(np. polis OC/AC) możemy mówić o modelach regresyjnych dla liczby szkód i ich średniej wartości.
Ze względu na charakter profili ryzyka i danych ubezpieczeniowych do najczęściej wykorzystywa-
nych technik regresyjnych należą uogólnione modele liniowe (ang. generalized linear models)[19].
3.2 Uogólnione modele liniowe
Uogólnione modele liniowe (ozn. GLM) służą do modelowania relacji pomiędzy zmienną obja-
śnianą (zmienną zależną) a zmiennymi objaśniającymi (zmiennymi niezależnymi) i są uogólnieniem
zwykłej regresji liniowej. Przypomnijmy teraz założenia klasycznego modelu regresji liniowej.
Klasyczny model regresji liniowej ([9])
KMRL zakłada, że zmienna zależna Z (zmienna losowa) składa się z liniowej kombinacji zmiennych
niezależnych (predyktorów) oraz składnika losowego. Dokładniej model regresji liniowej przyjmuje
formę
Z = β0 + β1x1 + . . .+ βmxm + ε
gdzie β0, β1, . . . , βm to współczynniki modelu, x1, . . . , xm to zmienne objaśniające, zaś ε to skład-
nik losowy (błąd). Dla n niezależnych obserwacji Z i powiązanych z nimi wartościami xi model
przyjmuje postać
Z1 = β0 + β1x11 + β2x12 + ...+ βmx1m + ε1
Z2 = β0 + β1x21 + β2x22 + ...+ βmx2m + ε2
...
Zn = β0 + β1xn1 + β2xn2 + ...+ βmxnm + εn
gdzie εj jest ciągiem niezależnych zmiennych losowych o rozkładzie normalnym N (0, σ2) dla każ-
dego 1 ¬ j ¬ n. Przechodząc na postać macierzową dostajemyZ1
Z2...
Zn
=
1 x11 x11 . . . x1m
1 x21 x22 . . . x2m...
......
. . ....
1 xn1 xn2 . . . xnm
β0
β1...
βm
+
ε1
ε2...
εn
.
Równanie modelu przyjmuje postać
Z = Xβ + ε
ε ∼ N (0, σ2I)
31
gdzie β oraz σ2 są nieznanymi parametrami modelu, których szukamy. Zakładamy, że istnieją
parametry βi, i = 0, 1, . . . ,m takie, że
E(Z) = µ = β0 + β1x1 + . . .+ βmxm,
V ar(Z) = σ2.
Zauważmy, że normalność składnika losowego implikuje normalność zmiennej zależnej Z, zatem
Z ∼ N (µ, σ2).
Współczynniki regresji liniowej β można estymować za pomocą metody najmniejszych kwadra-
tów, która jest w tym przypadku jednocześnie metodą największej wiarogodności. Jest to jedna z
najstarszych metod estymacji.
Uogólnione modele liniowe ([5], [6], [1])
GLM uogólniają podejście w klasycznej regresji liniowej w dwóch zasadniczych kwestiach:
• rozkład zmiennej objaśnianej jest wybierany z wykładniczej rodziny rozkładów, tak więc nie
musi mieć rozkładu normalnego,
• przekształcenie wartości oczekiwanej zmiennej objaśnianej jest liniowo związane ze zmienny-
mi objaśniającymi.
W konsekwencji przynależenia zmiennej zależnej do wykładniczej rodziny rozkładów modelowa-
na relacja może być heteroskedastyczna, a zatem wariancja będzie się zmieniać w zależności od
średniej, a ta z kolei będzie się zmieniać w zależności od zmiennych objaśniających.
Główne założenia uogólnionych modeli liniowych: Załóżmy, że mamy ciąg niezależ-
nych zmiennych losowych Zj , j = 1, . . . , n o realizacji zj oraz odpowiadające każdemu z nich
wartości xj1, . . . , xjm. Związek tych zmiennych często zapisuje się za pomocą notacji indeksowanej
następująco:
Zj = Z(xj), j = 1, . . . , n,
gdzie xj = (xj1, . . . , xjm)t. Równanie predykcji dla zmiennej zależnej Zj ma postać
g(E(Zj)) = β0 + β1xj1 + . . .+ βmxjm.
gdzie g nazywamy funkcją łączącą (ang. link function). Powyższe równanie przedstawia związek
zmiennej objaśnianej ze zmiennymi objaśniającymi poprzez funkcję g, która nie musi być liniowa.
Dodatkowo zakładamy, że funkcja łącząca g jest różniczkowalna i ściśle monotoniczna. Ponieważ
jest ona ściśle monotoniczna, wówczas istnieje funkcja odwrotna, więc powyższe równanie może
być zapisane jako
E(Zj) = g−1(β0 + β1xj1 + . . .+ βmxjm). (3.1)
Zmienne objaśniające są nadal połączone w funkcję liniową, ale zmienna objaśniana może być
nieliniową funkcją tej kombinacji. Liniowa kombinacja m zmiennych objaśniających tworzy pre-
dyktor liniowy (ang. linear predictor) oznaczany przez η:
ηj = β0 + β1xj1 + . . .+ βmxjm.
Po jego uwzględnieniu i wprowadzaniu zapisu µj = E(Zj) równanie (3.1) przyjmuje postać
µj = g−1(ηj),
32
a zapisane w postaci macierzowej
E(Z) = µ = g−1(η).
gdzie
Z = (Z1, . . . , Zn)t,
µ = (µ1, . . . , µn)t,
η = (η1, . . . , ηn)t = Xβ.
Następnym bardzo ważnym założeniem GLM jest to, że zmienne objaśniane Zj muszą być
członkami wykładniczej rodziny rozkładów. Podczas modelowania możemy wybrać rozkład
z tej rodziny, który będzie odpowiedni dla modelowanej zależności.
Wartości współczynników β0, β1, . . . , βm są estymowane z danych za pomocą metod największej
wiarogodności.
Wykładnicza rodzina rozkładów: W GLM zakładamy, że zmienna objaśniana Z (a tym
samym zmienne Zj , j = 1, . . . , n) należy do wykładniczej rodziny rozkładów, to znaczy rozkład
prawdopodobieństwa może być zapisany w następującej postaci:
f(z|θ, φ) = expzθ − b(θ)a(φ)
+ c(z, φ), (3.2)
gdzie
a(φ) jest dodatnia i ciągła,
b(θ) jest dwukrotnie różniczkowalna oraz jej druga pochodna jest dodatnia i odwracalna,
c(z, φ) nie jest zależna od θ.
Parametr θ nazywamy parametrem kanonicznym i jest on związany ze średnią, natomiast φ
nazywamy parametrem dyspersji (skali) związanym z wariancją. Zmienna objaśniana możne być
dyskretna lub ciągła, wobec tego funkcja f(·|θ, φ) reprezentuje albo funkcję prawdopodobieństwa
albo gęstość. Funkcje b(θ), a(φ) oraz c(z, θ) determinują różne klasy rozkładów, a tym samym
rozwiązania problemów GLM. Oznacza to, że rozkład zmiennej zależnej należy dostosować do
modelowanej sytuacji. Ta własność daje przewagę GLM nad KMRL, gdyż nie musimy zakładać,
że analizowana zmienna objaśniana ma rozkład normalny.
Wartość oczekiwana oraz wariancja dla rozkładów pochodzących z wykładniczej rodziny roz-
kładów wynoszą
E(Z) = b′(θ) (3.3)
V ar(Z) = a(φ)b′′(θ), (3.4)
gdzie b′(θ) oraz b′′(θ) oznaczają odpowiednio pierwszą i drugą pochodną względem θ. Udowodni-
my teraz równości (3.3) oraz (3.4). Wyznaczmy pierwszą i drugą pochodną funkcji f(z) z (3.2)
względem θ. Wynoszą one
f ′(z) = f(z) ·[z − b′(θ)a(φ)
], f ′′(z) = f(z) ·
[z − b′(θ)a(φ)
]2
− f(z)b′′(θa(φ)
.
Całkując obustronnie powyższe równości względem z otrzymujemy
0 =E(Z)− b′(θ)
a(φ), 0 =
E(Z − b′(θ))2
a(φ)2 − b′′(θ)a(φ)
(3.5)
Zakładając, że całkę i pochodną możemy zamieniać miejscami, lewe strony powyższych równości
wynoszą zero ∫f ′(z)dz =
∂
∂θ
∫f(z)dz = 0,
∫f ′′(z)dz =
∂2
∂θ2
∫f(z)dz = 0.
33
Równości (3.3) oraz (3.4) wynikają z (3.5).
Do rodziny rozkładów wykładniczych należą miedzy innymi rozkład normalny, Poissona, Gam-
ma, dwumianowy i wykładniczy. Pokażemy teraz w poniższym przykładzie, że rozkład Poissona
należy do wykładniczej rodziny rozkładów.
Przykład 2
Funkcję rozkładu prawdopodobieństwa dla rozkładu Poissona (patrz: dodatek B.3) możemy zapisać
f(y|λ) =λye−λ
y!
= exp
log(λye−λ
y!
)= exp
y log λ− λ
1− log y!
.
Podstawiając θ = log λ lub równoważnie eθ = λ dostajemy
f(y|λ) = expyθ − eθ
1− log y!
.
Zatem b(θ) = eθ, a(φ) = φ = 1 oraz c(y, φ) = − log y!. Możemy również obliczyć średnią oraz
wariancję rozkładu na podstawie wzorów (3.3) oraz (3.4):
E(Y ) = b′(θ) = eθ = λ,
V ar(Y ) = a(φ)b′′(θ) = eθ = λ.
W tabeli 4 przedstawiono cztery przykładowe rozkłady należące do wykładniczej rodziny roz-
kładów z uwzględnieniem wyboru funkcji b(θ), a(φ) oraz c(z, φ).
Tabela 4: Wykładnicza rodzina rozkładów (źródło: [5])
rozkład θ b(θ) φ a(φ) c(z, φ)
Normalny(µ, σ2) µ θ2/2 σ2 φ −12
[z2
φ+ log(2πφ)
]Poissona(λ) log λ eθ 1 1 − log(y!)
Dwumianowy (p, n) log[p/(1− p)] n log(1 + eθ) 1 1 log(nz
)Gamma(µ, δ) − 1
µ− log(−θ) δ φ 1
φ log zφ − log y − log Γ( 1
φ )
Niekiedy w literaturze możemy spotkać się z sytuacją, że funkcja a(φ) w równości (3.2) jest
zastąpiona przez φ/w, gdzie w > 0 oznacza wagę. Zatem funkcja prawdopodobieństwa/gęstość
przybiera postać
f(z|θ, φ, w) = expzθ − b(θ)φ/w
+ c(z, φ/w).
Zwykle zakłada się, że parametr dyspersji φ jest stały dla wszystkich zmiennych objaśnianych w
próbce. Parametr φ albo jest znany z góry (np. dla regresjii Poissona φ = 1) albo musi być estymo-
wany. W przypadku gdy φ jest traktowany jako kolejny parametr modelu, może być estymowany
metodą największej wiarogodności. Niestety wadą takiego podejścia jest to, że nie można uzyskać
jednoznacznej formuły dla φ i rozwiązanie równania największej wiarogodności dla φ jest trudne.
34
Inne możliwości estymowania parametru φ można znaleźć w [1]. Nie będziemy dalej skupiać się na
tym problemie.
Użycie wag w przypadku postaci funkcji prawdopodobieństwa/gęstości jest przydatne, gdy dane
są zgrupowane lub określają częstotliwość, wówczas w jest częstością poszczególnej obserwacji. W
przypadku regresji Poissona wagi w = 1 i z tego powodu nie wpływają na modelowane zagadnienie.
Funkcja wariancji: Poprzez zastąpienie funkcji a(φ) przez φ/w w formule na wariancję (3.4)
otrzymujemy, że
V ar(Z) =φ
wb′′(θ). (3.6)
Przy założeniu odwracalności funkcji b′(θ) z równości (3.3) parametr θ możemy wyznaczać jako
funkcję wartości oczekiwanej µ = E(Z)
θ = b′−1(µ). (3.7)
Wiemy również, że µ jest funkcją predyktora liniowego η, który wyraża się za pomocą kombinacji
liniowej m zmiennych objaśniających
µ = g−1(η) = g−1(β0 + β1x1 + . . .+ βmxm).
Stąd też otrzymujemy, że θ jest funkcją parametrów β0, β1, . . . , βm
θ = b′−1(g−1(β0 + β1x1 + . . .+ βmxm))
Następnie, podstawiając (3.7) w (3.6), otrzymujemy
V ar(Z) =φ
wV (µ).
gdzie V (µ) = b′′(b′−1(µ)). Funkcję V (µ) nazywamy funkcją wariancji. Powyższe równanie określa
związek między wariancją a wartością oczekiwaną dla wykładniczej rodziny rozkładów, mianowicie
wariacja zmiennej objaśnianej jest funkcją jej wartości oczekiwanej. Ponadto wiedząc, że µ jest
funkcją predyktora liniowego, a tym samym parametrów β0, β1, . . . , βm, możemy zauważyć, że
zmienność parametrów w GLM będzie pociągała za sobą zmienność wartości oczekiwanej, a ta z
kolei będzie wpływać na zmienność wariancji. W tabeli 5 przedstawiono funkcje wariancji V (µ) dla
przykładowych rozkładów.
Tabela 5: Funkcje wariancji V (µ) (źródło: [5])
rozkład V (µ)
Normalny µ0 = 1
Poissona µ
Dwumianowy µ(1− µ)
Gamma µ2
Funkcja łącząca: W założeniach modelu GLM funkcja g musi być różniczkowalna oraz ści-
śle monotoniczna - albo ściśle rosnąca albo ściśle malejąca. Wtedy wówczas istnieje jej funkcja
odwrotna
g(µ) = η,
µ = g−1(η).
35
Z tego względu powszechnie stosuje się kilka typowych funkcji łączących, które są przestawione w
tabeli 6.
Tabela 6: Standardowe funkcje łączące g (źródło: [5])
g(µ) g−1(η) dziedzina g−1(η)
identyczność µ η (−∞,+∞)
logarytmiczna logµ eη (0,+∞)
logitowa log(µ/(1− µ)) eη/(1 + eη) (0, 1)
probitowa Φ−1(µ) Φ(η) (0, 1)
odwrotność 1µ
1η (−∞, 0) ∪ (0,+∞)
Metoda największej wiarogodności dla współczynników modelu: Współczynniki
β0, β1, . . . , βm są estymowane metodą największej wiarogodności (ang. maximum likelhood esti-
mation, ozn. MLE). Załóżmy standardowo, że mamy ciąg niezależnych zmiennych losowych Zj ,
j = 1, . . . , n o realizacji zj . Funkcja wiarogodności dana jest wzorem
L(β) =n∏j=1
f(zj |θj , φ) =n∏j=1
expzjθj − b(θj)
aj(φ)+ c(zj , φ)
gdzie β = (β0, β1, . . . , βm)t. Celem metody największej wiarogodności jest wyznaczenie wektora
parametrów β współczynników regresji β poprzez maksymalizację funkcji logarytmu wiarogodno-
ści:
`(β) = log(L(β)) = log
n∏j=1
f(zj |θj , φ)
=n∑j=1
log f(zj |θj , φ)
=n∑j=1
[zjθj − b(θj)
aj(φ)+ c(zj , φ)
]. (3.8)
Aby tego dokonać, należy obliczyć pierwsze pochodne cząstkowe względem βi, a następnie przy-
równać je do zera, czyli trzeba rozwiązać układ równań
∂
∂βi`(β) = 0, i = 0, . . . ,m
z m+ 1 niewiadomymi. Zauważmy, że w równości (3.8) tylko θj są funkcjami βi, natomiast zj oraz
φ nie zależą od βi. Oznaczając przez `j := log f(zj |θj , φ), logarytm funkcji wiarogodności możemy
również zapisać w następującej postaci
`(β) =n∑j=1
`j .
Korzystając z reguły łańcucha dostajemy, że
∂`
∂βi=
n∑j=1
∂`j∂θj
∂θj∂µj
∂µj∂ηj
∂ηjβi
.
Ponieważ
µj = b′(θj),
g(µj) = ηj ,
36
ηj = β0 + β1xj1 + · · ·+ βkxjm,
poszczególne pochodne cząstkowe wynoszą
∂`j∂θj
=zj − b′(θj)aj(φ)
=zj − µjaj(φ)
,
(∂θj∂µj
∂µj∂ηj
)−1
=∂µj∂θj
∂ηj∂µj
= b′′(θj)g′(µj),
∂ηjβi
= xji.
Zatem ostatecznie, podstawiając V ar(zj) = aj(φ)b′′(θj), otrzymujemy
∂
∂βi`(β) =
n∑j=1
(zj − µj)xjiaj(φ)b′′(θj)g′(µj)
=n∑j=1
(zj − µj)xjiV ar(zj)g′(µj)
.
Pamiętając, że V ar(zj) możemy zapisać za pomocą funkcji wariancji oraz wag, mianowicie V ar(zj) =φwiV (µj), dostajemy równania wiarogodności
∂
∂βi`(β) =
n∑j=1
wj(zj − µj)xjiφV (µj)g′(µj)
= 0, i = 0, 1, . . . ,m, (3.9)
gdzie nieznane parametry β0, β1, . . . , βm są uwzględnione w µj przez
µj = g−1(β0 + β1xj1 + · · ·+ βkxjm).
Zauważmy, że xj0 = 1, ponieważ β0 to stała. Rozwiązania równań (3.9), oznaczane przez β0, β1, . . . , βm,
są estymatorami największej wiarogodności współczynników β0, β1, . . . , βm i w praktyce do ich zna-
lezienia używa się metod numerycznych.
Uwaga. Dla GLM zestaw nieznanych parametrów to β, φ, więc logarytm największej wiarogodno-
ści jest funkcją l(β, φ), która jest ona wyznaczona równaniem (3.8). Ponadto zauważmy, że roz-
wiązanie równania (3.9) nie zależy od φ, czyli estymator największej wiarogodności β liczony jest
niezależnie od φ. Z tego powodu w powyższym rozumowaniu ograniczyliśmy się do funkcji logarytmu
wiarogodności tylko dla parametru β.
Kategorialne zmienne objaśniające: Modelując dane zagadnienie możemy również użyć
zmiennych kategorialnych, to znaczy takich, które posiadają ograniczoną liczbę pewnych warto-
ści lub kategorii. Zmienna opisująca płeć przyjmująca kategorie ”M” dla mężczyzny oraz ”F” dla
kobiety oraz zmienna opisująca miejsce zamieszkania jako miejskie, wysoko miejskie, wiejskie, wy-
soko wiejskie są przykładami zmiennych kategorialnych. W praktyce GLM zmienne kategorialne,
które przyjmują różne poziomy, lepiej jest sparametryzować. Gdy zmienna objaśniająca x ma r
poziomów należy wprowadzić r − 1 nowych zmiennych binarnych
xi =
1 dla poziomu i
0 w pozostałych przypadkachi = 1, . . . , r − 1,
przy czym poziom r, który nie został użyty, nazywamy poziomem bazowym. Wprowadzone nowe
zmienne modelują różnicę pomiędzy każdym poziomem, a poziomem bazowym. Wybór poziomu
bazowowego zależy od modelującego, ale byłoby najkorzystniej przyjmować go jako najczęściej
występującą kategorię wśród zestawu danych [6].
37
Uwaga. Program zazwyczaj wybiera poziom bazowy jako najwyższy poziom numeryczny bądź alfa-
betyczny. W programie SAS można również samemu zdefiniować poziom bazowy, zwany poziomem
odniesienia, przy użyciu deklaracji class w procedurze proc genmod.
Na zakończenie tej części przedstawimy krótkie podsumowanie GLM:
• zmienne objaśniane Zj są niezależne i pochodzą z wykładniczej rodziny rozkładów, czyli ich
rozkład zdefiniowany jest przez
f(z|θj , φ, wj) = expzθj − b(θj)φ/wj
+ c(zj , φ/wj),
gdzie θj jest parametrem, który zależy od j, zaś φ jest stały dla każdego j. Wagi mogą być
identyczne lub być włączone do GLM,
• zmienne objaśniające xji tworzą liniowy predyktor
ηj = β0 + β1xj1 + . . .+ βmxjm,
• funkcja łącząca g jest różniczkowalna oraz ściśle monotoniczna, a zatem posiada funkcję
odwrotną g−1,
• wartości oczekiwane Zj , µj = E(Zj) są oszacowane przez równania
g(µj) = ηj lub µj = g−1(ηj) j = 1, . . . , n,
• wariacja Zj jest funkcją wartości oczekiwanej
V ar(Zj) =φ
wjV (µj),
• współczynniki β0, β1, . . . , βm są estymowane metodą największej wiarogodności,
• należy wybrać rozkład oraz funkcję łączącą właściwą do modelowanego zagadnienia.
3.3 GLM dla liczby szkód i średniej wartości szkody
Jak już powiedzieliśmy na wstępie tego rozdziału, modele regresyjne GLM są niezbędnym na-
rzędziem aktuariuszy do wyceny umów ubezpieczeniowych. W tej części pracy skupimy się na
modelowaniu dwóch zmiennych: liczby szkód (lub częstości szkód) oraz średniej wartości szkody
(lub wielkości szkód) w zależności od pewnego zestawu zmiennych. Na początku oszacujemy te
zmienne w osobnych modelach, wykorzystując procedurę proc genmod w programie SAS, a na-
stępnie połączymy GLM dla dwóch brzegowych modeli regresji z rodzinami kopuł, wykorzystując
pakiet CopulaRegression programu R.
3.3.1 Modelowanie niezależne
Naszym celem będzie modelowanie zależności pomiędzy zmiennymi objaśnianymi, które w na-
szym przypadku oznaczają liczbę szkód oraz średnią wartość szkody, w oparciu o pewien zbiór
zmiennych objaśniających dotyczących danego ubezpieczonego, np. płeć, wiek, miejsce zamieszka-
nia. Oznaczmy przez X zmienną losową określająca średnią wartość szkody, natomiast przez Y
zmienną losową określającą liczbę szkód. Wykorzystamy GLM do oszacowania, w osobnych mode-
lach, wartości oczekiwanych tych zmiennych. Pamiętajmy, że decydując się na modelowanie GLM,
na początku musimy wybrać rozkład oraz funkcję łączącą dla modelowanej zmiennej.
38
Model regresji dla średniej wartości szkody
Ciągłe zmienne losowe używane są do modelowania kosztów, ze względu na to, że zmienne te są
zwykle dodatnie i cechują się asymetrią. Dlatego też wybieramy rozkład Gamma do modelowa-
nia średniej wartości szkody X. Ponadto chcemy, aby model wartości szkód był multiplikatywny
zamiast addytywny, więc wybieramy funkcję logarytm jako funkcję łączącą. Co więcej, średnia war-
tość szkody X jest zmienną dodatnią, zatem tym bardziej funkcja logarytmiczna jest rozsądnym
wyborem.
Niech Xj , j = 1, . . . , n (n oznacza liczbę polis bądź liczbę ubezpieczonych) będą niezależnymi
zmiennymi losowymi o rozkładzie Gamma, reprezentującymi średnią wartość szkody (roszczenia)
dla j-tej polisy. Poszukujemy modelu zmiennej Xj pod względem zmiennych rj1, . . . , rjm. Model
regresji Gamma dla średniej wartości szkody przyjmuje postać
log (E[Xj ]) = α0 + α1rj1 + · · ·+ αmrjm (3.10)
lub równoważnie
E[Xj ] = expα0 + α1rj1 + · · ·+ αmrjm. (3.11)
gdzie α0, α1, . . . , αm są nieznanymi współczynnikami regresji. Zauważmy, że multiplikatywny efekt
zmiennych objaśniających w modelu wynika z (3.11), gdyż
E[Xj ] = expα0 expα1rj1 · · · expαmrjm.
Oznaczając przez E[Xj ] = µj w równościach (3.10) oraz (3.11) możemy model zapisać w następu-
jące postaci wektorowej
log(µj) = rj tα lub
µj = exprj tα (3.12)
gdzie
rj t = (1, rj1, rj2, . . . , rjm),
α = (α0, α1, . . . , αm)t.
Do wyznaczenia estymatorów współczynników regresji α stosujemy wspomnianą wcześniej me-
todę największej wiarogodności. Niech xj będą realizacjami Xj oraz niech rj1, . . . , rjm określa
komplet wartości zmiennych objaśniających dla j polisy, j = 1, . . . , n. Zgodnie z tabelą 4 oraz
wzorem (3.8) funkcja logarytmu wiarogodności dla rozkładu Gamma wynosi
`(α) =n∑j=1
wjφ
logwjx
φµj− wjx
φµj− log x− log Γ
(wjφ
).
Zwykle przy modelowaniu wielkości roszczeń za wagi wj przyjmuje się liczbę roszczeń j-tej obserwa-
cji. Jednak przyjmujemy dla uproszenia, że wagi wj = 1 dla każdego j. Następnie, aby wyznaczyć
estymatory największej wiarogodności α parametrów regresji α, korzystamy z wyprowadzonego
wzoru (3.9), czyli rozwiązujemy układ (m+ 1) równań
∂`(α)∂αi
=n∑j=1
(xji − µj)rjiφµj
= 0, i = 0, 1, . . . ,m.
Model regresji dla liczby szkód
W przypadku, gdy zmienna objaśniana reprezentuje zmienną zliczającą, często stosowany jest
rozkład Poissona jako rozkład tej zmiennej. Zatem załóżmy, że rozkład Poissona jest rozkładem
39
liczby szkód Y . Jako funkcję łączącą wybieramy logarytm, który jest dobrym wyborem funkcji
łączącej z dwóch powodów. Po pierwsze funkcja odwrotna g−1 funkcji łączącej działa ze zbioru
(−∞,+∞), będącego zbiorem wartości predyktora liniowego η, w zbiór (0,∞), będący zbiorem
przyjmowanych wartości przez liczbę szkód. Po drugie funkcja logarytmiczna powoduje, że model
staje się multiplikatywny.
Niech Yj , j = 1, . . . , n (n oznacza liczbę polis bądź liczbę ubezpieczonych) będą niezależnymi
zmiennymi losowymi o rozkładzie Poissona reprezentującymi liczbę szkód dla j-tej polisy. Poszu-
kujemy modelu zmiennej Yj pod względem zmiennych sj1, . . . , sjm. Model regresji Poissona dla
liczby szkód przyjmuje postać
log (E[Yj ]) = log(ej) + β0 + β1sj1 + · · ·+ βmsjm (3.13)
lub równoważnie
E[Yj ] = ej expβ0 + β1sj1 + · · ·+ βmsjm, (3.14)
gdzie β0, β1, . . . , βm są nieznanymi współczynnikami regresji. Zmienna ej oznacza ekspozycję (w
przypadku rozważania liczby szkód oznacza najczęściej czas trwania polisy), zaś log(ej) zmienną
przesunięcia (nazywaną offset). Uwzględnienie w modelu zmiennej ej powoduje, że E[Yj ] zmienia
się proporcjonalnie do ekspozycji. Innymi słowy, jeżeli czas trwania polisy rośnie, wówczas wartość
oczekiwana Yj również rośnie. Jest to zgodne z naturalną obserwacją, że liczba szkód zależy od
liczby obserwowanych lat posiadania polisy przez ubezpieczanego. Dla regresji Poissona również
efekt zmiennych objaśniających w modelu na zmienną objaśnianą jest multiplikatywny, mianowicie
E[Yj ] = ej expβ0 expβ1sj1 · · · expβmsjm.
Oznaczając przez E[Yj ] = λj w równaniach (3.13) oraz (3.14) możemy zapiać model w następującej
postaci wektorowej
log(λj) = log(ej) + sj tβ lub
λj = ej + expsj tβ (3.15)
gdzie
sj t = (1, sj1, sj2, . . . , sjm),
β = (β0, β1, . . . , βm)t.
Analogicznie jak w przypadku regresji Gamma stosujemy metodę największej wiarogodności
do wyznaczenia estymatorów współczynników regresji. Niech yj będą realizacjami Yj oraz niech
sj1, . . . , sjm określa komplet wartości zmiennych objaśniających dla j polisy, j = 1, . . . , n. Zgodnie
z tabelą 4 oraz wzorem (3.8) funkcja logarytmu wiarogodności dla rozkładu Poissona wynosi
`(β) =n∑j=1
yj log λj − λj − log(yj !).
Estymatory największej wiarogodności β współczynników β otrzymujemy rozwiązując układ (m+
1) równań zgodnie z (3.9), tj.
∂`(β)∂βi
=n∑j=1
(yj − λj)sji = 0, i = 0, 1, . . . ,m,
przy czym zakładamy, że φ = 1 oraz wj = 1.
40
Uwaga. Gdy znamy estymatory największej wiarogodności α oraz β oraz gdy zmienne objaśniające
rj oraz sj w powyższych modelach są zmiennymi kategorialnymi, wówczas wielkości
ηXj = α0 + α1rj1 + · · ·+ αmrjm, j = 1, . . . , n
oraz
ηYj = β0 + β1sj1 + · · ·+ βmsjm, j = 1, . . . , n
pozwalają na zakwalifikowanie ubezpieczonych do poszczególnych grup ryzyka (grup taryfowych).
Dokładniej mówiąc, jeżeli zmienne objaśniające przyjmą określony profil klienta wyznaczony pozio-
mem ηXj oraz ηYj , wtedy możemy wyestymować odpowiednie wartości oczekiwane µj oraz λj. W
ten sposób tworzy się względnie jednorodny portfel, w którym klienci należący do tej samej grupy
ryzyka przejawiają podobną wartość szkody oraz liczbę szkód.
Przykład empiryczny
Teraz przy pomocy procedury proc genmod programu SAS stworzymy dwa osobne modele GLM
dla średniej wartości szkody i liczby szkód, z wykorzystaniem danych pochodzących z książki [6],
umieszczonych na stronie Macquarie University, Sydney. Ten zestaw danych dotyczy rocznych polis
(czas trwania polisy wynosi rok) ubezpieczeń komunikacyjnych wykupionych w 2004 lub 2005 roku.
Zbiór zawiera 67856 polis, z których 4624 (6,8%) miało co najmniej jedną szkodę (roszczenie), czyli
są to polisy szkodowe. Dane zostały opisane przez 10 zmiennych. Do naszej analizy wykorzystamy
5 zmiennych.
W modelach GLM przyjmujemy następujące zmienne dotyczące j-tego ubezpieczonego, dla
j = 1, . . . , 67856:
1. zmienne objaśniane:
• clamcst0 - średnia wartość szkody
• numclaims - liczba szkód
2. zmienne objaśniające:
• gender - płeć: M, F
• agecat - wiek: 1, 2, 3, 4, 5, 6 (1-najmłodsza grupa, 6-najstarsza grupa wiekowa)
• area - miejsce zamieszkania: A, B, C, D, E, F
Ponadto przyjmujemy, że powyższe zmienne objaśniające są użyte dla obydwu modeli zmiennych
objaśnianych oraz że ekspozycja wynosi rok, czyli ej = 1 dla każdego j. Zauważamy, że wszystkie
zmienne objaśniające są kategorialne, zatem w kolejnym etapie przygotowania danych musimy
określić poziom bazowy każdej ze zmiennych objaśniających. Odpowiednio będą to najliczniejsze
poziomy danej zmiennej. Rysunek 7 przedstawia procentowy udział poszczególnych poziomów dla
płci, wieku oraz miejsca zamieszkania. Na jego podstawie jako ogólny poziom bazowy przyjmujemy
F dla płci, grupę 4 dla wieku, grupę C dla miejsca zamieszkania
41
(a) Zmienna agecat (b) Zmienna area
(c) Zmienna gender
Rysunek 7: Zastawienie poziomów zmiennych objaśniających (źródło: opracowanie własne)
Po wyborze poziomu bazowego możemy przejść do parametryzacji zmiennych objaśniających
na odpowiednią ilość nowych zmiennych binarnych, z których każda związana jest z określonym
poziomem danej zmiennej objaśniającej (to znaczy przyjmuje wartość 1 dla określonego poziomu),
przy czym poziom bazowy nie ma swojego binarnego odpowiednika. Całościowy wpływ poziomu
bazowego na zmienne objaśniane wyrażany jest przez wyraz wolny α0 bądź β0. Zatem zapis binarny
zmiennych gender, agecat, area jest następujący:
rj1 = sj1 =
1 jeżeli gender=M
0 w pozostałych przypadkachrj2 = sj2 =
1 jeżeli agecat=1
0 w pozostałych przypadkach
rj3 = sj3 =
1 jeżeli agecat=2
0 w pozostałych przypadkachrj4 = sj4 =
1 jeżeli agecat=3
0 w pozostałych przypadkach
rj5 = sj5 =
1 jeżeli agecat=5
0 w pozostałych przypadkachrj6 = sj6 =
1 jeżeli agecat=6
0 w pozostałych przypadkach
rj7 = sj7 =
1 jeżeli area=A
0 w pozostałych przypadkachrj8 = sj8 =
1 jeżeli area=B
0 w pozostałych przypadkach
rj9 = sj9 =
1 jeżeli area=D
0 w pozostałych przypadkachrj10 = sj10 =
1 jeżeli area=E
0 w pozostałych przypadkach
rj11 = sj11 =
1 jeżeli area=F
0 w pozostałych przypadkach
42
Przy uwzględnieniu powyższych zmiennych model regresji Gamma dla średniej wartości szkody
przyjmuje postać
µj = expα0 +11∑i=1
αirji
dla j = 1, . . . , 4624, natomiast model regresji Poissona dla liczby szkód, przy założeniu, że ej = 1
dla każdego j, przyjmuje postać
λj = expβ0 +11∑i=1
βisji
dla j = 1, . . . , 67853. W powyższych modelach deklarujemy inną liczbę ubezpieczonych. Jest to
spowodowane tym, że regresja Gamma modeluje dodatnią zmienną losową, zatem w odniesieniu
do modelowanej zmiennej X możemy wziąć pod uwagę tylko te polisy, w których wystąpiło co
najmniej jedna szkoda. Natomiast dla regresji Poissona nie mamy takiego ograniczenia, stąd do
modelu brane są pod uwagę wszystkie polisy (włącznie z polisami bezszkodowymi).
Możemy teraz przejść do oszacowania współczynników regresji α = (α0, . . . , α11)t oraz β =
(β0, . . . , β11)t przy pomocy procedury proc genmod programu SAS. Rysunki 8 oraz 9 przedsta-
wiają wyniki estymacji tych parametrów odpowiednio dla regresji Gamma oraz Poissona. Należy
zauważyć, że dla poszczególnych poziomów bazowych zmiennych objaśniających, które zostały włą-
czone do ogólnego poziomu bazowego, oszacowane parametry oraz statystyki wynoszą zero bądź
są pomijane.
Rysunek 8: Analiza ocen parametrów dla regresji Gamma (źródło: opracowanie własne)
43
Rysunek 9: Analiza ocen parametrów dla regresji Poissona (źródło: opracowanie własne)
Przyjmijmy poziom istotności 0.05. Na podstawie otrzymanych wyników możemy stwierdzić
istotność parametrów α0, α1, α2, α5, α7, α11, a tym samym zmiennych rj0 = 1, rj1, rj2, rj5, rj8, rj11
dla regresji Gamma, gdyż wartość p-value jest mniejsza od przyjętego poziomu istotności. Na-
tomiast dla regresji Poissona stwierdzamy istotność parametrów β0, β2, β5, β6, β9, a tym samym
zmiennych sj0 = 1, sj2, sj5, sj6, sj9. Poszukujemy modeli, w których wszystkie parametry danej
regresji będą istotne. Stosujemy w tym celu metodę eliminacji kolejnych nieistotnych zmiennych
objaśniających w analizowanych modelach. Ostateczne wyniki estymacji dla regresji Gamma oraz
Poissona przedstawiają rysunki 10 oraz 11.
Rysunek 10: Analiza ocen parametrów dla regresji Gamma w przypadku istotności wszystkich
parametrów (źródło: opracowanie własne)
44
Rysunek 11: Analiza ocen parametrów dla regresji Poissona w przypadku istotności wszystkich
parametrów (źródło: opracowanie własne)
Na podstawie przedstawionych wyników stwierdzamy istotność parametrów α0, α1, α2, α3, α5, α11
dla regresji Gamma, natomiast dla regresji Poissona β0, β2, β5, β6, β9. Zatem ostatecznie oszacowa-
ne wartości oczekiwane średniej wartości szkody i liczby szkód mają następującą postać
µj = exp7.4686+0.1671rj1+0.2805rj2+0.0907rj3−0.1124rj5+0.3411rj11, j = 1, . . . , n, (3.16)
λj = exp−2.5721 + 0.1946sj2 − 0.2191sj5 − 0.2302sj6 − 0.1349sj9, j = 1, . . . , n. (3.17)
W przypadku klasycznej regresji liniowej wpływ zmiany zmiennej objaśniającej na zmienną
objaśnianą jest addytywny, więc wzrost pewnej zmiennej objaśnianej o jednostkę przy pozosta-
łych zmiennych niezmienionych powoduje zmianę zmiennej objaśnianej o współczynnik stojący
przy danej zmiennej objaśniającej. W powyższych regresjach wpływ zmiennych objaśniających na
zmienną objaśnianą jest multiplikatywny w zależności od poziomu bazowego.
Ponadto na podstawie (3.16) oraz (3.17) możemy dla j-tego ubezpieczonego, którego profil
ryzyka charakteryzujemy poprzez przyjmowanie konkretnych wartości zmiennych objaśniających,
wyznaczyć wartości oczekiwane µj oraz λj . Przykładowo rozważmy ubezpieczonego o następują-
cych cechach:
gender=F, agecat=1, area =A.
Powyższy profil sugeruje, że bierzemy pod uwagę kobietę z grupy wiekowej 1 zamieszkałej w A.
Wartość oczekiwana dla średniej wartości szkody oraz wartość oczekiwana dla liczby szkód wynoszą
odpowiednio
µj = 2071.23,
λj = 0.093.
Oznacza to, że klientka o takim profilu średnio generuje szkody na kwotę 2071.23 zł oraz śred-
nia liczba szkód wynosi 0.093. Tak mała wartość dla liczby szkód spowodowana jest tym, że w
analizowanym zbiorze danych występuje duża liczba polis bezszkodowych - w dalszej części pracy
będziemy chcieli stworzyć model regresji tylko dla polis szkodowych.
Przy modelowaniu zmiennej losowej zliczającej, tak jak w naszym przypadku dla zmiennej
określającej liczbę szkód, regresją Poissona mamy tę własność, że wartość oczekiwana jest równa
wariancji. Jednakże okazuje się, że dane empiryczne często nie posiadają takiej cechy i zwykle
wariancja jest większa od średniej. Mówimy wówczas o zjawisku nadrozproszenia (and. overdi-
spersion). Nadrozproszenie można modelować na przykład za pomocą rozkładu dwumianowego
45
ujemnego bądź mieszanych rozkładów Poissona. Ponadto dane mogą przejawiać dużą liczę zer,
świadczących o braku roszczenia. Wtedy aby poradzić sobie z tym problemem, stosowane są mo-
dele Zero-inflated Poisson lub Hurdle models [8], [2]. Istnieje wiele pozycji poświęconych zasygna-
lizowanym zagadnieniom, jednak w pracy nie będziemy ich rozwijać.
Na zakończenie warto dodać, że przedstawiona analiza jest swego rodzaju pierwszym podejściem
do modelowania wartości oczekiwanej średniej wartości szkody i wartości oczekiwanej liczby szkód
przy użyciu GLM przy najprostszych założeniach.
Uwaga. Podstawowym celem modelowania GLM, czy jakiegokolwiek modelowania regresyjnego,
jest znalezienie możliwie najlepszego modelu pasującego do danych. Więc w ogólności osoba mo-
delująca nie ogranicza się do budowania jednego modelu dla danego zagadnienia, tylko tworzy ich
kilka, a wyboru najlepszego dokonuje na podstawie przyjętego kryterium, np. stosując kryterium
Akaike AIC; najlepszy model to ten o najmniejszej wartości AIC, dany wzorem
AIC = −2LL+ 2p (3.18)
gdzie p to liczba estymowanych parametrów modelu, a LL oznacza wartość funkcji logarytmu wia-
rogodności dla oszacowanych parametrów.
Uwaga. Powyższe modele regresyjne dla średniej wartości szkody X i liczby szkód Y stosuje się do
oszacowania składki czystej (ang. pure risk premium) [19]. Składkę czystą określa się jako wartość
oczekiwaną zmiennej losowej opisującej wysokość łącznych szkód dla j-tej polisy (ryzyka), tj.
πj = E(Lj) = E(Xj) · E(Yj), j = 1, . . . , n.
Powyższa równość zachodzi przy założeniu niezależności średniej wartości szkody Xj od liczby
szkód Yj. Wówczas oszacowana wartość składki czystej dla j-tej polisy wyznacza się za pomocą
oszacowanych parametrów modelu (3.12) oraz (3.15), czyli
πj = ej exprj tα expsj tβ
gdyż oszacowane wartości oczekiwane w modelach GLM wynoszą
E(Xj) = µj = exprj tα,
E(Yj) = λj = ej expsj tβ.
3.3.2 Modelowanie z wykorzystaniem kopuły
W rozdziale 3.3.1 pokazaliśmy, jak w praktyce możemy modelować pewne zmienne losowe przy
użyciu GLM. Oszacowaliśmy w osobnych modelach wartości oczekiwane X oraz Y przy danym
zbiorze danych ubezpieczeń komunikacyjnych. Teraz rozszerzymy model rozkładu łącznego fX,Y
(definicja 2.1) dla średniej wartości szkody X i liczby szkód Y zezwalając na to, aby rozkłady
brzegowe zależały od pewnego zbioru zmiennych objaśniających. Innymi słowy zastosujemy GLM
dla rozkładów brzegowych i połączymy je z rodzinami dwuwymiarowych kopuł. Ponadto pamiętaj-
my, że w tym modelu zakładamy istnienie zależności między X i Y , a informacja o tej zależności
zawarta jest w parametrze kopuły θ. Zaprezentujemy formalną postać modelu regresji opartego
na kopule przedstawioną w pracy [13]. Następnie użyjemy pakietu CopulaRegression, który im-
plementuje to podejście w programie R. Na przykładzie zbioru polis komunikacyjnych uzyjemy
funkcji copreg do oszacowania parametrów regresji oraz parametru kopuły θ, a co za tym idzie
współczynnika τ Kendall’a.
46
Model regresji oparty na kopule
Niech Xj ∈ R+, j = 1, . . . , n będą niezależnymi zmiennymi losowymi oraz niech Yj ∈ N>0, j =
1, . . . , n będą niezależnymi zmiennymi losowymi, gdzie n oznacza liczbę polis. Modelujemy zmienną
Xj względem wektora zmiennych rj ∈ Rp+1 oraz zmienną Yj względem wektora zmiennych sj ∈Rq+1. Brzegowe modele regresji są zatem określone przez
Xj ∼ Gamma(µj , δ) gdzie log(µj) = rj tα
Yj ∼ ZTP (λj) gdzie log(λj) = log(ej) + sj tβ. (3.19)
gdzie ej oznacza ekspozycję, czyli jak poprzednio czas trwania polisy. Zwróćmy uwagę, że wektory
rj oraz sj mogą się różnić.
Chcemy oszacować nieznany wektor parametrów
υ := (αt,β t, θ, δ)t ∈ Rp+q+4
opierając się na n parach obserwacji (xj , yj) wektora losowego (X,Y ). Do estymacji υ wykorzy-
stamy metodę największej wiarogodności. Funkcja logarytmu wiarogodności (ang. loglikelihood)
wynosi
`(υ|x,y) =n∑j=1
log (fX,Y (xj , yj |υ)) (3.20)
gdzie
x = (x1, . . . , xn)t ∈ Rn,y = (y1, . . . , yn)t ∈ Rn.Estymator największej wiarogodności dany jest przez
υ = arg maxυ
`(υ|x,y),
W ogólności nie ma rozwiązania analitycznego tego problemu w zbiorze otwartym, dlatego aby
zmaksymalizować funkcję logarytmu wiarogodności `(υ|x,y) określoną przez (3.20) używa się me-
tod numerycznych. Do oszacowania nieznanego wektora parametrów υ, a tym samym współczyn-
ników regresji α, β, stosowano w pracy [13] algorytm BFGS (metoda guasi-Newtona). Jest to
rekurencyjna metoda znajdowania wielkości estymatora największej wiarogodności, w naszym przy-
padku estymatora υ. Kolejno zauważmy, że parametr kopuły θ zwykle jest ograniczony (zobacz
tabela 1), tak więc wprowadzamy przekształcenie h : Θ → R tak, aby h(θ) było nieograniczone.
Przykładowo dla kopuły Gaussa parametr kopuły θ należy do przedziału (−1, 1), zatem dla tej
kopuły definiujemy następujące przekształcenie
h(θ) =12
log(
1 + θ
1− θ
).
Wówczas zagadnienie optymalizacji logarytmu wiarogodności sprowadza się do znalezienia wektora
parametrów (αt,β t, h(θ), δ)t.
W celu skonstruowania przedziałów ufności można użyć macierzy informacji Fishera zdefinio-
wanej jako
I(υ) := E
[∂`(υ|x,y)
∂υ·(∂`(υ|x,y)
∂υ
)t]∈ R(p+q+4)×(p+q+4).
Na podstawie twierdzenia C.1 istnieje estymator największej wiarogodności oraz
√n(υ − υ) −→ Np+q+4(0, I−1(υ)) (3.21)
47
gdzie Nk oznacza k-wymiarowy rozkład normalny. Aby oszacować macierz informacji Fishera sko-
rzysta się z faktu, że
I(υ) = −E[∂2`(υ|x,y)
∂2υ
],
i wówczas zaobserwowana (próbkowa) informacji Fishera wynosi
I(υ) := −∂2`(υ|x,y)∂2υ
.
Powyższe równości zachodzą w przypadku, gdy zakładamy istnienie prawdziwego stanu υ.
Przykład empiryczny
Przy pomocy funkcji copreg pakietu CopulaRegression programu R stworzymy model regre-
syjny dla średniej wartości szkody i liczby szkód oparty na kopule Gaussa dla tego samego zbioru
danych co w poprzednim przykładzie empirycznym, w którym modelowane były te zmienne w
osobnych modelach GLM.
Niech zmienna objaśniana Xj oznacza średnią wartość szkody, natomiast zmienna Yj liczbę
szkód dla j-tej polisy, a ich modele regresyjne będą określone przez (3.19). Przyjmijmy również takie
same zmienne objaśniające rj = sj ∈ R12 (zmienne binarne określone w poprzednim przykładzie).
Ze względu na fakt, iż zakładamy rozkład Poissona ucięty w zerze dla liczby szkód, to zbiór danych
zostaje ograniczony tylko do polis szkodowych, tak jak w przypadku zmiennej oznaczającej średnią
wartość szkody. Zatem analizowany zbiór danych zawiera 4624 obserwacji.
Przy uwzględnieniu zmiennych objaśniających rj , sj dla brzegowych modeli regresji, model re-
gresji Gamma dla średniej wartości szkody oraz model regresji ZTP dla liczby szkód, przy założeniu,
że ej = 1 dla każdego j, przyjmują następujące postaci
µj = expα0 +11∑i=1
αirji
λj = expβ0 +11∑i=1
βisji
dla i = 1, . . . , 4624. Ponadto zakładamy istnienie zależności między Xj oraz Yj , która wyrażana
jest w kategoriach parametru θ kopuły Gaussa.
Korzystając z funkcji copreg, otrzymano oceny α = (α1, . . . , α11) oraz β = (β1, . . . , β11)
współczynników regresji, odpowiednio dla regresji Gamma i regresji ZTP w modelu, w którym
struktura zależności między średnią wartością szkody a liczbą szkód modelowana jest za pomocną
kopuły Gaussa. Wyliczono statystki testu Walda dla poszczególnych oszacowań parametrów oraz
p-value. Ponieważ estymatory parametrów współczynników regresji mają asymptotyczny rozkład
normalny, o czym mówi równość (3.21), zatem możemy przeprowadzić prosty test statystyczny dla
poszczególnych oszacowań parametrów (oznaczmy pojedynczy parametr modelu przez %). W tym
celu stosuje się z test Walda, którego hipoteza zerowa brzmi
H0 : % = 0,
natomiast alternatywna
HA : % 6= 0.
Do weryfikacji tej hipotezy wykorzystujemy statystykę testową określoną wzorem [1], [6]
W =%2
SE(%)2 ,
48
gdzie SE(%) jest błędem standardowym estymatora % parametru %. Powyższa statystyka przy zało-
żeniu prawdziwości hipotezy zerowej ma rozkład χ2 z 1 stopniem swobody. Ponadto dla porównania
przedstawiono oszacowania parametrów dla modelu zakładającego niezależność między X i Y , w
którym współczynniki regresji Gamma dla X oraz regresji ZTP dla Y oszacowuje się w osobnych
modelach GLM. Wyniki estymacji przedstawiono w tabeli 7.
Tabela 7: Analiza ocen parametrów dla modelu regresyjnego z wykorzystaniem kopuły Gaussa oraz
modelu regresyjnego z założeniem niezależności (źródło: opracowanie własne)
Para- Model zakładający niezależność Model z kopułą Gaussa
metr ocena błąd st. stat. Walda p-value ocena błąd st. stat. Walda p-value
α0 7.5180 0.0656 13123 < .0001 7.5219 0.0445 28578 < .0001
α1 0.1663 0.0656 10.75 0.0010 0.1666 0.0343 23.59 < .0001
α2 0.2682 0.0920 8.50 0.0036 0.2659 0.0620 18.41 < .0001
α3 0.0871 0.0759 1.31 0.2516 0.0862 0.0510 2.86 0.0909
α4 -0.0073 0.0724 0.01 0.9197 -0.0101 0.0488 0.04 0.8364
α5 -0.1206 0.0858 1.98 0.1595 -0.1213 0.0576 4.43 0.0352
α6 -0.0479 0.1029 0.03 0.6413 -0.0499 0.0693 0.52 0.4712
α7 -0.0704 0.0687 1.05 0.3054 -0.0718 0.0461 2.42 0.1201
α8 -0.0951 0.0711 1.79 0.1811 -0.0961 0.0479 4.02 0.0450
α9 -0.0889 0.0889 0.99 0.3176 -0.095 0.0599 2.52 0.1255
α10 0.0800 0.0978 0.67 0.4132 0.0795 0.0658 1.46 0.2266
α11 0.2986 0.1120 7.11 0.0077 0.2986 0.0753 15.73 < .0001
β0 -2.0725 0.1490 193.38 < .0001 -2.0365 0.1480 189.41 < .0001
β1 -0.0612 0.1139 0.29 0.5909 -0.0516 0.1134 0.21 0.6488
β2 -0.22350 0.2143 1.20 0.2729 -0.2456 0.2136 1.32 0.2502
β3 -0.0299 0.1633 0.03 0.8547 -0.0208 0.1619 0.02 0.8979
β4 -0.0847 0.1584 0.29 0.5926 -0.0968 0.1575 0.38 0.5389
β5 -0.2706 0.2025 1.79 0.1815 -0.2836 0.2012 1.99 0.7617
β6 -0.0572 0.2267 0.06 0.8008 -0.0684 0.2254 0.09 0.7617
β7 0.4256 0.1493 8.13 0.0044 0.4053 0.1481 7.495 0.0062
β8 -0.0136 0.1723 0.006 0.9370 -0.0095 0.1712 0.003 0.9558
β9 -0.0112 0.2175 0.003 0.9588 -0.0756 0.2192 0.12 0.7301
β10 0.1989 0.2200 0.82 0.3664 0.1791 0.2185 0.67 0.4125
β11 0.4316 0.2276 3.30 0.0578 0.4324 0.2253 3.68 0.0550
Po pierwsze możemy zauważyć, że oszacowane współczynniki regresji dla modelu zakładającego
niezależność między X i Y oraz modelu, w którym zależność między liczbą szkód a ich średnią
wartością szkody jest uwzględniona za pomocą kopuły Gaussa, są do siebie zbliżone, ale jednak nie
identyczne. Oznacza to, że zależność między tymi wielkościami ma wpływ na ocenę parametrów.
Dodatkowo program oszacowuje parametr θ kopuły Gaussa, który wynosi
θ = 0.25.
Na jego podstawie otrzymujemy, że współczynnik τ Kednall’a wynosi
τ = 0.16,
co sugeruje słabą zależność miedzy średnią wartością szkody a liczbą szkód dla polisy.
49
Następnie, przyjmując poziom istotności 0.05, stwierdzamy istotność parametrów α0, α1, α2, α11
regresji Gamma w modelu zakładającym niezależność, zaś parametrów α0, α1, α2, α5, α8α11 w mo-
delu z kopułą Gaussa. W przypadku regresji ZTP w modelu zakładającym niezależność oraz w
modelu z kopułą Gaussa istotne są parametry β0, β7. Istotność współczynników regresji pocią-
ga za sobą istotność odpowiadających im zmiennych objaśniających. Szukamy modelu, w którym
wszystkie zmienne objaśniające będą istotne, jednakże wymaga to ręcznego usuwania nieistotnych
zmiennych w programie R. Z tego względu w dalszych rozważaniach przyjmiemy dla uproszenia
oceny parametrów tylko dla istotnych współczynników regresji otrzymane w tabeli 7. Zatem po
usunięciu nieistotnych zmiennych w analizowanych modelach otrzymujemy następujące modele
regresji:
dla modelu zakładającego niezależność
regresja Gamma
µj = exp7.5180 + 0.1663rj1 + 0.2682rj2 + 0.2986rj11, j = 1, . . . , n (3.22)
regresja ZTP
λj = exp−2.0725 + 0.4256sj7, j = 1, . . . , n. (3.23)
dla modelu z kopułą Gaussa
regresja Gamma
µzj = exp7.5219+0.1666rj1+0.2659rj2−0.1213rj5−0.0961rj8+0.2986rj11, j = 1, . . . , n (3.24)
regresja ZTP
λzj = exp−2.0365 + 0.4053sj7, j = 1, . . . , n. (3.25)
Zauważmy, że w przypadku regresji Gamma zależność między zmiennymi wpłynęła na istotność
zmiennych objaśniających, mianowicie w modelu Gaussa otrzymaliśmy dwie dodatkowe istotne
zmienne objaśniające r5 i r8, które wpływają na wartość oczekiwaną średniej wartości szkody.
Podobnie jak w poprzednim przykładzie oszacujemy teraz wartości oczekiwane średniej wartości
szkody i liczby szkód, stosując powyższe wzory dla modelu zakładającego niezależność (wzory 3.22
- 3.23) i modelu z kopułą Gaussa (wzory 3.24 - 3.25) dla pewnego ubezpieczonego o następujących
cechach:
gender=F, agecat=1, area =A.
Otrzymane oszacowania przedstawiono w poniższym zestawieniu.
profil klienta: model zakładający model
gender=F,agecat=1, area=A niezależność z kopułą Gaussa
E(X) 2407 2411
E(Y ) 0.1926 0.1956
Zauważmy, że oszacowane wartości oczekiwane dla danego profilu klienta różnią się nieznacznie.
Jest to spowodowane tym, że zależność średniej wartości szkody X i liczby szkód Y jest zbyt mała,
aby spowodować bardziej zauważalne różnice w prezentowanych modelach. Możemy przypuszczać,
że jeśli związek między tymi zmiennymi byłby większy, to otrzymalibyśmy większe różnice w esty-
macji parametrów, a co za tym idzie w oszacowaniach wartości oczekiwanych dla średniej wartości
szkody oraz liczby szkód przy analizowanym zbiorze danych.
50
Na zakończenie zastanowimy się nad tym, który model jest lepszy dla naszych danych. Może
mimo występującej małej zależności między średnią wartością szkody a liczbą szkód to model
zakładający niezależność tych zmiennych lepiej odwzorowuje nasze dane. W wyborze optymalnego
modelu posłużymy się kryterium informacyjnym Akaike określonym wzorem (3.18).
dla modelu zakładający niezależność AIC = 83208
dla modelu z kopułą Gaussa AIC = 81498
Wobec powyższego za lepszy model uznajemy model regresji, w którym zależność między średnią
wartością szkody a liczbą szkód jest modelowana kopułą Gaussa.
51
4 Podsumowanie
Głównym zadaniem teorii ryzyka w ubezpieczaniach jest modelowanie zmiennej losowej wyra-
żającej stratę, m.in. do kalkulacji składki czy wyceny wartości umów ubezpieczeniowych, dlatego
w niniejszej pracy zaprezentowano zupełnie inne podejście do modelowania tego zagadnienia wy-
korzystujące dwuwymiarowe kopuły.
Na początku pracy przedstawiliśmy pojęcie kopuły oraz jej własności. Ponadto udowodniliśmy
fundamentalne w teorii kopuł twierdzenie Sklara, które wyjaśnia rolę kopuł w związku między
wielowymiarowymi dystrybuantami a ich jednowymiarowymi dystrybuantami brzegowymi.
Kluczowym wynikiem naszych rozważań było przedstawienie modelu rozkładu łącznej warto-
ści szkód dla polisy ubezpieczeniowej zezwalając na to, aby zależność między średnią wartością
szkody a liczbą szkód była opisana za pomocą kopuły. Pokazaliśmy, że rozkład ten cechuje się
asymetrią prawostronną oraz - w zależności od parametrów modelu - wielomodalnością. Ponadto
wyznaczyliśmy wartość oczekiwaną łącznej wartości szkód przekonując się, że założenie o niezależ-
ności średniej wartości szkody i liczby szkód prowadzi do niedoszacowania modelowanej zmiennej.
Na podstawie przedstawionego przykładu zauważyliśmy, że na rozkład łącznej szkody z polisy
w znacznym stopniu wpływa stopień zależności między średnią wartością szkody a liczbą szkód,
a w mniejszym wybór rodziny kopuł. Podkreśla to przydatność modelowania za pomocą kopuły
rozkładu rozkładu łącznej szkody z polisy w porównaniu z modelowaniem, w którym zakłada się
niezależność wymienionych wielkości.
Następnie rozszerzyliśmy analizowane zagadnienie do modeli regresyjnych dla średniej wartości
szkody i liczby szkód, a dokładniej użyliśmy uogólnionych modeli liniowych, aby modelować relację
pomiędzy wymienionymi zmiennymi a zbiorem zmiennych dotyczących ubezpieczonego. W pracy
przedstawiliśmy dwa podejścia do modelowania GLM. W pierwszym modelowaliśmy w osobnych
modelach zmienne wyrażające średnią wartość szkody i liczbę szkód, stosując dla tych zmiennych
regresję Gamma i Poissona odpowiednio. W drugim przedstawiliśmy model regresji oparty na
kopule, w którym przyjęliśmy regresję Gamma dla średniej wartości szkody oraz regresję ZTP dla
liczby szkód. W modelu tym skorzystano z wyprowadzonego rozkładu łącznego tych zmiennych. W
przykładzie empirycznym, wykorzystującym dane dla ubezpieczeń komunikacyjnych, ostatecznie to
model, w którym struktura zależności między średnią liczbą szkód a liczbą szkód była modelowana
kopułą Gaussa, okazał się lepszy od modelu zakładającego niezależność między tymi wielkościami.
52
A Dodatek: podstawowe elementy rachunku prawdopodo-
bieństwa
W tym dodatku przedstawimy krótko podstawowe zagadnienia rachunku prawdopodobieństwa.
Są one niezbędne, aby w pełni zrozumieć pojawiające się w niniejszej pracy obiekty. Wiadomości
zawarte w dodatku zostały opracowane na podstawie [4], [12], [18].
A.1 Zmienne losowe jednowymiarowe
Przestrzenią probabilistyczną nazywamy uporządkowaną trójkę (Ω,F ,P), gdzie Ω jest niepu-
stym zbiorem, F jest σ-ciałem zbiorów Ω oraz P miarą prawdopodobieństwa na F .
Zmienna losowa i jej rozkład
Zmienną losową nazywamy odwzorowanie X : Ω→ R, które jest F mierzalne, tzn. że dla każdego
zbioru A ∈ B(R) zbiór X−1(A) ∈ F . Rozkładem prawdopodobieństwa zmiennej losowej X (krótko
rozkładem X) nazywamy miarę probabilistyczną µX na (R,B(R)) określoną w następujący sposób
µX(A) := P(X−1(A)) = P(X ∈ A), dla każdego A ∈ B(R).
Tak zdefiniowana miara daje nam wszystkie istotne informacje o zmiennej losowej X: o jej zbiorze
wartości i o tym, jak na tym zbiorze rozłożone jest prawdopodobieństwo. Zatem dzięki zmiennej lo-
sowej umożliwiającej „transport” miary pracujemy na przestrzeni probabilistycznej (R,B(R), µX),
zamiast na abstrakcyjnej przestrzeni (Ω,F ,P).
Dystrybuanta
Innym ważnym obiektem związanym ze zmienną losową, równoważnym z jej rozkładem, jest dys-
trybuanta, czyli funkcja FX : R→ [0, 1] określona wzorem
FX(x) := P(X ¬ x) = µX((−∞, x]).
Powyższa definicją mówi nam tyle, że każdy rozkład prawdopodobieństwa wyznacza jednoznacznie
pewną dystrybuantę. Dystrybuanta FX ma następujące własności:
1. 0 ¬ FX(x) ¬ 1 dla każdego x ∈ R
2. FX jest funkcją niemalejącą
3. limx→∞ FX(x) = 1 oraz limx→−∞ FX(x) = 0
4. FX jest funkcją (co najmniej) prawostronnie ciągłą, tzn.
limx→x+0
FX(x) = F (x0)
5. P(a < X ¬ b) = FX(b)− FX(a) dla a < b oraz a, b ∈ R.
Zauważmy, że przy zadanej funkcji FX wzór w punkcie 5. określa rozkład µX , czyli dystrybuanta
zmiennej losowej jednoznacznie wyznacza rozkład, to znaczy gwarantuje pełną informację o roz-
kładzie zmiennej losowej i jednocześnie jest o wiele prostszym obiektem do badania. W związku
z tym często mówi się, że dystrybuanta indukuje miarę probabilistyczną na zbiorach bolerowskich
B(R). Z powyższego wynika, że między funkcjami FX i µX istnieje wzajemna jednoznaczna odpo-
wiedniość.
Można również wykazać, że jeżeli dowolna funkcja spełnia warunki 1-4, wówczas funkcja ta jest
dystrybuantą pewnego rozkładu (pewnej zmiennej losowej).
53
Typy zmiennych losowych
Wyróżnia się dwa zasadnicze typy zmiennych losowych: zmienne losowe typu dyskretnego (skoko-
wego) oraz zmienne losowe typu ciągłego (absolutnie ciągłego). Pamiętajmy, że ze zmienną losową
powiązany jest jej rozkład, więc równowanie możemy mówić o dwóch klasach rozkładów zmiennych
losowych. Mówimy, że zmienna losowa X jest typu ciągłego, jeżeli rozkład µX na (R,B(R)) jest
absolutnie ciągły względem miary Lebesgue’a (µX λ). Przypomnijmy teraz to twierdzenie
Twierdzenie A.1 (Twierdzenie Radoma-Nikodyma). [4] Niech (X ,A) będzie przestrzenią mie-
rzalną, a µ i ν miarami na niej. Załóżmy, że µ jest σ-skończona, a ν jest miarą absolutnie ciągłą
względem miary µ (ν µ). Wtedy istnieje nieujemna funkcja mierzalna h taka, że
ν(E) =∫E
h(x)µ(x). (A.1)
Jeśli istnieje druga nieujemna mierzalna funkcja g spełniająca (A.1) to h = g µ prawie wszędzie.
Ponadto h jest skończenie całkowalna wtedy i tylko wtedy, gdy ν jest miarą skończona, a µ- p.w.
skończona wtedy i tylko wtedy, gdy ν jest skończona.
Funkcję h nazywamy pochodną Radoma-Niodyma i oznaczamy ją symbolem
h =dν
dµ.
Korzystając z twierdzenia Radona-Nikodyma mamy, że istnieje funkcja borelowska f : R→ [0,∞)
taka, że
µX(A) =∫A
f(x)dλ(x), A ∈ B(R).
Funkcję f nazywamy gęstością zmiennej losowej X (bądź gęstością rozkładu µX). Zauważmy, że
gęstość spełnia warunek unormowania:∫Rf(x)dλ(x) = µX(R) = 1.
Zmienna losowa X jest typu dyskretnego, gdy istnieje przeliczany zbiór W ⊂ R taki, że µX(W ) = 1.
Niech W = xii∈I , gdzie I oznacza zbiór indeksów (może być również skończony) oraz pi =
µX(xi) = P(X = xi) > 0, wówczas dla A ∈ B(R) mamy
µX(A) =∑i∈I
piδxi(A) =∑xi∈A
pi,
gdzie δ to miara Diraca. Zauważmy, że spełniony jest warunek unormowania:∑i∈I
pi = µX(R) = 1.
Rozkład µX zmiennej losowej typu dyskretnego jest absolutnie ciągły względem miary liczącej ν
na zbiorze W , gdzie
ν =∑i∈I
δxi (ν(xi) = 1) .
Ponieważ miara ν jest σ-skończona to z twierdzenia Radona-Nikodyma miara µX wyraża się przez
µX(A) =∫A
f(x)dν(x) A ∈ B(R),
gdzie
f(x) =
pi x = xi dla pewnego i ∈ I0, x 6= xi dla każdego i ∈ I.
Funkcję f nazywa się w przypadku dyskretnym funkcją prawdopodobieństwa zmiennej losowej X.
54
A.2 Wielowymiarowe zmienne losowe
Niech X1, X2, . . . , Xn będą zmiennymi losowymi określonymi na przestrzeni probabilistycznej
(Ω,F ,P). Pojęcia przedstawione w A.1 możemy przenieść w naturalny sposób dla wyższych wy-
miarów.
Wektor losowy, rozkład łączny, rozkłady brzegowe
Wektorem losowym bądź n-wymiarową zmienną losową nazywamy n-wymiarowy wektor X =
(X1, X2, . . . , Xn) o wartościach w Rn, którego każda składowa Xi dla i = 1, . . . , n jest zmien-
ną losową. Inaczej mówiąc odwzorowanie X : Ω → Rn jest odwzorowaniem mierzalnym (Ω,F ) w
(R,B(Rn)). Rozkładem prawdopodobieństwa wektora losowego X nazywamy miarę probabilistycz-
ną µX na (Rn,B(Rn)) zdefiniowaną
µX(A) := P(X−1(A)) = P(X ∈ A), dla każdego A ∈ B(Rn).
Rozkład µX nazywamy rozkładem łącznym zmiennych losowych X1, X2, . . . , Xn, bądź rozkładem
łącznym wektora losowego X, natomiast rozkładami brzegowymi wektora X nazywamy rozkłady
jego współrzędnych, tzn. jednowymiarowe rozkłady zmiennych losowych Xi dla i = 1, . . . , n.
Fakt. Niech X będzie wektorem losowym, a ϕ : Rn → Rm funkcją borelowską. Wówczas ϕ(X) jest
wektorem losowym o wartościach w Rm.
Dystrybuanta
Rozkład wektora losowego może być określany, podobnie jak w przypadku zmiennych losowych,
poprzez jego dystrybuantę. Dystrybuantą (n-wymiarową dystrybuantą) wektora losowego X nazy-
wamy funkcję FX : Rn → [0, 1] określoną wzorem
FX(x1, x2, . . . , xn) := P(X1 ¬ x1, . . . , Xn ¬ xn) = µX((−∞, x1]× · · · × (−∞, xn]).
Czasami dystrybuantę FX nazywa się też dystrybuantą łączną zmiennych losowych X1, X2, . . . , Xn.
Uwaga. Mówimy, że X jest skoncentrowany na A, jeśli P(X ∈ A) = 1. Wówczas dystrybuanta
jest jednoznacznie zadana poprzez wartości jakie przyjmuje na A, a poza tym zbiorem zwykle się
jej nie definiuje. Mówimy również wtedy, że FX jest skoncentrowana na A.
Niezależność
Mówimy, że zmienne losowe X1, X2, . . . , Xn są niezależne, gdy dla każdego ciągu zbiorów borelow-
skich A1, A2, . . . , An ∈ B(R) zachodzi
P(X1 ∈ A1, . . . , Xn ∈ An) = P(X1 ∈ A1) · · ·P(Xn ∈ An),
co równoważnie możemy zapisać
P(X1 ¬ x1, . . . , Xn ¬ xn) = P(X1 ¬ x1) · · ·P(Xn ¬ xn),
dla dowolnych x1, . . . , xn ∈ R. Zatem rozkład łączny niezależnych zmiennych losowych jest wyzna-
czony przez ich rozkłady brzegowe.
Fakt. Zmienne losowe X1, X2, . . . , Xn są niezależne wtedy i tylko wtedy, gdy dla każdego x1, . . . , xn ∈ Rzachodzi
FX(x1, x2, . . . , xn) = FX1(x1)FX2(x2) · · ·FXn(xn).
55
Dwuwymiarowe zmienne losowe
Teraz bliżej zajmiemy się dwuwymiarowymi zmiennymi losowymi, czyli wektorem losowym (X,Y ).
Dystrybuanta łączna określona jest wzorem
FX,Y (x, y) = P(X ¬ x, Y ¬ y).
oraz ma następujące własności:
1. 0 ¬ FX,Y (x, y) ¬ 1 dla każdego x, y ∈ R
2. FX,Y jest niemalejąca względem każdego argumentu
3. FX,Y jest prawostronnie ciągła (tj. prawostronnie ciągła ze względem każdego argumentu)
4. limx→−∞ FX,Y (x, y) = 0, limy→−∞ FX,Y (x, y) = 0 oraz limx,y→∞ FX,Y (x, y) = 1
5. dla każdych x1 ¬ x2, y1 ¬ y2
FX,Y (x2, y2)− FX,Y (x2, y1)− FX,Y (x1, y2) + FX,Y (x1, y1) 0.
Punkt 4. interpretuje się, że miara kostki ma być nieujemna (kostka ma nieujemne prawdopodo-
bieństwo). Rozkład łączny zmiennych X i Y jednostajnie wyznacza rozkłady brzegowe, ale nie na
odwrót (wyjątkiem jest przypadek, gdy rozpatrujemy zmienne losowe niezależne). Funkcje
FX(x) := limy→∞
FX,Y (x, y) FY (y) := limx→∞
FX,Y (x, y)
są funkcjami jednej zmienną, posiadają wszystkie własności dystrybuanty jednowymiarowej i na-
zywane są dystrybuantami brzegowymi.
56
B Dodatek: rozkłady zmiennych losowych
W tym dodatku przedstawimy szczegółowe informacje o rozkładach zmiennych losowych wy-
stępujących w pracy.
B.1 Rozkład jednostajny
Mówimy, że zmienna losowa X ma rozkład jednostajny (równomierny) skoncentrowany na prze-
dziale [a, b] (ozn. X ∼ U [a, b]), jeśli jej gęstość jest określona wzorem
f(x) =
1
b− adla a ¬ x ¬ b,
0 dla pozostałych x.(B.1)
Dystrybuantą tego rozkładu jest funkcja
F (x) =
0 dla x ¬ a,x− ab− a
a < x ¬ b,
1 x > b.
(B.2)
Dla rozkładu jednostajnego mamy następujące charakterystyki
Wartość oczekiwana E(X) = a+b2
Wariancja V ar(X) = 112 (b− a)2.
B.2 Rozkład Gamma
Rozkład Gamma jest dwu-parametrycznym ciągłym rozkładem. Można wyróżnić dwie różne
parametryzacje tego rozkładu. Pierwsza z nich to parametryzacja skalo-kształtna. Zmienna losowa
X ma rozkład Gamma z parametrami α, β > 0 (ozn. X ∼ Gamma(α, β)), jeśli jej funkcja gęstości
jest określona wzorem
f(x|α, β) =
1
βαΓ(α)xα−1 exp
(−xβ
)dla x > 0,
0 dla x ¬ 0,(B.3)
przy czym β jest parametrem skali tego rozkładu, zaś parametr α nazywany jest parametrem
kształtu. Przy takiej parametryzacji mamy następujące charakterystyki rozkładu:
Wartość oczekiwana E(X) = αβ
Wariancja V ar(X) = αβ2.
Uwaga. [14] Mamy następujące przypadki rozkładu Gamma
1. gdy α = 1 otrzymujemy rozkład wykładniczy o parametrze β,
2. gdy α = n, gdzie n ∈ N otrzymujemy rozkład Erlanga z parametrami n i β,
3. gdy α = 12n, β = 2 otrzymujemy rozkład χ2 z n stopniami swobody.
W przypadku parametryzacji z użyciem średniej mówimy, że zmienna losowa ma rozkład Gamma
z parametrami µ, δ > 0 (ozn. X ∼ Gamma(µ, δ)), jeśli jej funkcja gęstości określona jest wzorem
f(x|µ, δ) =
1
xΓ( 1δ )
(x
µδ
) 1δ
exp(− x
µδ
)dla x > 0,
0 dla x ¬ 0,
(B.4)
gdzie µ jest parametrem średniej, zaś δ parametrem rozproszenia. Zatem µ = pλ oraz δ = 1p , stąd
tym przypadku dostajemy
57
Wartość oczekiwana E(X) = µ
Wariancja V ar(X) = µ2δ.
B.3 Rozkład Poissona oraz ucięty w zerze rozkład Poissona
Na początku potrzebujemy zdefiniować rozkład Poissona. Rozkład Poissona jest dyskretnym
rozkładem prawdopodobieństwa, który wyraża prawdopodobieństwo wystąpienia szeregu zdarzeń
w określonym czasie, przy czym zdarzenia te występują ze znaną średnią częstotliwością i w sposób
niezależny od czasu jaki upłynął od ostatniego zdarzenia. Mówimy, że zmienna losowa ma rozkład
Poissona z parametrem λ > 0 (ozn. X ∼ Poiss(λ)), jeśli jej funkcja prawdopodobieństwa jest
postaci
f(x|λ) = P(X = x) =
λx
x! e−λ dla x = 0, 1, 2 . . .
0 dla x < 0,(B.5)
gdzie λ > 0 jest parametrem częstotliwości. Dla rozkładu Poissona wartość oczekiwana i wariancja
są równe parametrowi λ:
E(X) = λ = V ar(X).
Ucięty w zerze rozkład Poissona (ang. zero-truncated Poisson) definiowany jest jako rozkład Po-
issona pod warunkiem przyjmowania przez zmienną losową wartości dodatnich, tzn. niech X ma
rozkład Poissona z parametrem λ > 0, wówczas zmienna losowa Y = X|X > 0 ma ucięty w ze-
rze rozkład Poissona z parametrem λ (ozn. Y ∼ ZTP (λ)). Funkcja prawdopodobieństwa w tym
przypadku jest postaci
fY (y|λ) := P(Y = y) = P(X = y|X > 0) =P(X = y)P(X > 0)
=P(X = y)
1− P(X = 0)=
λye−λ
y!(1− e−λ). (B.6)
Wartość oczekiwaną i wariancję tego rozkładu oblicza się jako
E(Y ) = E(X|X > 0) =∞∑y=1
yfY =∞∑y=1
yλye−λ
y!(1− e−λ)
=1
(1− e−λ)
∞∑y=1
yλye−λ
y!=
1(1− e−λ)
∞∑y=0
yλye−λ
y!︸ ︷︷ ︸=E(X)
=λ
(1− e−λ),
E(Y 2) = E(X2|X > 0) =∞∑y=1
y2fY =∞∑y=1
y2 λye−λ
y!(1− e−λ)
=1
(1− e−λ)
∞∑y=1
y2λye−λ
y!=
1(1− e−λ)
∞∑y=0
y2λye−λ
y!︸ ︷︷ ︸=E(Y 2)=V ar(X)+(E(X))2
=λ+ λ2
(1− e−λ),
V ar(Y ) = E(Y 2)−(E(Y ))2 =λ+ λ2
(1− e−λ)− λ2
(1− e−λ)2 =(λ+ λ2)(1− e−λ)− λ2
(1− e−λ)2 =λ(1− e−λ(1 + λ))
(1− e−λ)2 ,
gdzie λ jest parametrem częstotliwości pierwotnego rozkładu Poissona.
58
C Dodatek: estymatory największej wiarogodności
W tym dodatku przedstawimy krótko najważniejsze zagadnienia za teorii estymatorów naj-
większej wiarogodności opracowane na podstawie [9], [4].
Niech (Xn,Bn, Pnϑ ) będzie przestrzenią statystyczną indukowaną przez próbę prostą X1, . . . ,Xn
o realizacji x1, . . . ,xn, czyli
(Xn,Bn,Pnϑ ) = (X ⊗ · · · ⊗ X ,B ⊗ · · · ⊗ B, Pϑ ⊗ · · ·⊗, Pϑ)
gdzie X jest podzbiorem bolerowskim w Rk, B jest σ-ciałem zbiorów bolerówskich na X oraz Pϑto miary indeksowane ϑ ∈ Θ, gdzie zbiór parametrów Θ to zwykle zbiór otwarty. Zakładamy, że
istnieje miara referencyjna µ σ-skończona, taka że Pϑ jest absolutnie ciągła względem miary µ,
zatem istnieją gęstości
fϑ =dPϑdµ
, ϑ ∈ Θ
Gęstość na Xn oznaczamy przez
αϑ(x) =n∏j=1
fϑ(xj), x = (x1, . . . ,xn).
Ponadto zakładamy
1. dla dwóch dowolnych θ1, θ2 ∈ Θ
µ(x ∈ X : fθ1(x) 6= fθ2(x)) > 0.
2. zbiory Aθ = x ∈ X : fθ(x) > 0 są µ takie same, czyli istnieje zbiór A, że dla dowolnych θ1,
θ2
(Aθ2 ÷Aθ2) := (Aθ1\Aθ2) ∪ (Aθ2\Aθ1) ⊂ A, µ(A) = 0.
Funkcję logarytmu-wiarogodności definiujemy jako
`(ϑ|x) = `x(ϑ) = logαϑ(x) =n∑j=1
log fϑ(xj).
Przyjmujemy konwencję, że log 0 = −∞. Jeżeli próbka x jest związana z prawdziwym ale dowolnym
elementem ϑ0 ∈ Θ, wtedy
Eϑ0`(ϑ|x) =n∑j=1
∫Xn
log fϑ(xj)αϑ0dµn(x) = n
∫X
log fϑ(x)fϑ0dµ(x).
Definicja C.1. [9]
Estymatorem największej wiarogodności dla próbki x jest taki ϑ = ϑ(x), że dla dowolnego ϑ ∈ Θ
`(ϑ|x) `(ϑ|x).
Co możemy zapisać również
ϑ = arg max`(ϑ|x) : ϑ ∈ Θ.
Definicja C.2. [9]
Równaniem największej wiarogodności nazywamy równanie postaci
∂
∂ϑ`(ϑ|x) = 0.
Rozwiązanie tego równania (najczęściej równań) daje naturalnego kandydata na estymator naj-
większej wiarogodności.
59
Niech ϑ0 będzie prawdziwnym stanem oraz niech spełnione będą formalne założenia analityczne
na z [9] (s. 31-34). Z ważniejszych założeń jest możliwość różniczkowana pod znakiem całki oraz
istnienie odpowiednich całek, z których wynika, że
Eϑ
[∂
∂ϑlog fϑ(x)
]= 0,
oraz równość macierzy I oraz J
I(ϑ) = Eϑ
[(∂
∂ϑlog fϑ(x)
)(∂
∂ϑlog fϑ(x)
)t]= −Eϑ
[∂2 log fϑ(x)∂ϑ∂ϑt
]= −J(ϑ).
Fakt. (Nierówność informacyjna) Niech ϑ0 będzie prawdziwym stanem. Dla dowolnego ϑ ∈ Θ i
ϑ 6= ϑ0 zachodzi
Eϑ0 log fϑ < Eϑ0 log fϑ0 .
Powyższa nierówność informacyjna mówi o tym, że estymator największej wiarogodności jest
dobrym podejściem do szukania prawdziwego stanu ϑ0.
Twierdzenie C.1. [9]
Istnieje rozwiązanie równania największej wiarogodności ϑ0(x) z prawdopodobieństwem dążącym
do 1 takie, że
1. ϑ0 zbiega do ϑ0 według prawdopodobieństwa (zgodność estymatora)
2. zachodzi Centralne Twierdzenie Graniczne
√n(ϑ0 − ϑ0)→ N (0, [I(ϑ0)]−1)
gdzie I(ϑ0) jest wartością Informacji Fishera I(ϑ) dla ϑ = ϑ0.
Drugi punkt powyższego twierdzenia oznacza, że estymatory największej wiarogodności ϑ0 mają
asymptotyczny rozkład normalny. Estymatory największej wiarogodności są też asymptotycznie
efektywne, to znaczy, posiadają najmniejszą z możliwych wariancji, jaką można uzyskać z procesu
estymacji [4].
60
D Dodatek: kody programów
Kod 1
Kod użyty do wyrysowania wykresów powierzchniowych i poziomicowych kopuł W, Π oraz M.
data kopuly;
krok=0.1;
do u = 0 to 1 by krok ;
do v = 0 to 1 by krok;
W = max(u+v-1,0);
I = u*v;
M = min(u,v);
output;
end;
end;
drop krok;
run;
/*wykresy kopul W, Pi, M*/
proc g3d data=kopuly;
plot v*u=W/ *plot v*u=I, plot v*u=M
side
ctop=black
rotate=25
caxis=black;
run;
proc gcontour data=kopuly;
plot v*u=W/ /*plot v*u=I, plot v*u=M */
clevels=black black black black black black
levels=0.01 to 1 by 0.2
caxis=black;
run;
Kod 2
Kod użyty do zdefiniowania własnych funkcji wyliczających wartości funkcji pochodnych cząstko-wych dla kopuły Gaussa, Claytona oraz Gumbela.
options cmplib=sasuser.funcs;
proc fcmp outlib=sasuser.funcs.math;
function Gauss(u,v,t);
wynik=cdf("Normal", (quantile("Normal", v) - t*quantile("Normal", u))/(sqrt(1-t**2)));
return(wynik);
endsub;
function Clayton(u,v,t);
wynik=(u**(-t-1))*((u**(-t)+v**(-t)-1)**(-1/t-1));
return(wynik);
endsub;
function Gumbel(u,v,t);
wynik=1/u*((-log(u))**(t-1))*(((-log(u))**t+(-log(v))**t)**(1/t-1))*(exp(-((-log(u))**t+(-log(v))**t)**(1/t)));
return(wynik);
endsub;
run;
Kod 3
Kod użyty wyliczenia rozkładu warunkowego zmiennej losowej Y |X = x, gdy x = 1200.
61
/*przykład 1(a)*/
data warunkowa;
x=cdf(’Gamma’,1200,100/9,90);
do Tau=0,0.1,0.3,0.5;
if Tau=0 then t=0.00001;
else t=2*Tau/(1-Tau);
f_y1=0;
f_y2=0;
l=2.5; /*lambda_poissona*/
do y=1 to 12;
f_y2=f_y2+(exp(-l)*l**y)/(fact(y)*(1-exp(-l)));
z=x**(-t-1);
if y=1 then do
P_y1=Clayton(x,f_y2,t);
f_y1=f_y2;
output;
end;
else do;
P_y1=Clayton(x,f_y2,t)-Clayton(x,f_y1,t);
f_y1=f_y2;
output;
end;
end;
end;
label t=’Theta’;
drop x z f_y1 f_y2 l;
run;
title ’Kopuła Claytona’;
proc sgplot data=warunkowa;
yaxis label="Prawdopodbieństwo" grid;
xaxis label="Liczba szkód";
vbar y / response=P_y1 stat=sum group=t groupdisplay=cluster;
run;
Kod 4
Kod użyty wyliczenia warunkowej funkcji prawdopodobieństwa Y |X = 1200 dla kopuły Gaussa,Claytona oraz Gumbela dla ustalonego współczynnika tau Kendall’a τ = 0.3.
/*przykład 1(b) - kopuły Claytona, Gasussa, Gumbela */
data warunkowa2;
x=cdf(’Gamma’,1200,100/9,90);
pi=constant("pi");
t=0.3; /*tau=0.3*/
t_Ga=sin(pi*t/2); /* theta kopuły Gaussa */
t_C=2*t/(1-t); /* theta kopuły Claytona */
t_G=1/(1-t); /* thera kopuły Gumbela */
f_y1=0;
f_y2=0;
l=2.5; /*lambda poissona*/
do y=1 to 12;
f_y2=f_y2+(exp(-l)*l**y)/(fact(y)*(1-exp(-l)));
if y=1 then do
P_yGa=Gauss(x,f_y2,t_Ga);
P_yC=Clayton(x,f_y2,t_C);
P_yG=Gumbel(x,f_y2,t_G);
62
f_y1=f_y2;
output;
end;
else do;
P_yGa=Gauss(x,f_y2,t_Ga)-Gauss(x,f_y1,t_Ga);
P_yC=Clayton(x,f_y2,t_C)-Clayton(x,f_y1,t_C);
P_yG=Gumbel(x,f_y2,t_G)-Gumbel(x,f_y1,t_G);
f_y1=f_y2;
output;
end;
end;
label t=’Tau - Kendala’;
drop x pi l t f_y1 f_y2;
run;
data warunkowa3;
length kopula $10;
set warunkowa2 (in=zmienna1) warunkowa2 (in=zmienna2) warunkowa2 (in=zmienna3);
zm1=zmienna1;
zm2=zmienna2;
zm3=zmienna3;
if zm1=1 then do
P=P_yGa;
Theta=t_Ga;
kopula="Gauss";
end;
if zm2=1 then do
P=P_yC;
Theta=t_C;
kopula="Clayton";
end;
if zm3=1 then do
P=P_yG;
Theta=t_G;
kopula="Gumbel";
end;
format kopula $10.;
drop t_Ga t_G t_C P_yGa P_yC P_yG zm1 zm2 zm3;
run;
title ’Porównanie kopuł dla tau=0.3’;
proc sgplot data=warunkowa3;
yaxis label="Prawdopodbieństwo" grid;
xaxis label="Liczba szkód";
vbar y / response=P stat=sum group=kopula groupdisplay=cluster;
run;
Kod 5
Kod użyty do wyliczenia funkcji gęstości łącznej szkody z polisy dla kopuły Gaussa, Claytona orazGumbela i dla 3 różnych wartościach parametru tau Kendall’a τ równych 0.1, 0.3, 0.5.
data Lgauss;
pi=constant("pi");
do tau=0.1, 0.3, 0.5;
t_Ga=sin(pi*tau/2); /*Theta*/
l_poiss=2.5; /*lambda poissona*/
do i=100 to 4700 by 10;
63
f_y1=0;
f_y2=0;
f_policy=0;
do y=1 to 11;
/*zmienne pomocnicze*/
x=cdf(’Gamma’,i/y,100/9,90);
xx=pdf(’Gamma’,i/y, 100/9,90);
f_y2=f_y2+(exp(-l_poiss)*l_poiss**y)/(fact(y)*(1-exp(-l_poiss)));
if y=1 then do
f=xx/y*Gauss(x,f_y2,t_Ga);
f_y1=f_y2;
end;
else do;
f=xx/y*(Gauss(x,f_y2,t_Ga)-Gauss(x,f_y1,t_Ga));
f_y1=f_y2;
end;
f_policy=f_policy+f;
end;
output;
end;
end;
run;
title ’Kopuła Gaussa’;
proc sgplot data= Lgauss;
yaxis label="Gęstość" max=.00065;
xaxis label="L";
series x=i y=f_policy/group=tau;
run;
data Lclayton;
do tau=0.1, 0.3, 0.5;
t_C=2*tau/(1-tau); /*Theta*/
l_poiss=2.5; /*lambda poissona*/
do i=100 to 4700 by 10;
f_y1=0;
f_y2=0;
f_policy=0;
do y=1 to 11;
/*zmienne pomocnicze*/
x=cdf(’Gamma’,i/y,100/9,90);
xx=pdf(’Gamma’,i/y, 100/9,90);
f_y2=f_y2+(exp(-l_poiss)*l_poiss**y)/(fact(y)*(1-exp(-l_poiss)));
if y=1 then do
f=xx/y*Clayton(x,f_y2,t_C);
f_y1=f_y2;
end;
else do;
f=xx/y*(Clayton(x,f_y2,t_C)-Clayton(x,f_y1,t_C));
f_y1=f_y2;
end;
f_policy=f_policy+f;
end;
output;
end;
end;
run;
64
title ’Kopuła Claytona’;
proc sgplot data= Lclayton;
yaxis label="Gęstość" max=.00065;
xaxis label="L";
series x=i y=f_policy/group=tau;
run;
data Lgumbel;
do tau=0.1, 0.3, 0.5;
t_G=1/(1-tau); /*Theta*/
l_poiss=2.5; /*lambda poissona*/
do i=100 to 4700 by 10;
f_y1=0;
f_y2=0;
f_policy=0;
do y=1 to 11;
/*zmienne pomocnicze*/
x=cdf(’Gamma’,i/y,100/9,90);
xx=pdf(’Gamma’,i/y, 100/9,90);
f_y2=f_y2+(exp(-l_poiss)*l_poiss**y)/(fact(y)*(1-exp(-l_poiss)));
if y=1 then do
f=xx/y*Gumbel(x,f_y2,t_G);
f_y1=f_y2;
end;
else do;
f=xx/y*(Gumbel(x,f_y2,t_G)-Gumbel(x,f_y1,t_G));
f_y1=f_y2;
end;
f_policy=f_policy+f;
end;
output;
end;
end;
run;
title ’Kopuła Gumbela’;
proc sgplot data= Lgumbel;
yaxis label="Gęstość" max=.00065;
xaxis label="L";
series x=i y=f_policy/group=tau;
run;
Kod 6
Symulacja 1000 danych z rozkładu Gamma oraz ZTP oraz oszacowanie gęstości łącznej szkody zpolisy L (procedura proc kde) przy założeniu niezależności między średnią wartością szkody Xoraz liczby szkód Y .
data niezalezny;
do i=1 to 1000;
x=RAND(’GAMMA’, 100/9, 90);
wejscie=1;
do while(wejscie=1);
y=RAND(’POISSON’,2.5);
if (y<>0) then do;
L=x*y;
output;
wejscie=0;
65
end;
end;
end;
run;
proc kde data=niezalezny;
univar L/ plots=(density);
run;
Kod 7
Kod użyty do wyznaczenia wartości oczekiwanych łącznej szkody z polisy L dla τ = 0.1, 0.3, 0.5 wprogramie R.
mu=1000
delta=9/100
lambda=2.5
tau=c(0.1,0.3,0.5)
theta_gaus=c()
theta_cla=c()
theta_gu=c()
for (i in 1:3)
theta_gaus= c(theta_gaus,BiCopTau2Par(tau=tau[i],family=1))
theta_cla= c(theta_cla, BiCopTau2Par(tau=tau[i],family=3))
theta_gu= c(theta_gu, BiCopTau2Par(tau=tau[i],family=4))
w_ga=c()
w_cl=c()
w_gu=c()
for (i in 1:3)
w_ga=c(w_ga, epolicy_loss(mu, delta, lambda, theta_gaus[i], 1, y.max = 300,zt=TRUE,compute.var=FALSE)$mean)
w_cl=c(w_cl, epolicy_loss(mu, delta, lambda, theta_cla[i], 3, y.max = 300,zt=TRUE,compute.var=FALSE)$mean)
w_gu=c(w_gu, epolicy_loss(mu, delta, lambda, theta_gu[i], 4, y.max = 300,zt=TRUE,compute.var=FALSE)$mean)
w_ga
w_cl
w_gu
Kod 8
GLM dla średniej wartości szkody (regresja Gamma) oraz GLM dla liczby szkód (regresja Poisso-na). Stworzono osobne modele regresji za pomocą procedury proc genmod programu SAS.
PROC IMPORT OUT = car
DATAFILE = "C:\Users\Desktop\car.xlsx"
DBMS = xlsx REPLACE;
sheet="car";
getnames=yes;
RUN ;
/*poziomy odniesienia*/
proc freq data=car;
tables gender agecat area veh_age/ nocum;
run;
/*model gamma*/
proc Genmod data=car;
class gender (ref=’F’) agecat (ref=’4’) area (ref=’C’);
Model claimcst0= gender agecat area / dist=gamma link=log ;
66
output out=fitted p=pred;
run;
/*model poissona*/
proc Genmod data=car;
class gender (ref=’F’) agecat (ref=’4’) area (ref=’C’);
Model numclaims= gender agecat area / dist=poi link=log ;
output out=fitted p=pred;
run;
Kod 9
Model regresji opartej na kopule Gaussa, gdzie brzegowe modele regresji to: regresja Gamma dlaśredniej wartości szkody i regresja ZTP dla liczby szkód. Model stworzony za pomocą funkcjicopreg w programie R.
library(VineCopula)
library(CopulaRegression)
library(MASS)
library(readxl)
#dane wejściowe (binarne)
dane<- data.matrix(read_xlsx("/Users/Desktop/cars.xlsx", sheet = "CARS", range = "A2:M4625", col_names
= FALSE, col_types = NULL, na = "", trim_ws = TRUE, skip = 0, n_max = Inf, guess_max = 4625))
n<-length(dane[,1])
y<-dane[,1]
x<-dane[,2]
exposure<-rep(1,n)
R<-S<-cbind(rep(1,n),dane[,3:13])
model_Gaus<-copreg(x,y,R,S,family=1,exposure,sd.error=TRUE,joint=TRUE,zt=TRUE)
model_Gaus
alfy0=model_Gaus$alpha0
bety0=model_Gaus$beta0
stalfy0=model_Gaus$sd.alpha0
stbety0=model_Gaus$sd.beta0
alfy=model_Gaus$alpha
bety=model_Gaus$beta
stalfy=model_Gaus$sd.alpha
stbety=model_Gaus$sd.beta
walda0=c() #statystyka Walda a0
waldb0=c() #statystyka Walda b0
walda=c() #statystyka Walda a
waldb=c() #statystyka Walda b
for (i in 1:12)
walda0=c(walda0,(alfy0[i])^2/(stalfy0[i])^2)
waldb0=c(waldb0,(bety0[i])^2/(stbety0[i])^2)
walda=c(walda,(alfy[i])^2/(stalfy[i])^2)
waldb=c(waldb,(bety[i])^2/(stbety[i])^2)
pa0=c() #pvalue a0
pb0=c() #pvalue b0
pa=c() #pvalue a
pb=c() #pvalue b
for (i in 1:12)
pa0=c(pa0,1-pchisq(walda0[i],1))
pa=c(pa,1-pchisq(walda[i],1))
pb0=c(pb0,1-pchisq(waldb0[i],1))
pb=c(pb,1-pchisq(waldb[i],1))
67
Spis tabel
1 Zależność pomiędzy tau Kendall’a a parametrem θ (źródło: [13]) . . . . . . . . . . 18
2 Pierwsze pochodne cząstkowe dla wybranych rodzin kopuł (źródło: [13]) . . . . . . 21
3 Wartość oczekiwana łącznej szkody z polisy L w złotych dla kopuły Gaussa, Clay-
tona oraz Gumbela (źródło: opracowanie własne) . . . . . . . . . . . . . . . . . . . 29
4 Wykładnicza rodzina rozkładów (źródło: [5]) . . . . . . . . . . . . . . . . . . . . . 34
5 Funkcje wariancji V (µ) (źródło: [5]) . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6 Standardowe funkcje łączące g (źródło: [5]) . . . . . . . . . . . . . . . . . . . . . . 36
7 Analiza ocen parametrów dla modelu regresyjnego z wykorzystaniem kopuły Gaussa
oraz modelu regresyjnego z założeniem niezależności (źródło: opracowanie własne) 49
Spis rysunków
1 Wykresy powierzchniowe kopuł W , Π i M (źródło: opracowanie własne) . . . . . . 7
2 Wykresy poziomicowe kopuł W , Π i M (źródło: opracowanie własne) . . . . . . . . 8
3 Warunkowa funkcja prawdopodobieństwa zmiennej Y |X = 1200 dla kopuły Clayto-
na z τ = 0, 0.1, 0.3, 0.5 (źródło: opracowanie własne) . . . . . . . . . . . . . . . . . 24
4 Warunkowa funkcja prawdopodobieństwa zmiennej Y |X = 1200 przy τ = 0.3 dla
kopuły Gaussa, Claytona i Gumbela (źródło: opracowanie własne) . . . . . . . . . 25
5 Gęstości łącznej szkody z polisy dla kopuły Gaussa, Claytona oraz Gumbela przy
trzech wartościach τ Kendall’a (źródło: opracowanie własne) . . . . . . . . . . . . . 27
6 Oszacowana gęstość L przy założeniu niezależności X i Y . (źródło: opracowanie
własne) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7 Zastawienie poziomów zmiennych objaśniających (źródło: opracowanie własne) . . 42
8 Analiza ocen parametrów dla regresji Gamma (źródło: opracowanie własne) . . . . 43
9 Analiza ocen parametrów dla regresji Poissona (źródło: opracowanie własne) . . . . 44
10 Analiza ocen parametrów dla regresji Gamma w przypadku istotności wszystkich
parametrów (źródło: opracowanie własne) . . . . . . . . . . . . . . . . . . . . . . . 44
11 Analiza ocen parametrów dla regresji Poissona w przypadku istotności wszystkich
parametrów (źródło: opracowanie własne) . . . . . . . . . . . . . . . . . . . . . . . 45
68
Wykaz literatury
[1] Anderson D.: Practicioner’s Guide to Generalized Linear Models, Towers Watson, 2005, s.
10-36
[2] Antonio K., Valdez E.A.: Statistical concepts of a priori and a posteriori risk classification in
insurance, AStA Advances in Statistical Analysis, 2012, s. 187-244
[3] Beśka M.: Wstęp do teorii miary, Politechnika Gdańska 2018, http://www.mif.pg.gda.pl/
homepages/beska/TM/ (dostęp: 02.06.2018), s. 122-135,140
[4] Beśka M.: Wykłady z statystyki matematycznej, Politechnika Gdańska 2018, http://www.mif.
pg.gda.pl/homepages/beska/Stat/ (dostęp: 02.06.2018) s. 1-20; 48-53; 63-70.
[5] Dean C.G.: Generalized Linear Models W: Frees E.W., Derrig R.A., Meyers G.: Predictive mo-
deling applications in actuarial science. Volume I: Predictive Modeling Techniques Cambridge
University Press, 2014, s. 108-137
[6] De Jong P., Heller G.Z.: Generalized linear models for insurance data, Cambridge University
Press, 2008
[7] Durante F., Sempi C.: Copula Theory: An Introduction W: Jaworski P., Durante F, Hardle
W, Rychlik T.: Copula Theory and Its Applications, Lecture Notes in Statistics, Vol. 198,
Springer-Verlag, 2010, s. 3-31
[8] Dziedziul K.: Wprowadzenie do diagnostyki danych w SAS, Politechnika Gdańska 2018, http:
//www.mif.pg.gda.pl/homepages/kdz/diagnostics/diagnostic.pdf (dostęp: 02.06.2018)
[9] Dziedziul K.: Statystyka II w SAS - wykład, Politechnika Gdańska 2018, http://www.mif.
pg.gda.pl/homepages/kdz/StatystykaII/statystykaIlecture.pdf (dostęp: 02.06.2018)
[10] Flores M.U. Artero de A.E., Durante F., Fernandez-Sanchez J.: Copulas and Dependence
Models with Applications, Springer International Publishing AG, 2017, s. 1-20
[11] Frees E.W.: Frequency and Severity Models W: Frees E.W., Derrig R.A., Meyers G.: Pre-
dictive modeling applications in actuarial science. Volume I: Predictive Modeling Techniques
Cambridge University Press, 2014, s. 108-137
[12] Jakubowski J., Sztencel R.: Wstep do teorii prawdopodobienstwa, Wydanie II. SCRIPT, 2001.
[13] Kramer N., Brechmann E.C., Silvestrini D., Czado C.,: Total loss estimation using copula-
based regression models, Insurance: Mathematics and Economics, 2013 2012
[14] Krysicki W., Bartos J., Dyczka W., Królikowska K. , Wasilewski M.: Rachunek prawdopodo-
bieństwa i statystyka matematyczna w zadaniach, Wydawnictwo Naukowe PWN, 2012
[15] McNeil A.J., Frey R., Embrechts P.: Quantitative risk managemant: Concepts, Techniques &
Tools, Princeton University Press, 2005, s. 184-210
69
[16] Nelsen R.B.: An Introduction to Copulas Second Edition, Springer Science+Business Media,
2006
[17] Ohlsson E., Jahansson B.: Non-life insurance pricing with generalized linear models Springer,
2010, s. 1-38
[18] Plucińska A., Pluciński E.: Probabilistyka, Wydawnictwa Naukowo-Techniczne, 2000.
[19] Wolny-Dominiak A., Wanat S.: Taryfikacja a priori z wykorzystaniem kopuli W: Prace Na-
ukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 415 Ubezpieczenia wobec wyzwań XXI
wieku, 2016, s. 259-265
[20] Dokumentacja SAS: SAS/STAT 9.2 User’s Guide: The GENMOD Procedure, SAS Institute
Inc., 2008.
[21] Dokumentacja pakietu CopulaRegression: Bivariate Copula Based Regression Models, R,
2014.
70