Upload
krzysztof-michaluk
View
428
Download
6
Embed Size (px)
Citation preview
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością Rozdział III Przegląd wybranych metod ilościowych wykorzystywanych w rozpoznawaniu zagrożenia upadłością
1. Podstawy statystycznej teorii rozpoznawania obrazów a proces prognozowania upadłości przedsiębiorstwa
Proces przewidywania zagrożenia upadłością opiera się na rozpoznaniu
obecnej sytuacji przedsiębiorstwa i jej ocenie poprzez zakwalifikowanie badanej
jednostki do grupy przedsiębiorstw zagrożonych bądź też niezagrożonych
bankructwem. Wykorzystane wyżej pojęcia – rozpoznanie, klasyfikacja – nie są
jednak przypadkowe. Wskazują one bowiem na zakres metod stosowanych w
prognozowaniu bankructwa, które to metody określane są mianem statystycznej
teorii rozpoznawania obrazów.
Ogólnie rzecz traktując, zagadnienie rozpoznawania sprowadza się do
problemu klasyfikacji rozpatrywanych obiektów. Należy bowiem dokonać podziału
zbioru rozpatrywanych obiektów tzn. dla każdego obiektu należy rozpoznać klasę,
do której ten obiekt należy”1. Rozpoznawaniem obrazów nazywamy zatem
podjęcie decyzji, która polega na ustaleniu przynależności nowego, dotychczas
nie rozpatrywanego obiektu, do danej klasy obiektów (obrazu) przez
porównywanie właściwości danego obiektu z cechami znanymi i zbadanymi. Przez
pojęcie klasy rozumie się zbiorowość obiektów lub zjawisk, które charakteryzują
się pewnymi wspólnymi właściwościami (bliskimi ze względu na zbiór pewnych
cech)”2. Można zatem stwierdzić, że dziedzina wiedzy określana rozpoznawaniem
obrazów wyrasta z pojęcia klasyfikacji, które to w sensie teorio – mnogościowym
oznacza podział danego zbioru na pewną liczbę rozłącznych podzbiorów. Podziału
takiego dokonuje się na podstawie relacji równoważności (w przypadku
zastosowań praktycznych często zwanej relacją podobieństwa), a otrzymane
podzbiory nazywa się klasami abstrakcji (klasami podobieństw, klasami
jednorodności, itp.). Czynność polegającą na przyporządkowaniu jakiegoś
indywidualnego obiektu do określonej klasy podobieństwa nazywa się
1 K. Jajuga: Statystyczna teoria rozpoznawania obrazów. Warszawa: PWN. 1990. s. 30. 2 BB. Rozin: Teoria rozpoznawania obrazów w badaniach ekonomicznych. Warszawa: PWN. 1979. s. 39.
76
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością rozpoznaniem tego obiektu3. Jeśli natomiast klasy równoważności (podobieństwa)
stanowią obiekty nie abstrakcyjne, lecz konkretne, poznawalne przez narządy
zmysłu lub podlegające pomiarom, to klasę taką nazywa się obrazem,
rozpoznawanie obiektów – rozpoznawaniem obrazów4.
Każde zadanie określane nazwą rozpoznawania obrazów można określić
za pomocą czterech podstawowych pojęć, czy też inaczej mówiąc, każde takie
zadanie, w tym również zadanie rozpoznawania zagrożenia bankructwem,
wymaga określenia czterech elementów, podjęcia czterech następujących
decyzji5:
1. Ustalenie elementów zbioru obrazów, wzorców, obszarów, które z pewnego
punktu widzenia uznajemy za jednorodne oraz wskazanie co stanowi
przedmiot rozpoznawania.
W przypadku procesu prognozowania zagrożenia bankructwem etap ten
polega na odseparowaniu przedsiębiorstw zagrożonych i niezagrożonych
upadłością ze względu na zróżnicowaną sytuację finansową oraz na
wskazaniu, iż przedmiotem rozpoznania będzie właśnie kondycja finansowa
przedsiębiorstw.
2. Dokonanie wyboru własności obiektów, które będą badane, tj. wyboru cech,
zmiennych charakteryzujących pojedynczą realizację obrazu.
Zmiennymi charakteryzującymi obiekty są w rozpatrywanym zagadnieniu
wskaźniki finansowe. Na tym etapie koniecznym jest również dokonanie
selekcji wskaźników pod kątem ich zdolności do obrazowania przedmiotu
rozpoznawania.
3. Przyjęcie reguły decyzyjnej, zasady, zgodnie z którą podejmowane będą
decyzje, do jakiego obrazu należy zaliczyć wybraną w przestrzeni realizację.
Przez regułę decyzyjną należy rozumieć metodę umożliwiającą oszacowanie
modelu stanowiącego narzędzie rozpoznawania kondycji przedsiębiorstw.
Reguła ta, będącą funkcją określonych w etapie wcześniejszym zmiennych
umożliwi generowanie wartości dyskretnej zmiennej objaśnianej o charakterze
binarnym.
3 W. Ostasiewicz: Dyskryminacja, klasyfikacja, rozpoznawanie. Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Nr 165(187). 1980. s. 95. 4 J. L. Kulikowski: Cybernetyczne układy rozpoznające. Warszawa: PWN. 1972. s. 11. 5 J. Kolonko: Analiza dyskryminacyjna i jej zastosowania w ekonomii. Warszawa: PWN. 1980. s. 14.
77
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością 4. Ustalenie wielkości strat spowodowanych błędami klasyfikacji. W tym miejscu
należy również wybrać sposób pomiaru strat oraz dopuszczalną ich wielkość.
Odsetek błędów generowanych przez model szacuje się jako stosunek
błędnych klasyfikacji do łącznej liczby rozpoznawanych obiektów.
W świetle powyższego, koniecznym jest powiązanie procesu wnioskowania
o możliwości bankructwa z ogólnymi założeniami teorii rozpoznawania obrazów.
W tym celu wygodnie jest posłużyć się rysunkiem 10. Każdy punkt ograniczonego
obszaru na rysunku 10 obrazuje przedsiębiorstwa różne pod względem ich
sytuacji finansowej. Krzywa I dzieli zaznaczony obszar zgodnie ze stanem
faktycznym na klasy przedsiębiorstw A1 i A2, których sytuacja finansowa wskazuje,
na podstawie przeprowadzonych wcześniej analiz6, na zagrożenie bankructwem i
przedsiębiorstw o dobrej sytuacji finansowej, natomiast krzywa II dzieli ten sam
obszar na klasy o analogicznym znaczeniu z tym, że ich podział nastąpił na
podstawie sygnałów decyzyjnych wygenerowanych przez model klasyfikujący.
Obszary oznaczone na rysunku przez B1 oraz B2 reprezentują zbiory błędnych
decyzji. Obszar B1 przedstawia zbiór błędnych decyzji typu I, czyli
zakwalifikowanie przedsiębiorstwa – bankruta jako przedsiębiorstwa o dobrej
kondycji finansowej(zaklasyfikowanie do grupy A2). Obszar B2 to zbiór błędnych
decyzji typu II, czyli zakwalifikowanie przedsiębiorstwa o dobrej kondycji
finansowej jako potencjalnego bankruta. Idealną procedurę klasyfikującą stanowić
będzie oczywiście taki model, który nie wygeneruje błędnych decyzji (w takim
przypadku krzywe I i II winny się pokrywać), dzięki czemu umożliwiał będzie
przeprowadzenie doskonałej dyskryminacji badanej grupy przedsiębiorstw.
Pod pojęciem dyskryminacji rozumie się znalezienie reguły, za pomocą której
można rozdzielić obiekty należące do różnych klas. Jeżeli obiekty dwóch klas
traktowane są jako punkty w przestrzeni wielowymiarowej7, to regułą taką może
być np. przekształcenie liniowe tej przestrzeni na prostą tak, aby punkty leżące na
lewo od pewnego ustalonego punktu prostej zaliczały się do jednej klasy, a punkty
leżące na prawo do drugiej klasy8. Podstawowymi warunkami stosowania metod
6 Proces uczenia dla różnych metod ilościowych został szczegółowo opisany w dalszej części niniejszego rozdziału. 7 Należy podkreślić, że problematyka prognozowania bankructw w swym metodologicznym zakresie skupia się właśnie na dokonywaniu dychotomicznego podziału wielowymiarowych obiektów (przedsiębiorstw opisywanych za pomocą szeregu wskaźników finansowych). 8 W. Ostasiewicz: Dyskryminacja… op. cit. .s. 96.
78
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością dyskryminacyjnych są zatem posiadanie informacji o ilości klas oraz o
przynależności elementów próbkowych do tych klas, a także występowanie teorii
stanowiącej podstawę dyskryminacji zbiorów, mierzalność oraz posiadanie
odpowiedniego zbioru danych statystycznych.
Rysunek 10.
Związek między rzeczywistą strukturą przedsiębiorstw a klasami wytypowanymi przez funkcję klasyfikującą
podział faktyczny
decyzje
B1
B2
I II
D1={x∈A1} D2={x∈A2}
x∈A1 x∈A2
A1 A2
Źródło: opracowanie własne na podstawie: J. Kolonko: Analiza dyskryminacyjna i jej zastosowania w ekonomii. Warszawa: PWN. 1980. s. 54.
Mówiąc o informacji a priori dotyczącej przynależności określonych
elementów do klas w celu zbudowania reguły klasyfikującej koniecznym wydaje
się być wskazanie na powiązanie algorytmicznego uczenia modeli
umożliwiających rozpoznawanie wielowymiarowych obiektów z procesem uczenia
się człowieka. Ogólnie można wskazać dwa sposoby uczenia ludzi rozpoznawania
obrazów. Sposób pierwszy jest związany z tym, że nauczyciel nie tylko potrafi
rozpoznawać obiekt, ale przemyślał, jak należy to robić w każdym konkretnym
przypadku. Wiedząc jakie obiekty będzie uczeń klasyfikował, nauczyciel wyjaśnia
mu, jak to należy robić, czyli zadaje algorytm klasyfikacji. W drugim sposobie
proces uczenia jest oparty na nieznanych dotychczas mechanizmach mózgowych.
Jeżeli przedstawić uczniowi wiele przykładów liter „a” i „b”, napisanych różnymi
charakterami pisma, i pokazywać je uczniowi nie znającemu liter, mówiąc tylko „to
jest a” i „to jest b”, nie podając przy tym żadnej informacji, w jaki sposób należy
rozróżniać litery, to po pewnym czasie będzie on w stanie odróżniać „a” od „b”, i to
79
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością nie tylko spośród elementów pokazywanego zbioru9. Główny problem w
rozpoznawaniu obrazów leży właśnie na płaszczyźnie określania zasady, na
podstawie której pewne obiekty mogą być uznane za „podobne” do siebie10.
Trudności w wykrywaniu reguł umożliwiających rozpoznawanie i klasyfikację
obiektów wielowymiarowych z szerokiego zakresu dziedzin nauki (jak medycyna,
antropologia, ekonomia, itp.) sprawiły, iż koniecznym stało się wypracowanie
metod, umożliwiających rozwiązywanie tego typu problemów przy całkowitym lub
jedynie niewielkim udziale człowieka.
I tak, nawiązując do wcześniejszych rozważań dotyczących procesu
uczenia się człowieka wyróżniono dwa ogólne przypadki rozpoznawania:
rozpoznawanie z nauczycielem i rozpoznawanie bez nauczyciela. Pierwszy proces
– rozpoznawanie z nauczycielem – realizowany jest w dwóch etapach: na etapie
uczenia i rozpoznawania. Na etapie uczenia występuje sklasyfikowana próba
ucząca, nazywana tak dlatego, że oprócz wartości m – wymiarowego wektora
cech poszczególnych obiektów tej próby, posiadana jest również informacja
dotycząca przynależności obserwacji do określonej klasy. Na etapie uczenia, na
podstawie informacji zawartych w próbie uczącej określane są charakterystyki
wszystkich klas. Z kolei na etapie rozpoznawania dokonywana jest klasyfikacja
próby rozpoznawanej, tzn. dla każdego obiektu próby określana jest klasa, do
której on należy11.
W przypadku rozpoznawania bez nauczyciela, kiedy występuje jedynie
próba rozpoznawana, przeprowadzany jest proces uczenia za pomocą
odpowiedniej dla tego zadania metody. Gdy brakuje informacji a priori określającej
przynależność obiektów do klas, wówczas algorytmy rozpoznawania obiektów
wykorzystują zasadę samouczenia, która z kolei w większości przypadków opiera
się na zasadach tzw. analizy skupień. Dlatego też często metody samouczenia się
algorytmów rozpoznawania utożsamiane są z metodami wyodrębniania skupień
jednorodnych. Spośród różnych metod wyodrębniania skupień najczęściej stosuje
się metody bazujące na pojęciu najkrótszej sieci połączeń, zwanej dendrytem.
Metody te określane są mianem metod taksonomicznych. W takim wypadku na
9 M .A. Ajzerman, E. M. Brawerman i L. I. Rozonoer: Rozpoznawanie obrazów. Metoda funkcji potencjałowych. Warszawa: WNT. 1976. s. 14. 10 B. B. Rozin: Teoria… . op. cit. s. 22. 11 K. Jajuga: Statystyczna … . op. cit. s. 32.
80
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością podstawie posiadanej próby wyodrębniane są klasy będące podzbiorami
(podprzestrzeniami) punktów w jakimś sensie jednorodnych i na tej podstawie
aproksymowana jest funkcja f.12
Specyfika prognozowania upadłości przedsiębiorstwa, a także charakter
wykorzystywanych do tego celu danych ilościowych sprawiają, że w procesie
takim wykorzystywane są metody rozpoznawania z nauczycielem.
2. Dobór zmiennych i redukcja wymiarów13
Obiekty mające podlegać klasyfikacji charakteryzowane są zwykle za
pomocą dużej liczby cech. Interpretacja geometryczna obiektów i
odpowiadających im cech rozpatruje te elementy jako punkty wielowymiarowych
przestrzeni, których wymiar zależny jest od ilości cech opisujących obiekt. Zadanie
rozpoznawania w takich warunkach sprowadza się do aproksymacji powierzchni
rozdzielającej skupiska jednorodnych pod względem danego kryterium
wielowymiarowych obiektów. Takie podejście jest wystarczające jeśli obrazy są
dość proste, tj. obszary, które należy rozdzielić są wewnętrznie dostatecznie
zwarte, a jednocześnie „rozrzucone” w przestrzeni i kiedy powierzchnie
rozdzielające nie są zbyt „wymyślne”14. W przypadkach bardziej złożonych
zachodzi zwykle konieczność wstępnego uproszczenia zadania rozpoznawania
poprzez obniżenie (redukcję) wymiaru pierwotnej przestrzeni. Redukcja taka
winna posiadać jednak minimalny wpływ na ogólny potencjał informacyjny zawarty
w cechach opisujących badane obiekty.
Należy zwrócić również uwagę na inny aspekt tego zagadnienia. Tam gdzie
stosuje się metody rozpoznawania obrazów, dana jest zwykle skończona liczba
cech (wymiarów) charakteryzujących każdy obiekt. Jednak niektóre z cech, z
punktu widzenia rozpoznawania, zawierają więcej informacji niż pozostałe15.
Można również stwierdzić, iż niektóre cechy mogą posiadać tak wysokie
zróżnicowanie swoich wartości pomiędzy homogenicznymi grupami, że ich
12 W. Ostasiewicz: Dyskryminacja … . op. cit. s. 97. 13 Niniejszy punkt stanowi nawiązanie do punktu 5.1. rozdziału 2 rozprawy, w zakresie ilościowych metod doboru wskaźników finansowych do modeli przewidujących zagrożenie upadłością. 14 M. A. Ajzerman, E. M Brawerman, L. I. Rozonoer: Rozpoznawanie obrazów. Metoda funkcji potencjałowych. Warszawa: WNT. 1976. s. 25. 15 B. B. Rozin: Teoria rozpoznawania obrazów w badaniach ekonomicznych. Warszawa: PWN. 1979. s. 47.
81
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością występowanie utrudniało będzie proces klasyfikacji obiektów, a co za tym idzie ich
występowanie w zbiorze cech opisujących obiekty jest zbędne. Dlatego też
minimalizację opisu można sformułować jako przekształcenie pierwotnej
przestrzeni cech w pewną inną przestrzeń nie doprowadzającą jednak do
istotnego zwiększenia wartości funkcji straty (wielkości błędnych klasyfikacji),
dzięki czemu nowy wymiar przestrzeni jest znacznie mniejszy niż przestrzeni
pierwotnej.
Możliwość redukcji wymiarów niesie za sobą również korzyści kosztowe.
Zbieranie szeregu danych tworzących charakterystyki obiektów jest często wysoce
pracochłonne, czasochłonne jak i kapitałochłonne. W związku z tym ograniczenie
liczby zmiennych umożliwiających rozpoznawanie obiektów wiąże się ze
znacznymi oszczędnościami powyższych trzech parametrów, co występuje jednak
w procesie rozpoznawania obiektów dla których to posiadana jest już reguła
rozpoznająca wraz z charakteryzującymi ją zmiennymi. W procesie uczenia jednak
niezbędnym jest posiadanie maksymalnie szerokiego spektrum poprawnych
merytorycznie i odpowiadających nadrzędnemu kryterium klasyfikacji danych,
które dzięki odpowiednio przeprowadzonym procesom ich weryfikacji umożliwią
wyselekcjonowanie optymalnego zbioru cech.16
Wśród metod redukcji wymiarów należy wymienić takie jak analiza
głównych składowych, analiza czynnikowa, analiza zgodności17 oraz metody
nowsze jak algorytmy genetyczne18 i metody bazujące na współczynniku lambda
Wilksa zwane metodami krokowymi.
Szczególnie te ostatnie, umożliwiające testowanie wpływu poszczególnych
cech na zdolność określonego ich zestawu do dyskryminowania populacji19
znajdują zastosowanie w zagadnieniach związanych z klasyfikacją
wielowymiarowych obiektów. Metody te, jak analiza krokowa w przód (ang.
stepforward analysis) oraz analiza krokowa w tył (ang. stepbackward analysis)
16 Por. Application of Classification Techniques in Business, Banking and Finance. Greenwich, Connecticut: 1981. s. 145. 17 Obszerny opis tych metod zawarty jest w: W. Sobczak, W. Malina: Metody selekcji i redukcji informacji. Warszawa: WNT. 1985.; T. Grabiński, S. Wydmus, A. Zeliaś: Metody doboru zmiennych w modelach ekonometrycznych. Warszawa: PWN. 1982, E. Nowak: Problemy doboru zmiennych do modelu ekonometrycznego. Warszawa: PWN. s. 1984. 18 O wykorzystaniu algorytmów genetycznych do redukcji ilości informacji piszą: T. D. Gwiazda: Algorytmy genetyczne. Zastosowania w finansach. Warszawa: Wydawnictwo Wyższej Szkoły Przedsiębiorczości. 1998, oraz D. Rutkowaska, M. Piliński, L. Rutkowski: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte. Warszawa: PWN 1997. 19 Bazą dla tych metod był wspomniany już wcześniej test F.
82
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością umożliwiają wskazanie optymalnego zestawu cech dyskryminujących
rozpatrywane obiekty.
Punktem wyjścia tych metod jest obliczenie statystyki lambda Wilksa o
postaci20:
)det()det(
TW
=Λ ,
gdzie:
det (T) – wyznacznik macierzy ogólnogrupowej wariancji-kowariancji,
det (W) – wyznacznik macierzy wewnątrzgrupowej wariancji-kowariancji,
Posiadając zatem dwie macierze obserwacji P1, P2 (zmienna objaśniana
jest skokowa i zero - jedynkowa), charakteryzujące się N (i=1,2, …, N)
obserwacjami o M (j=1,2, … , M) cechach, otrzymujemy:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−−−
−−−=
∑∑∑∑
∑∑∑∑
= == =
= == =N
i
M
jPijPPijP
N
i
M
jPijP
PijP
N
i
M
jPijP
N
i
M
jPijP
XXXXXX
XXXXXXT
1 1
2
1 1
1 11 1
2
222211
221111
)()()(
)()()(,
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−−−
−−−=
∑∑∑∑
∑∑∑∑
= == =
= == =N
i
M
jjPijPjPijP
N
i
M
jjPijP
jPijP
N
i
M
jPijP
N
i
M
jjPijP
XXXXXX
XXXXXXW
1 1
2
1 1
1 11 1
2
222211
221111
)()()(
)()()(
gdzie:
XijP1,2 – określa wartość poszczególnej cechy w danej macierzy.
Oszacowana za pomocą wyznaczników statystyka Λ przyjmuje wartości z
przedziału <0,1>. Im większa część ogólnej zmienności wyjaśniana jest przez
zmienność międzygrupową (macierz wariancji-kowariancji międzygrupowej B,
można obliczyć: B=T-W) tym wielkość statystyki Λ jest bliższa zeru i świadczy o
dużej zdolności dyskryminacyjnej modelu opartego na danych cechach. Wartość
statystyki bliska 1 oznacza zupełny brak dyskryminacji, innymi słowy nie ma
istotnego zróżnicowania zmiennych w rozważanych populacjach, a prawie cała ich
20 Zastosowanie analiz krokowych i wykorzystanie w nich statystyki lambdy Wilksa przedstawione zostało szczegółowo przez: C. R. Rao: Advanced Biometrics Methods in Biometric Reaserch. New York: Wileys. 1952. s. 372-373
83
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością zmienność wyjaśniona jest przez zmienność wewnętrzgrupową21. W przypadku
gdy wartość Λ jest bliska 1, wtedy zdecydowanie przewyższa wariancja
wewnątrzgrupowa, co oznacza także, że średnie w populacjach niewiele się różnią
od średniej ogólnej, co z kolei można interpretować mówiąc, że rozpatrywane
populacje, przy uwzględnieniu danych cech, nie są rozróżnialne22.
W celu przeprowadzenia wymienionych wyżej procedur koniecznym jest
również oszacowanie cząstkowej wartości lambdy Wilksa będącej stosunkiem
lambdy Wilksa po dodaniu nowej cechy (lub jej odjęciu) do lambdy Wilksa przed
dodaniem (lub odjęciem) tejże zmiennej, co można zapisać jako:
0
1
ΛΛ
=Λ j' ,
Lambda cząstkowa jest zatem multiplikatywnym przyrostem lambdy, który
wynika z dodania lub odjęcia odpowiedniej cechy Xj. Dla obliczonych wyżej
wartości obliczana jest odpowiadająca im statystyka F o postaci23:
)'
')((
j
j
PMPNF
ΛΛ−
−−−
=1
1,
gdzie:
N – liczba obiektów,
P – liczba grup,
M – liczba cech.
Wymienione na wstępie krokowe metody doboru zmiennych do modeli jak
analiza krokowa w przód oraz analiza krokowa w tył, pozwalają określić zdolność
dyskryminacyjną poszczególnych zmiennych występujących w modelu. Wychodzi
21 Dobrą aproksymacją złożonego rozkładu statystyki lambda Wilksa, wykorzystywaną do testowania jest transformacja w statystykę F. 22 Por. D. Hadasik: Upadłość … . op. cit. s. 117. 23 Prezentowana postać statystki F jest jedną z najprostszych, wśród innych zaproponowanych przez C. R. Rao (C. R. Rao: Advanced…op. cit. s. 264-266) na podkreślenie zasługuje statystyka, często wykorzystywana w badaniach empirycznych, o postaci:
])(
[][]);([ 11
1
1
1 −−
⋅Λ
Λ−=−− PM
vmsFs
s
vmsPM
gdzie:
222 −−−
=PMPNm
21
22
22
5141 ]
)()([
−++−−
=PM
PMs
221 −−
=)(PMv
84
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością się tu z dwóch założeń: w pierwszym (analiza krokowa w tył) proces rozpoczyna
się od przyjęcia pełnego zbioru M cech opisujących obiekty O. Dla pełnego zbioru
cech szacowana jest wartość całkowitej macierzy wariancji-kowariancji oraz
macierz wewnątrzgrupowej wariancji-kowariancji oraz odpowiadająca im wartość
statystyki Λ i statystyki F. Następnie szacowane są wartości cząstkowe
powstające po usunięciu poszczególnych cech ze zbioru pierwotnego. Efektem
tego jest usunięcie zmiennej o najmniejszej wartości F, tj. mniejszej od wartości
krytycznej statystyki F przyjętej jako wartość usunięcia. Im mniejszą liczbę
zmiennych chcemy zatem posiadać w modelu tym większa wartość statystyki F
ustalana jest jako warunek usunięcia zmiennej z modelu. Oznacza to, że
eliminowane są zmienne, których istotność statystyczna do dyskryminowania grup
jest najmniejsza. W następnym kroku proces jest powtarzany i usuwana jest
zmienna o najmniejszej wartości dyskryminacyjnej. Proces ten zatrzymuje się w
momencie, kiedy istotność wszystkich zmiennych pozostałych w modelu będzie
większa niż istotność określona w momencie rozpoczęcia procedury jako
wystarczająca24.
W przypadku analizy krokowej w przód proces przebiega odwrotnie. W
pierwszym kroku wybierana jest zmienna która posiada największą zdolność do
dyskryminowania rozpatrywanych obiektów. W dalszych krokach dobierane są
następne zmienne, które posiadają największą wartość statystyki F, tj. większą niż
przyjęta na wstępie wartość F wprowadzenia. Do modelu zostaną zatem dobrane
wszystkie zmienne, których wartości statystyki F okażą się być wyższymi od
zadanej wartości progowej.
3. Ilościowe metody rozpoznawania z nauczycielem wykorzystywane do przewidywania zagrożenia upadłości firm
Określenie efektywności metod ilościowych w procesie prognozowania
upadłości przedsiębiorstwa nie jest możliwe bez przeprowadzenia empirycznego
badania metod na zadanym zbiorze danych. Aczkolwiek każda z metod umożliwia
dokonywanie klasyfikacji obiektów (metody te służą temu samemu celowi), to
jednak ze względu na założenia towarzyszące generowaniu modelu
klasyfikującego ich efektywność może znacznie się różnić. Dlatego też wydaje się 24 Proces ten został szczegółowo omówiony w: N. R. Draper, H. Smith: Analiza regresji stosowana. Warszawa: PWN. 1973. s. 197-207.
85
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością uzasadnione dokonanie analizy najistotniejszych rozpoznawania z nauczycielem,
które były skutecznie wykorzystywane w rozwiązaniu problemów empirycznych, w
tym w szczególności były już stosowane do tworzenia modeli umożliwiających
prognozowanie bankructwa. Pomimo faktu, że większość metod ilościowych może
z powodzeniem być wykorzystywana również do rozwiązywania problemu
klasyfikacji w przypadku występowania więcej niż dwóch klas, to jednak
zważywszy na istotę rozpatrywanego zagadnienia ich prezentacja zostanie
ograniczona do problemu rozpoznawania dwuklasowego (zero – jedynkowego).
Przewidywanie zagrożenia bankructwem skupia się bowiem na wskazaniu, bądź
wyeliminowaniu możliwości upadku przedsiębiorstwa, a więc zaklasyfikowaniu
wielowymiarowego obiektu jakim jest firma, opisanego przez zestaw
wyselekcjonowanych cech, jakimi są wartości wskaźników finansowych, do jednej
z dwóch klas, przedsiębiorstw zagrożonych bądź niezagrożonych upadkiem.
Ze względu na niewątpliwie utylitarny charakter tworzonych modeli w
badaniach nad prognozowaniem bankructw wykorzystuje się metody, które w
najlepszy sposób umożliwiają dychotomiczny podział danych finansowych.
Najczęściej wykorzystywanymi metodami są:
– analiza dyskryminacyjna,
– dyskryminacja typu logit i typu probit,
– sztuczne sieci neuronowe.
3.1. Analiza dyskryminacyjna
Problem odszukiwania reguły (modelu) umożliwiającej dokonywanie
dyskryminacji danego zbioru danych wielowymiarowych, w tym również podziału
dychotomicznego, może być rozpatrywany przy wykorzystaniu szeregu
zróżnicowanych metod ilościowych. Bez względu jednak na metodę generującą
narzędzie pozwalające na dokonywanie klasyfikacji badanych obiektów, istota
zagadnienia rozpoznawania z nauczycielem jest niezmienna i sprowadza się do
przeprowadzenia następującego zadania decyzyjnego:
Danych jest K rozłącznych populacji: π1, π 2, …, πK. W każdej populacji πk
występuje N elementowy zbiór obiektów O = {O1, O2, …, ON} nazywany próbą.
Obiekty opisane są za pomocą M wymiarowego wektora zmiennych X = [X1, X2,
86
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością …, XM], który dla różnych populacji πk może mieć różne rozkłady. W każdej próbie
wyróżnia się I podprób, pochodzących z poszczególnych populacji, z których
przynajmniej jedna, nazwijmy ją U, stanowi próbę uczącą.
W rozpatrywanym zagadnieniu decyzyjnym głównym problemem jest
możliwość wskazania k–tej populacji do której należeć ma M wymiarowy obiekt O
pochodzący spoza dowolnej podpróby U.
Istota zagadnienia skupia się zatem na skonstruowaniu, przy wykorzystaniu
podprób uczących U i obiektów w nich zawartych ON, należących do danych
populacji πk, modelu (funkcji) pozwalającego na zaklasyfikowanie do rozważanych
populacji dowolnych obiektów opisanych za pomocą zmiennych tworzących
wektor X. Z punktu widzenia obiektów zawartych w wielowymiarowych
przestrzeniach zadaniem jest znalezienie takiej funkcji, która odseparuje
obserwacje należące do różnych klas. Zgodnie z wcześniejszym stwierdzeniem,
taki rodzaj postępowania nazywany jest rozpoznawaniem z nauczycielem, gdyż
oprócz wartości M wymiarowego wektora dla poszczególnych obiektów, dane są
również numery klas, do których obiekty te należą, a co za tym idzie posiadana
jest informacja a priori określająca przynależność poszczególnych elementów do
grup.
Procedury wykorzystywane do tego celu umożliwiają sprowadzenie
obiektów z przestrzeni wielowymiarowych, w których każdy wymiar odpowiada
poszczególnym zmiennym Xj opisującym obiekty Oi, do przestrzeni
jednowymiarowej, co niekiedy nazywa się rzutowaniem obiektów z przestrzeni
wielowymiarowych na prostą. Możliwość taka występuje właśnie dzięki
oszacowaniu wartości jednowymiarowej funkcji wektora obserwacji obiektów, która
nazywana jest funkcją dyskryminującą, w znaczeniu – rozdzielającą. Funkcja taka,
oznaczona symbolem f, pozwala na przyporządkowanie każdej M wymiarowej
obserwacji (każdemu obiektowi) liczby rzeczywistej, przeto możemy mówić o
odwzorowaniu M wymiarowej przestrzeni w jednowymiarowy zbiór liczb
rzeczywistych, co zapisuje się jako:
f: RK → RL
Zagadnienie skupia się zatem na określeniu L przedziałów Rl wartości
funkcji f i przyporządkowaniu im odpowiednich grup obiektów należących do
zróżnicowanych populacji πk. Dzięki temu zamiast wyodrębniania w
87
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością wielowymiarowej przestrzeni RK obszarów Rk ustala się na prostej przedziały Rl
odpowiadające odpowiednim obszarom Rk. Posługując się zapisem formalnym
można to przedstawić w następujący sposób:
– jeżeli:
(Xn ∈ Rk f(Xn) ∈Rl), ⇔
to obiekt O opisany wektorem Xn zostaje przypisany do populacji πk.
Problem dokonywania dyskryminacji obiektów w przypadku występowania
jedynie dwóch klas skupia się zatem do znalezienia takiego przekształcenia
liniowego przestrzeni na prostą, że punkty leżące na lewo od pewnego ustalonego
punktu prostej zalicza się do jednej klasy, a punkty leżące na prawo – do drugiej
klasy.
Powyższe twierdzenie występuje, jeżeli spełnione są następujące warunki:
– występuje funkcja f : RK → RL,
– możliwe jest dokonanie takiego podziału zbioru RL, będącego zbiorem wartości
tej funkcji, na przedziały Rl, że spełnione będą następujące warunki:
– Rl ⊂ RL,
– Rl ∩ Rl ± n = ∅,
– . U10 −=
=l RR
Podsumowując powyższe rozważania należy stwierdzić, iż wyodrębnienie w
przestrzeni RK obszarów Rk nazywane jest dokonaniem dyskryminacji, a więc
dokonaniem podziału przestrzeni na homogeniczne obszary (podprzestrzenie),
natomiast określenie na podstawie posiadanej funkcji do której populacji należy
rozpatrywany obiekt nazywane jest klasyfikacją.
Metoda określania parametrów funkcji dyskryminacyjnej
Analiza dyskryminacyjna jest techniką numeryczną umożliwiającą
dokonywanie dyskryminacji wielowymiarowych obiektów, wykorzystywaną w
zagadnieniach, w których zmienna objaśniana ma charakter dyskretny. Istota
analizy sprowadza się do sprowadzenia wielowymiarowych obserwacji,
należących do dwóch grup obiektów będących częściami różnych populacji, do
przestrzeni jednowymiarowej, tak aby możliwe było dokonanie ich maksymalnie
dokładnego odseparowania zgodnie z rzeczywistą przynależnością do populacji.
Zagadnienie to przedstawia poniższy rysunek.
Ll ,...,
88
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
Rysunek 11
Ilustracja istoty liniowej analizy dyskryminacyjnej
– o biek t n a leż ą cy d o g r u p y p 1 ,– o biek t n a leż ą cy d o g r u p y p 2 ,– op tym a ln a h ip erp ła sz cz yz n a ( lin ia p r osta w pr z estrz en i d w u w ym ia r ow e j) ,– p un k t kr ytycz n y (w a r tość od s ep a row u ją ca ba d an e g ru p y, m in im aliz u ją ca
b łąd k la syfik a c ji) .
Źródło: Z. H. Yang, H. James, A. Packer: The Fialure Prediction of Private Construction Companies. University of Portsmouth. Departamet of Land & Construction Management. s. 6.
Możliwość dokonania liniowego przekształcenia rozpatrywanych
wielowymiarowych obiektów pozwala na znalezienie optymalnej wartości
rozdzielającej, przy której minimalizowany będzie błąd powstający przy
rozpoznawaniu danych obiektów. Oszacowywanie wartości funkcji
dyskryminacyjnej dla poszczególnych obiektów oraz porównywanie jej z wartością
rozdzielającą (nazywaną wcześniej punktem krytycznym) stanowi o istocie
procesu dyskryminacji.
Liniową funkcję dyskryminacyjną przedstawia się najczęściej wyrażeniem25:
)()()()( 101
101
10 21
μ+μΣμ−μ−Σμ−μ= −− TT xxD .
10 μμ ,
Σ
x
gdzie:
– oznaczają wektory średnich wartości zmiennych w poszczególnych
grupach,
– jest macierzą wariancji – kowariancji zmiennych,
– jest losową obserwacją.
Przy czym obserwacja X zostanie zaklasyfikowana do populacji π0, jeżeli:
,)( cxD >
25 Discriminant Analysis and Clustering. Committe on Applied and Theoretical Statistics. Board on Matehemtaical Sciences. National Academy Press. Washington. 1998. s. 10.
89
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością gdzie:
0
1
ppc ln= .
dla p0 oraz p1 oznaczających odpowiednio prawdopodobieństwa a priori tego, że
dany obiekt pochodzi z populacji π0 lub też π1.
Przyjmując następujące oznaczenia:
)( 101 μ−μΣ= −a ,
oraz
)()( 101
100 21
μ−μΣμ−μ−= −Ta ,
otrzymujemy następującą postać funkcji dyskryminacyjnej:
0axaxD T +=)( .
Na podstawie powyższego zapisu funkcji widać, że funkcja ta jest liniową
kombinacją obserwacji zmiennych tworzących losowy wektor X określający
poddawany klasyfikacji obiekt. Poszczególne współczynniki tej kombinacji tworzyć
będą wektor kolumnowy a, którego elementy obliczane są na podstawie
parametrów rozkładów wektora losowego X w populacjach π0, π1. Poszczególne
elementy wektora a są zatem wagami przypisanymi zmiennym tworzącym wektor
X, co można obliczyć w następujący sposób:
⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢
⎣
⎡
μ−μσ=
⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢
⎣
⎡
μ−μ
μ−μμ−μ
⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢
⎣
⎡
σσσ=μ−μΣ= ∑=
−
M
M
M
M
M
M
LLLL
LLLL
L
LLLL
LLLL
)()( ii
K
iki
KK
kKkka 101
10
1202
1101
21101 ,
gdzie:
określa wielkość ogólnogrupowej wariancji – kowariancji dla
poszczególnych zmiennych, σkK
Na uwagę zasługuje jednak geneza powstania liniowej funkcji
dyskryminacyjnej. U podstaw stworzenia reguły umożliwiającej dokonanie liniowej
klasyfikacji obiektów leży bayesowska reguła klasyfikacyjna. Liniowa funkcja
dyskryminacyjna wykorzystuje te same ogólne założenia statystyczne, które
umożliwiają podejmowanie decyzji w warunkach probabilistycznych. Założenia te
dotyczą w szczególności znajomości prawdopodobieństw przynależności
90
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
21
badanych obiektów do rozpatrywanych populacji. W analizach empirycznych, przy
braku dodatkowych wskazówek, założenie to jest trudnym do wyegzekwowania,
dlatego też zakłada się, że prawdopodobieństwo to jest takie samo dla każdej
grupy i wynosi (gdzie I oznacza liczbę populacji), co dla przypadku dwóch
populacji wynosi oczywiście 1. Ponadto funkcja dyskryminacyjna wymaga
znajomości funkcji gęstości wektora losowego X w poszczególnych populacjach
(tzn. fi(x) (i=0,1)). Ponieważ decyzja określająca do której populacji należy dana
obserwacja jest podejmowana po zaobserwowaniu wektora x dlatego też
prawdopodobieństwo to nazywane jest prawdopodobieństwem a posteriori.
Mówiąc o prawdopodobieństwie a posteriori mamy zatem na myśli
prawdopodobieństwo warunkowe, zależne od wektora opisującego dany obiekt, co
można zapisać jako γ(x
iπ ). Korzystając zatem z twierdzenia Bayesa,
prawdopodobieństwo a posteriori można zapisać wykorzystując
prawdopodobieństwa a priori pi oraz funkcje gęstości fi(x), co dane jest wzorem:
I1
)()()()(
xfpxfpxfp
x 110
iii
+=
πγ
0
dla i = 0, 1.
O przynależności do określonej populacji danego obiektu decyduje
maksymalizacja wartości prawdopodobieństwa a posteriori dla danej populacji.
Regułę decyzyjną w tym przypadku można zapisać w sposób następujący:
– jeżeli dla danego wektora x zachodzi γ(x
0π ) > γ(x1π ), to dany obiekt X należy do
populacji π0,
– jeżeli natomiast danego wektora x zachodzi γ(x
0π ) ≤ γ(x1π ), to dany obiekt X
należy do populacji π1.
Nadając postać analityczną powyższej regule klasyfikacyjnej, zgodnie ze
znanym lematem Neymana–Pearsona przyjmowanym w statystycznej teorii
klasyfikacji, otrzymujemy iloraz prawdopodobieństw a posteriori, dzięki czemu
możliwe będzie zastosowanie przekształceń umożliwiających otrzymanie liniowej
funkcji dyskryminacyjnej26. Oznaczając przez Z(x) iloraz tychże
prawdopodobieństw otrzymuje się:
26 Por. S. Ostasiewicz: Metody dyskryminacyjne w prognozowaniu dyskretnym. Warszawa: Wydawnictwo Polskiej Akademii Nauk. 1989. s . 67. Autorka wskazuje dalej, iż w przypadku szerokiej klasy rozkładów istnieje pewna monotonicznie rosnąca funkcja h:R→R taka, że h(z(x)) jest funkcją liniową względem X. Własność ta jest bardzo ważna nie tylko z tego względu, że znając funkcję liniową
91
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
)()(
)()()(
)()()(
)(xfpxfp
xfpxfpxfp
xfpxfpxfp
xZ11
00
1100
11
1100
00
=
+
+= .
Zgodnie zatem z bayesowską regułą klasyfikującą otrzymujemy:
– jeżeli dla dowolnego obiektu opisanego przez wektor x zachodzi: Z(x)>1, to
obiekt zaklasyfikowany zostaje do populacji π0,
– jeżeli dla dowolnego obiektu opisanego przez wektor x zachodzi: Z(x) ≤1, to
obiekt zaklasyfikowany zostaje do populacji π1.
Postać funkcji Z(x) zależy zatem w bezpośredni sposób od postaci funkcji
gęstości wektorów X w obu populacjach, przy czym klasyczna funkcja
dyskryminacyjna opiera się na założeniu, że funkcje te mają wielowymiarowy (K
wymiarowy) rozkład normalny. Funkcje te oznaczane N(μi, Σ) charakteryzują się
różnymi wartościami wektorów wartości oczekiwanych w każdej populacji oraz
jednakową macierzą wariancji – kowariancji. Wykorzystując powyższe założenia
otrzymujemy27:
)]()(,exp[)(
)]()(,exp[)(),(),(
)()()( ,
,
,
,
11
150
01
050
1
0
11
00
502
50250
50
μ−Σμ−−Σπ
μ−Σμ−−Σπ=
ΣμΣμ
==−−
−−
−
−
xx
xxNN
xfpxfpxZ
TK
TK
,
Dokonując następujących przekształceń:
=μ−Σμ−−Σπ
μ−Σμ−−Σπ=
−−
−−
−
−
)]()(,exp[)(
)]()(,exp[)()( ,
,
,
,
11
150
01
050
502
50250
50
xx
xxxZ
TK
TK
=μ−Σμ−+μ−Σμ−−=−−
)]()(,)()(,exp[ 1100
11
5050 xxxx TT
=μΣ+Σμ−μΣ−Σ+μΣμ−Σμ+μΣ+Σ−=−−−−−−−−
])[,exp( 1110000
11111111
50 TTTTTTTT xxxxxxxxx
=μΣμ+μΣμ−Σμ−Σμ=−−−−
]())[(,exp( 110010
1111
2250 TTTT xx
=μ+μΣμ−μ−Σμ−μ=−−
)]()()()[(,exp( 101010
11
250 TT x
)]()()exp[( 10101011
21
μ+μΣμ−μ−Σμ−μ=−− TT x .
oraz zwracając uwagę na fakt, iż Z(x) jest funkcją wykładniczą, której wartość dla
danego wektora x zależy od tego, jaką wartość przyjmie wyrażenie znajdujące się
łatwo jest obliczać wartości potrzebne do formułowania prognoz (dokonywania klasyfikacji obiektów), ale głównie dlatego, że w przypadku nieznajomości tej funkcji można ją efektywnie aproksymować (S. Ostasiewicz: ibidem). 27 Należy zauważyć, że takie przekształcenie możliwe jest jedynie, kiedy prawdopodobieństwa a priori tego, że obserwacje pochodzą z rozpatrywanych klas są sobie równie (i wynoszą 0,5).
92
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością w wykładniku tej funkcji, otrzymywana jest ostateczna postać funkcji Z(x), która
jest tożsama z postacią przedstawioną na początku niniejszego podpunktu. A
zatem:
)()()()()( 101
101
10 21
μ+μΣμ−μ−Σμ−μ== −− TT xxDxZ .
Łatwo wykazać, że badany obiekt zostanie zaklasyfikowany do π0 dla D(x)>0 lub
do π1 dla D(x)<0. W takim przypadku wartością rozdzielającą populacje jest 0, co
jest zgodne z przedstawionym wcześniej warunkiem:
015050
0
1 ==== )ln(,,lnln
ppc .
Taka sytuacja występuje wtedy, o czym powiedziano wcześniej, gdy
prawdopodobieństwa a priori są sobie równie. W przypadku, gdy
prawdopodobieństwa te nie są sobie równe tj. p0 ≠ p1 otrzymujemy:
)]()()exp[()()()( 10
110
110
1
0
11
00
21
μ+μΣμ−μ−Σμ−μ== −− TT xpp
xfpxfpxZ .
Aby spełniony był zatem warunek Z(x)>1 musi zachodzić:
.)]()()exp[( 1
21
101
101
101
0 >+Σ−−Σ− −− μμμμμμ TT xpp
Przekształcając powyższy wzór i obustronnie go logarytmując otrzymujemy, że
punktem krytycznym dla różnych prawdopodobieństw jest przedstawione na
wstępie wyrażenie:
0
1
ppc ln= .
Przedstawione wyżej rozważania pozwoliły na ustalenie postaci liniowej
funkcji dyskryminacyjnej. Należy jednak jeszcze raz zaznaczyć, że jednym z
podstawowych warunków umożliwiających określenie tej funkcji było
występowanie znanych parametrów rozkładów warunkowych zmiennych w
populacjach. Taka sytuacja występuje jednakże niezmiernie rzadko w badaniach
empirycznych, dlatego też w przypadku braku informacji o parametrach
wielowymiarowych rozkładów normalnych koniecznym jest ich oszacowanie z
posiadanej próby. Proces określania parametrów funkcji dyskryminacyjnej
obejmował będzie zatem dwa etapy, tj. szacowania parametrów rozkładów
wektora losowego X w obu badanych populacjach oraz określanie
93
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością współczynników liniowej funkcji dyskryminacyjnej. Przyjmując następujące
oznaczenia:
Ni – liczebność próby odpowiadającej danej populacji,
ikx – oszacowana z próby wartość przeciętna zmiennej Xk.
ix – K – wymiarowy wektor średnich wartości zmiennych opisujących obiekty,
S – oszacowana na podstawie próby K × K wymiarowa ocena macierzy Σ
wariancji, kowariancji dla zmiennych opisujących dane obiekty,
ijkx – wartość zmiennej Xk dla obiektu O należącego do populacji πi.
oraz dla poniższych formuł:
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
iK
i
i
x
xx M
1
, gdzie i
N
jijk
ik N
xx
i
∑== 1 , i= 0, 1.
a także dla:
∑∑= =
−−=1
0 1
1i
N
j
Tikijkikijk
i
xxxxn
S ))(( ,
gdzie:
∑=
−=1
02
iiNn ,
otrzymujemy:
)].()()[()(' 101
101
10 21 xxSxxxSxxxD TT +−−−= −−
Powyższa formuła, której parametry zostały oszacowane z próby jest zatem
odpowiednikiem oryginalnej postaci funkcji dyskryminacyjnej dla danych
parametrów rozkładów28.
Analiza dyskryminacyjna, a właściwie metoda współrzędnych
dyskryminacyjnych, która została zaprezentowana powyżej, była przez szereg lat
jedną z najczęściej wykorzystywanych metod klasyfikacji zero – jedynkowej
stosowaną w badaniach ekonomicznych. Niewątpliwą zaletą tej metody jest
prostota obliczeń oraz możliwość interpretacji wag odpowiadających
poszczególnym zmiennym modelu. Wady metody leżą natomiast w zakresie
28 D. Hadasik: op. cit. s. 104 – 115
94
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością założeń jej towarzyszących. Sama liniowa postać modelu jest często krytykowana,
jako że stwierdza się, iż rzutowane na prostą wielowymiarowe obiekty nie muszą
w rzeczywistości być liniowo separowalne. Poza tym, trudnym warunkiem jest
występowanie rozkładu normalnego, któremu mają podlegać obserwacje należące
do poszczególnych klas.
3.2. Model logitowy i probitowy
O ile przedstawiona w powyższym podpunkcie metoda analizy
dyskryminacyjnej jest techniką umożliwiającą dokonanie dyskryminacji danego
zbioru danych (jej istotą jest zatem znalezienie punktu rozdzielającego wartości
funkcji obliczonych dla obiektów należących do dwóch różnych populacji), o tyle
prezentowane w niniejszym części pracy metody modelu logitowego oraz
probitowego są technikami umożliwiającymi dokonanie klasyfikacji tychże
obiektów. Oznacza to, iż w przypadku występowania dwóch klas, do których mają
być zaklasyfikowane obiekty xn opisane za pomocą wektora zmiennych Xm,
wartość funkcji yn winna osiągnąć jedną z dwóch wartości, tj.:
⎩⎨⎧
π∈π∈
=0
1
01
n
nn x jeżeli
x jeżeli y .
Można zatem stwierdzić, że zmienna y jest zmienną binarną, której
prawdopodobieństwo a priori zaklasyfikowania do populacji π1 wynosi p1,
natomiast prawdopodobieństwo zaklasyfikowania do populacji π0 równie jest p0 (p0
= 1 – p1). W modelach logitowym i probitowym zakłada się, że o zaklasyfikowaniu
obiektu decyduje oszacowane prawdopodobieństwo przynależności do
rozpatrywanych klas. Jeżeli zatem prawdopodobieństwo to wynosi 1 (lub jest
bliskie 1), to uznaje się, że dany obiekt należy do klasy π1, w przypadku, gdy
prawdopodobieństwo to wynosi 0 (lub jest bliskie 0) uznaje się, że obiekt należy
do klasy π0.
Podobne podejście wykorzystywane jest w tzw. liniowych modelach
prawdopodobieństwa znanych z ekonometrii, w których to dyskretna i
dychotomiczna zmienna objaśniana określa prawdopodobieństwo
95
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością zaklasyfikowania poszczególnych obiektów do rozpatrywanych klas. Funkcja ta
jest oczywiście liniową funkcją regresji zero – jedynkowej o postaci29:
nnn Xy ε+β+α= ' ,
gdzie:
X’n – wektor zmiennych opisujących obiekty,
β – wektor współczynników – wag,
α – wyraz wolny,
nε – czynnik losowy.
Zgodnie z tym co stwierdzono na wstępie celem jest określenie populacji, z
której pochodzi badany obiekt. Jako, że zmienna yn może przyjmować tylko dwie
wartości, całkowite prawdopodobieństwo tych zdarzeń można opisać w sposób
następujący:
⎩⎨⎧
=1
1n P-1 bieństwaprawdopodo dla
P bieństwaprawdopodo dla y
01
co odpowiada zapisowi:
nnnnn PPPXyE =−⋅+⋅= )()()/( 101
Jak zatem widać Pn może być również interpretowane jako wartość
oczekiwana yn przy danych parametrach Xn. Można zatem zapisać, że:
)/()/( 'nnnnn XEXXyE ε+β+α= .
Zgodnie z założeniami towarzyszącymi estymacji klasycznego modelu
ekonometrycznego30 wartość oczekiwana składnika losowego wynosi zero:
0=ε )/( nn XE ,
a zatem:
β+α= ')/( nnn XXyE ,
lub:
β+α= 'nn XP .
Istota wykorzystywania liniowych modeli prawdopodobieństwa sprowadza
się do dokonywania klasyfikacji obiektów dzięki obliczeniu prawdopodobieństwa
ich przynależności do danych klas. Jednakże ze względu na własności liniowych
29 Do oszacowania parametrów liniowej funkcji prawdopodobieństwa wykorzystywana jest klasyczna metoda najmniejszych kwadratów. 30 Por. S. Bartosiewicz: Metody ekonometryczne. Warszawa: PWN. 1974. s. 50.
96
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością funkcji prawdopodobieństwa31 ich wartość może być <0 lub >1, a więc może
wykraczać poza przedział [0;1], co jest sprzeczne z definicją
prawdopodobieństwa32. Prawdopodobieństwo ujemne, jak również większe od
jedności nie ma sensu z punktu widzenia podstaw rachunku prawdopodobieństwa,
co sprawia, że w przypadku szeregu obiektów nie będzie możliwe podjęcie decyzji
dotyczącej ich zaklasyfikowania do jednej z rozpatrywanych klas.
Opisana wyżej niedogodność zmusza do zastosowania monotonicznych
przekształceń prawdopodobieństw z przedziału [0; 1] na przedział (- , ), dzięki
czemu uniknie się występowania skończonego przedziału zmiennej objaśnianej
∞ ∞33.
Przekształceniami takimi są właśnie model logitowy i probitowy.
W tym miejscu wprowadzone zostanie jedno z najpopularniejszych
przekształceń, tzw. przekształcenie logitowe, odwzorowujące skalę parametru P z
przedziału [0;1] na przedział (-∞ ,∞ ), na bazie którego buduje się modele dla
danych dwumianowych. Przekształcenie logitowe prawdopodobieństwa tego, że
obiekt xi zostanie zaklasyfikowany do klasy k jest oznaczane i definiowane
następująco:
)log()(p
pplogit−
=1
.
Taka transformacja ma następujące własności:
),,()(];[ +∞−∞∈⇔∈ plogitp 10
,)( −∞→⇔→ plogitp 0
,)( +∞→⇔→ plogitp 1
Wykres funkcji logit jest symetryczny względem punktu (0,5; 0), a dla
funkcja ta jest prawie liniowa);,( 020 , p∈ 8 34. Zakładając, że n obserwacji pochodzi z
rozkładu dwumianowego, logitowy model liniowy dla Pn zależnego od m
zmiennych objaśniających (cech obiektów) xj (j=1,2, … , m) związanych z i – tą
obserwacją ma postać:
mimin
nn xx
ppplogit β++β+β=−
= ...)log()( 1101,
31 Liniowe funkcje prawdopodobieństwa i ich zastosowanie w klasyfikacji obiektów szczegółowo przedstawiają: E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification Techniqes in Busienss, Banking and Finance: Connecticut.. JAI Press. 1981. s. 3-10. 32 E. Nowak: Prognozowanie gospodarcze. Warszawa: Placet. 1998. s. 141. 33 Ibidem. s. 142. 34 W. Ostasiewicz: Statystyczne analizy metody danych. Wrocław. Wydawnictwo Akademii Ekonomicznej we Wrocławiu. 1998. s. 325
97
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością skąd po przekształceniach otrzymujemy:
)...exp()...exp()/(mimi
mimii xx
xxxppβ++β+β+
β++β+β=π=
11
111 1
.
Powyższa formuła określa zatem prawdopodobieństwo zaklasyfikowania obiektu x
do klasy πi, przy czym i = [0, 1]. Prawdopodobieństwo, że tej samej obserwacji
odpowiada klasa π0 wynosi 1-pi, a zatem:
)...exp()/(
mimii xx
xppβ++β+β+
=π=11
0 11 .
Taka postać funkcji występuje jednak wtedy, gdy wartość współczynnika wolnego
wynosi:
'ln p+β=β 0 ,
gdzie:
1
0
ppp =' .
Wychodząc bowiem od założenia o liniowości logarytmu naturalnego ilorazu
największej wiarygodności o postaci:
xxfxf Tβ+β=ππ
00
1
)/()/(ln ,
co pozwala na uwolnienie się od założeń dotyczących znajomości postaci
rozkładów w obu klasach, możemy wyznaczyć prawdopodobieństwo a posteriori
umożliwiające dokonywanie klasyfikacji obserwacji (za pomocą oszacowanego
prawdopodobieństwa) przy wykorzystaniu wzoru Bayesa o postaci:
)/(
)/()/(i
2
1iii
iiii
xfp
xfpxPπ
π=π
∑=
.
Dokonując następnie przekształceń dwóch powyższych formuł dochodzimy do
postaci prawdopodobieństw a posteriori określonych jako:
)'lnexp()'lnexp()/(px
pxxP T
T
+β+β++β+β
=π10 ,
oraz:
)'lnexp()/(
pxxP T +β+β+=π
11
1 .
98
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością Jeżeli natomiast prawdopodobieństwa a priori p0 oraz p1 są sobie równe, to
podobnie jak miało to miejsce w analizie dyskryminacyjnej, ln p’ = 0, co skutkuje
wyeliminowaniem tego elementu z kombinacji czynników, których suma stanowi
wykładnik potęgi w powyższych wzorach, dzięki czemu otrzymujemy: β = β0.
Jak się zatem okazuje prawdopodobieństwo a posteriori p(πi, x) określające
zaklasyfikowanie obiektu x do jednej z klas może być traktowane jako wartość
dystrybuanty rozkładu logistycznego, a zatem35:
∫β+β
∞−=π
x
i
T
dzLfxp 0 )(),( ,
gdzie:
L – dystrybuanta rozkładu logistycznego,
f(L) – funkcja gęstości standardowego rozkładu logistycznego.
Ponadto, jeżeli w wektorze Xm zmiennych (cech) opisujących obiekty
występuje zmienna, która jest zawsze równa jedności, to wektor wag (parametrów
strukturalnych modelu) może zawierać wyraz wolny β 0, w innym przypadku tak
liniowa postać funkcji wiarygodności, jak i prawdopodobieństwo a posteriori
przyjmuje postać36:
)exp()exp()(
iTi
T
i xxxpβ+
β=
1
Powyższy wzór można łatwo przekształcić otrzymując tożsamości
wykorzystywane w następnych przekształceniach37.
W celu oszacowania parametrów β modelu określamy postać funkcji
wiarygodności38 dla n – elementowej próby, a następnie dokonujemy
maksymalizacji funkcji o postaci39:
iii yyi
yi
n
iPPL −
=
−=Π 1
11 )( ,
Obliczając logarytm powyższej funkcji otrzymujemy:
35 Por. K. Jajuga: Statystyczna teoria… . op. cit. s. 126; oraz : E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification Techniqes … . op. cit. s. 16. 36 E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification… . op. cit. s. 18. 37 Por. G.C. Chow: Ekonometria. Warszawa: PWN. 1995. s. 310. 38 Metoda największej wiarogodności stanowi ogólną metodę estymacji parametrów populacji przy pomocy wartości, które maksymalizują wiarogodność próby. Wiarygodność próby składającej się z n obserwacji xi, i=1,…,n, jest funkcją łącznego prawdopodobieństwa p(x1, x2,..., xn) gdy x1, x2, ..., xn są zmiennymi losowymi skokowymi. Niech L będzie wiarogodnością próby, gdzie L jest funkcją parametrów q1, q2,... qk, wówczas estymatory największej wiarogodności parametrów q1, q2,... qk są wartościami, które maksymalizują L. 39 Metodę największej wiarygodności szeroko omawia S. Brandt: Analiza danych. Warszawa: PWN. 1999. s. 230.
99
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
∑=
=−−+=n
iiiii PyPyL
1
11 )log()(log[log ]
}
∑=
=−+−−n
iiiii PPPy
1
11 )log()]log([log{
∑ ∑= =
β+−β=n
i
n
i
xi
Ti
iT
exy1 1
1 )( ,
co było możliwe do otrzymania dzięki określonym wcześniej przekształceniom.
Do otrzymania estymatora wektora parametrów β metodą największej
wiarygodności, koniecznym jest określenie postaci pochodnej log L względem β
oraz przyrównanie pierwszej pochodnej do zera:
∑ ∑ ∑= = =
− =−=+−=∂
∂ n
i
n
i
n
iiiii
xxii xPfxeexfL
iT
iT
1 1 111
11 01 )()(log ββ
β.
W przypadku gdy liczba obserwacji n jest większa (lub równa) liczbie cech
tworzących wektor xi (co zwykle ma miejsce) i jeżeli wektory xi nie są liniowo
zależne, to macierz o postaci:
∑∑=
β
β
β
β
=
=+
++
−=β∂∂
−=β∂β∂
∂ n
i
Tix
xTix
x
i
n
iTi
iT xe
exe
exPxLi
T
iT
iT
iT
12
2
1
12
11]
)()([log
∑=
−=n
i
Tiiii xPPx
111 1 )( ,
jest ujemnie określona.
Dla tak określonego równania w celu oszacowania parametrów wektora β
koniecznym jest wykorzystanie którejś z metod rozwiązywania równań
nieliniowych. W dalszej części pracy zastosowany zostanie iteracyjny algorytm
quasi – Newtonowski40.
Podobnym do modelu logitowego jest model probitowy, w którym
prawdopodobieństwo Pi określające zaklasyfikowanie obiektu x do jednej z
populacji jest określane przez dystrybuantę rozkładu normalnego o postaci:
∫β
∞−
−−βΦ=π=π
x
i
s
xdsexp'
)'()(),( 221
0 2 .
40 O metodach rozwiązywania równań nieliniowych, w tym również o metodzie quasi Newtona szeroko pisze: W. Milo: Nieliniowe modele ekonometryczne. Warszawa: PWN. 1990. s. 57.
100
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością Zakładając, że próba zawiera n1 jednostek takich, że klasą im odpowiadającą jest
π1 oraz n2 takich jednostek, dla których klasą im odpowiadającą jest π0. Funkcja
wiarygodności tej próby ma postać:
)].'([)'( i
n
ii
n
ixxL βΦ−βΦ= ΠΠ
==
121
11
Logarytm powyższej funkcji ma postać:
∑∑==
βΦ−+βΦ=21
11
1n
ii
n
ii xxL )]'(log[)'(loglog .
Podobnie jak miało to miejsce w analizie logit do oszacowania wektora β
metodą największej wiarygodności koniecznym jest zróżniczkowanie powyższej
funkcji względem β i przyrównanie pochodnej do zera:
∑∑=
−
=
− =βϕβΦ−−βϕβΦ=β∂
∂ 21
1
1
1
1 01n
iiii
n
iiii xxxxxxL )'()]'([)'()]'([log ,
gdzie:
φ – funkcja gęstości standaryzowanego rozkład normalnego o postaci:
dzzdez
z )()()( Φ=π=ϕ
−−22
1 2
2 .
Również w tym przypadku do rozwiązania układu równań i oszacowania
wartości parametrów wektora β niezbędnym jest zastosowanie jednej z
numerycznych metod rozwiązywania równań. Tak jak miało to miejsce w modelu
logit do tego celu zastosowany zostanie algorytm quasi – Newtonowski.
Poniższe rysunki (nr 12 oraz nr 13) przedstawiają różnice pomiędzy
rozkładami logistycznym i normalnym.
Rysunek 12 Dystrybuanty skumulowanego rozkładu normalnego i logistycznego
-3 -2 -1 0 1 2 3
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
skumulowanyrozkład logistyczny
skumulowany rozkładnormalny
Źródło: opracowanie własne
101
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
Rysunek 13 Krzywe standaryzowanego rozkładu normalnego i logistycznego
-3 -2 -1 0 1 2 3
0,1
0,2
0,3
0,4
rozkład logistyczny
rozkład normalny
Źródło: opracowanie własne
Oprócz oczywistego zróżnicowania w podstawowych parametrach tych
rozkładów (w rozkładzie normalnym mamy wariancję oraz odchylenie
standardowe równe 1, w przeciwieństwie do rozkładu logistycznego w którym
elementy te przyjmują wartości odpowiednio 3,29 i 1,71), pomiędzy rozkładami
zachodzi ta różnica, że skumulowana postać rozkładu logistycznego ma
„zamkniętą formę” co czyni tą metodę dużo łatwiejszą z punktu widzenia
konieczności dokonywania niezbędnych obliczeń41.
Przedstawione wyżej metody logit i probit są ciekawą alternatywną dla
analizy dyskryminacyjnej. W metodach tych następuje uwolnienie od sztywnego
wymogu występowania rozkładu normalnego, któremu podlegać mają obserwacje
należące do poszczególnych klas. Poza tym sama klasyfikacja nie następuje
poprzez przyporządkowanie obiektu do jednej z grup, lecz poprzez określenie
prawdopodobieństwa wystąpienia jednego z dwóch rozpatrywanych stanów.
Sama procedura oszacowania parametrów takiego modelu (wykorzystująca
metody rozwiązywania układów równań nieliniowych) jest jednak bardziej złożona
niż ma to miejsce w przypadku analizy dyskryminacyjnej.
41 E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification… . op. cit. s. 17
102
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością 3.3. Sztuczne sieci neuronowe
Sztuczne sieci neuronowe (SSN) stanowią jedną z najbardziej dynamicznie
rozwijających się gałęzi sztucznej inteligencji. Rozległy obszar zastosowań SSN
obejmuje również zagadnienia z zakresu nauk ekonomicznych, które do tej pory
badano głównie za pomocą modeli statystycznych, ekonometrycznych czy
optymalizacyjnych42. Aczkolwiek wykorzystanie SSN jest możliwe niemal we
wszystkich dziedzinach nauki i techniki, wszędzie tam, gdzie koniecznym jest
wykorzystanie układów wspomagających podejmowanie decyzji w warunkach
występowania szumów informacyjnych, to właśnie w ekonomii zastosowanie SSN
pozwala na efektywne prognozowanie, rozpoznawanie i analizę zjawisk, które do
tej pory sprawiały trudności poznawcze.
W zagadnieniu prognozowania bankructw wykorzystywany jest tylko jeden
z obszarów zastosowań SSN, a mianowicie ich możliwość dokonywania
klasyfikacji, w tym przypadku klasyfikacji dwuwartościowej.
O możliwości szerokich zastosowań SSN decydują podstawy działania tego
typu algorytmów. Inspiracją do stworzenia tej klasy systemów była budowa mózgu
ludzkiego, który jak dotąd jest najdoskonalszym układem gromadzącym i
przetwarzającym informacje. Koncepcja działania sztucznych sieci neuronowych
została oparta na sposobie przetwarzania informacji w ludzkim mózgu43. SSN jest
bowiem uproszczonym modelem połączeń występujących pomiędzy komórkami
ludzkiego mózgu44, dzięki czemu stanowi strukturę, która swym działaniem
przypomina zasadę funkcjonowania systemu nerwowego.
Należy jednak zauważyć, że inspiracje biologiczne, aczkolwiek istotne,
dotyczą jedynie ogólnych zasad funkcjonowania SSN. W rzeczywistości działanie
większości modeli sieci neuronowych opiera się na czysto pragmatycznych
koncepcjach matematycznych, dostosowanych do rozwiązywanych zadań i
mających niewiele wspólnego ze swymi neurofizjologicznymi podstawami.
Sieć neuronowa jest systemem wzajemnie połączonych prostych
elementów przetwarzających informacje, zwanych neuronami. Każdy neuron
42 J. S. Zieliński: Inteligentne systemy w zarządzaniu. Teoria i praktyka. Warszawa: PWN. 1999. s. 141. 43 P. D. Wasserman i T. Schwartz: Neural Networks. Part 1. IEEE Expert. Spring. 1998. s. 10–15. 44 R. E. Dorosey, R. O. Edmister, J. D. Johnson: Bankruptcy Prediction Using Artificial Neurlal Systems. The University of Mississipi. School of Business. The Reaserch Fundation of The Institute of Chartered Financial Analysts. 1997. s. 6.
103
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością posiada ciało komórkowe (somę), z którego wyrasta pojedynczy akson. Kiedy
soma zostanie dostatecznie silnie pobudzona przez nadchodzące impulsy,
przekazuje je wzdłuż aksonu do innych neuronów. Impulsy takie neuron odbiera
za pomocą receptorów zwanych dendrytami. Obszar na którym odbierane są
impulsy, określany jest mianem synapsy. To właśnie za ich pośrednictwem
impulsy nerwowe przekazywane są z jednego neuronu na drugi45”. Schemat
neuronu biologicznego pokazany został na rysunku 5.
Rysunek 14
Schematyczny obraz komórki nerwowej, pokazujący jej zasadnicze elementy.
Źródło: R. Tadeusiewicz: Problemy biocybernetyki. PWN. Warszawa: 1994. s. 32.
Sztuczna sieć neuronowa składa się zatem z szeregu połączonych ze sobą
neuronów tworzących pewną strukturę. Poszczególne neurony są w strukturze
grupowane w większe zespoły, zwane warstwami. W najprostszych SSN
występuje jedynie warstwa wejściowa neuronów, którą zgodnie z analogią do
biologicznego neuronu możemy nazwać warstwą receptorów i warstwa wyjściowa,
dzięki której odbierany jest wygenerowany sygnał. Struktura wewnętrzna sieci
tworzy tzw. architekturę sieci, która określa również sposób propagacji sygnału
między neuronami.
Cała wiedza sieci o sposobie rozwiązywania danego problemu
przechowywana jest w jej wewnętrznych odwzorowaniach, definiowanych przez
wartości wag występujących pomiędzy poszczególnymi neuronami. Najprostszy
pojedynczy neuron liniowy posiada zatem j wejść, po których przejściu sygnały
45 E. Gately: Prognozowanie finansowe i projektowanie systemów transakcyjnych. Warszawa. WIG Press. 1999. s. 5. Struktury neuronu działają na zasadzie elektrochemicznej. Oznacza to, że działanie mózgu opiera się na przepływie impulsów elektrycznych wyzwolonych na skutek reakcji chemicznych. Kiedy wskutek połączonego oddziaływania wielu nadchodzących impulsów zostanie osiągnięty odpowiedni poziom pobudzenia (czyli zgromadzony ładunek elektryczny określany mianem ładunku progowego), ciało komórkowe wyzwala swój ładunek (ulega depolaryzacji) i wysyła go wzdłuż aksonu do innych komórek nerwowych i ich dendrytów.
104
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością wejściowe xj są mnożone przez wagi wij i przekazywane do sumatora Σ, który
oblicza potencjał ϕi i – tego neuronu. Potencjał ten może być również korygowany
o dodatkowy składnik tzw. bias, który pełni rolę wartości progowej; jest nim stała
wartość bi. Skorygowany o bi potencjał ϕi oznacza się jako ui. Taki model
sztucznego neuronu nazywany jest neuronem liniowym, a sieć zbudowana z
takich neuronów nosi nazwę sieci liniowej.
Sieci takie mają ograniczone zastosowanie, gdyż nadają się jedynie do
realizacji odwzorowań liniowych46. Realizacja neuronu nieliniowego, który, co
zrozumiałe, posiadać będzie możliwość odwzorowywania również problemów
nieliniowych, polega na dodaniu bloku aktywacji i przetworzeniu dzięki niemu
wyjściowego sygnału ui danego neuronu, dzięki czemu otrzymuje się sygnał
wyjścia y będący wynikiem funkcji aktywacji F(ui).
Rysunek 15
Model pojedynczego neuronu liniowego
x1
x2
x3
Σ
wi1
wij
wiN
bi
ui
Źródło: opracowanie własne
Blok nieliniowej funkcji aktywacji F(ui) w zależności od konkretnego celu
jakiemu służy neuron, może przyjmować różne postacie. Poczynając od funkcji
typu unipolarnego, przyjmującej wartość 0 lub 1, poprzez funkcje bipolarne o
wartości –1 lub 1, skończywszy na ciągłych funkcjach sigmoidalnych takich jak
funkcja logistyczna (rys. 16), tangens hiperboliczny. Należy również podkreślić, że
SSN posiadające funkcje aktywacji skokowe, a więc funkcję unipolarną lub
bipolarną, mają charakterystyki nieciągłe, co znacznie utrudnia proces ich
46 R Tadeusiewicz.: Sieci neuronowe. Warszawa. Akademicka Oficyna Wydawnicza. 1993. s. 23.
105
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością uczenia47, w związku z czym, dla zwiększenia efektywności wyników, w dalszej
części pracy zostaną wykorzystane jedynie funkcje sigmoidalne, a konkretnie
funkcja logistyczna.
Rysunek 16
Przykładowe funkcje aktywacji neuronu wraz z ich postacią analityczną
u
F(u)
1
0
-1
-0,5
01
1>
+= − ββ
euF u)(
Źródło: opracowanie własne
Zastosowanie funkcji logistycznej jako stałego bloku nieliniowego dla
wszystkich neuronów sieci ma również tą zaletę, że zamiast uczenia sieci
wytwarzania jedynie dwóch wartości (zagadnieniem jest klasyfikacja
dwuwartościowa), co jest często trudne do osiągnięcia gdyż sieć może realizować
wartości wyjściowe większe lub mniejsze od wartości progowych uznanych za
klasyfikatory wskazujące na przynależność obiektu do rozpatrywanych grup, sieć
uczona jest realizować określony poziom aktywacji, a nie wartości ekstremalne,
które są trudne bądź niemożliwe do osiągnięcia. W przypadku zastosowania
funkcji logistycznej nigdy nie otrzymujemy zatem pełnego poziomu aktywacji o
wartości 1, ani pełnego poziomu aktywacji o wartości 0. Jeżeli bowiem sieć miała
by być uczona osiągać te wartości, to wagi synaptyczne musiały by być
„podciągane” do tak dużych wartości, że pojawi się numeryczna niestabilność
związana z ograniczeniem zakresu liczbowego48. Najlepszym rozwiązaniem jest
zatem uczenie sieci osiągania umiarkowanych wartości. W przypadku funkcji
47 S. Osowski: Sieci neuronowe w ujęciu algorytmicznym. Warszawa. WNT. 1996. s. 38. Autor stwierdza również, że sieci o skokowych funkcjach aktywacji nie mogą być wykorzystywane jeżeli do uczenia sieci stosuje się algorytmy gradientowe (np. algorytm wstecznej propagacji błędów). 48 Inną cechą funkcji logistycznej jest to, że jej pochodna dąży do zera dla wartości ekstremalnych przez co optymalizacja SSN metodą gradientową posuwa się wolno, co stanowi argument krytyczny w stosunku do metody wstecznej propagacji błędów.
106
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością logistycznej wartości miar aktywacji wybiera się zwykle na poziomie 0,1 dla jednej
decyzji i 0,9 dla drugiej49.
Rysunek 17
Model neuronu nieliniowego
x1
x2
xN
Σ
wi1
wij
wiN
bi
uiF(ui) yi
M
Źródło: opracowanie własne
Powyższa sieć jest siecią jednowarstwową, w której nie występują warstwy
ukryte. Taka architektura sieci sprawia, iż przy jej zastosowaniu możliwe jest
rozwiązywanie jedynie prostych problemów. Należy podkreślić, że rozwiązywanie
przez sztuczną sieć neuronową problemów o wysokim stopniu komplikacji
wymaga rozszerzenia architektury sieci. Uzyskuje się to poprzez dodawanie
warstw ukrytych neuronów, w których połączeniach wagowych oraz funkcjach
aktywacji „zapisany” zostaje sposób rozwiązywania takich problemów. Schemat
sieci wielowarstwowej prezentuje rysunek 18.
Rysunek 18
Schemat sieci jednokierunkowej wielowarstwowej
x1
x2
x3
xN
M
y1
yk
MM
Źródło: opracowanie własne
Każdy neuron, przedstawiony na rysunku 18 jako kółko, działa w sposób
opisany wcześniej, czego schemat przedstawia rys. 17 (schemat neuronu
49 T. Masters: op. cit. s. 29.
107
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością nieliniowego). Sygnały wejściowe pochodzą z warstwy poprzedniej, a wyjściowe
płyną do warstwy następnej.
Przystępując do rozwiązania jakiegokolwiek problemu przy wykorzystaniu
sieci neuronowej wielowarstwowej należy zatem, oprócz zebrania i dostosowania
danych uczących, zaprojektować strukturę sieci, dopasowaną do danego zadania.
Oznacza to zatem wybór liczby warstw sieci i neuronów w nich zawartych, a także
określenie powiązań między poszczególnymi warstwami oraz przyjęcie konkretnej
funkcji aktywacji. Dobór liczby neuronów w warstwie wejściowej jest
uwarunkowany wymiarem wektora danych x. Podobnie jest w warstwie
wyjściowej, w której liczba neuronów równa się wymiarowi wektora zadanego. Tu
jednak należy zaznaczyć, iż dla zadania klasyfikacji dwuwartościowej możliwe jest
przyjęcie dwóch rozwiązań: w pierwszym SSN posiadać będzie dwa neurony
wyjściowe, po jednym na każdy rodzaj podejmowanej decyzji, w drugim SSN
posiadać będzie tylko jeden neuron wyjściowy. W pierwszym z podejść
przedstawiony sieci obiekt generuje na wyjściu sygnał charakteryzujący się
włączonym pierwszym neuronem wyjściowym i wyłączonym drugim (pod pojęciem
włączony – wyłączony należy rozumieć wartość neuronu wyjściowego równą 1 lub
0), co oznacza zaklasyfikowanie rozpatrywanego obiektu do I z analizowanych
klas lub pierwszym neuronem wyłączonym i drugim włączonym, co z kolei
oznacza zaklasyfikowanie rozpoznawanego obiektu do II klasy. Taka metoda
jednak nie daje żadnej korzyści w znaczeniu jakości przetwarzania, a podnosi
koszt pamięci i czasu uczenia oraz wprowadza niejednoznaczność do procesu
decyzyjnego50, powstaje bowiem problem jaką decyzję podjąć w przypadku gdy
oba neurony będą w stanie włączonym lub wyłączonym. Rozwiązaniem tego
problemu jest zastosowanie jednego neuronu wyjściowego. W takim przypadku
sieć winna być uczona, a co za tym idzie winna rozwiązywać stawiany jej problem,
tak aby wytwarzać dużą wartość sygnału wyjściowego dla jednej decyzji i małą dla
drugiej. W dalszej części pracy przyjęto zatem, że badane SSN posiadać będą
tylko jeden neuron wyjściowy.
Ilość warstw ukrytych oraz liczba neuronów w nich zawartych jest natomiast
uzależniona od postawionego sieci zadania, przy czym określenie tak liczby
50 T. Masters. op. cit. s. 28.
108
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością warstw jak i neuronów pozostawia się zazwyczaj doświadczeniom51. Przyjmuje
się, że sieć z jedną warstwą ukrytą powinna nauczyć się rozwiązywania
większości postawionych problemów. Nie są znane problemy wymagające do
rozwiązania sieci z więcej niż trzema warstwami ukrytymi. Nie ma natomiast
dobrej recepty na dobór właściwej ilości neuronów w warstwie ukrytej.
Określenie architektury sieci jest pierwszym krokiem do stworzenia sieci
neuronowej. Należy zauważyć, że prawidłowo zbudowana sieć neuronowa
posiada zdolność do uogólniania, a więc generowania właściwego rozwiązania dla
danych, które nie pojawiły się w zestawie danych uczących. Rysunek 19 stanowi
ilustrację umiejętności generalizacji sieci neuronowych.
Rysunek 19
Podział przestrzeni danych na dane uczące L, testujące T oraz sprawdzające
(weryfikujące) V.
R
T L V
Źródło: S. Osowski: op. cit. s. 32.
Jak stwierdzono wcześniej inspiracją do stworzenia SSN był neuron, a więc
pojedyncza komórka nerwowa spełniająca określone funkcje w ludzkim mózgu.
Istota działania SSN opiera się również na założeniu, że poszczególne neurony
nabywają wiedzę w procesie uczenia podobnie jak dzieje się to w systemie
nerwowym człowieka. O efektywności SSN decyduje zatem ich zdolności do
rozpoznawania zadanego problemu poprzez uczenie się prawidłowych
51 S. Osowski (S. Osowski: op. cit. s. 93) stwierdza: „Problemem pozostaje dobór warstw ukrytych i liczby neuronów w każdej warstwie. Rozwiązanie tego problemu zostało podane (w sensie istnienia rozwiązania) przez matematyków zajmujących się aproksymacją funkcji wielu zmiennych. … Określenie minimalnej liczby warstw ukrytych sieci opiera się na właściwościach funkcji aproksymujących.”
109
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością rozwiązań52. W procesie uczenia sieci zostaje przedstawiony zbiór danych
wejściowych, do których stosuje się regułę R. Zbiór ten zostaje następnie
rozdzielony na 2 podzbiory: zbiór testujący T oraz zbiór uczący L, z którego
dodatkowo wydzielono podzbiór V używany w trakcie uczenia do sprawdzania
stopnia nauczenia sieci (zbiór ten nazywany jest często grupą walidacyjną). Sieć
zostaje poddana uczeniu na zbiorze V. Zdolność odtworzenia zbioru L przez sieć
jest miarą zdolności zapamiętania danych uczących, natomiast zdolność do
generowania właściwych rozwiązań dla danych należących do zbioru T, na
których sieć nigdy nie była trenowania, jest miarą zdolności uogólniania. Zakłada
się przy tym, że zarówno dane tworzące zbiór L, jak i zbiór T są typowymi
reprezentantami zbiorów tworzących regułę R.
W procesie uczenia sieci występują jednak zagrożenia których nie
wyeliminowanie może ograniczyć zdolność sieci do generalizacji uzyskanej
wiedzy. Należy bowiem mieć na uwadze, że nadrzędnym kryterium uczenia sieci
jest minimalizacja błędów otrzymywanych w procesie uczenia, przy czym chodzi tu
o ograniczenie błędów dla ciągu testowego. Zagrożenia te przedstawia rysunek
20.
Rysunek 20
Charakter błędów mogących wystąpić w procesie uczenia SSN
dobre dopasowanie dociągu uczącego i
zdolność dogeneralizacji
przeuczenie sieci –dobre dopasowanie dociągu uczącego i brak
zdolności dogeneralizacji
słabe dopasowanie dociągu uczącego i brak
zdolności dogeneralizacji
błąd dla ciąguuczącego
błąd dla ciągutestowego
niski
niski
wysoki
wysoki
Źródło: P. Lula: Metody projektowania struktur sieci neuronowych stosowanych w procesie modelowania. Taksonomia. Zeszyt 4. 1997. s. 189.
52 Podobnie jak miało to miejsce w przypadku metod rozpoznawania obrazów, również w procesie uczenia SSN występują dwa różne procesy uczenia: uczenie z nauczycielem oraz uczenie bez nauczyciela. W niniejszej pracy rozpatrywane będą jedynie metody uczenia
110
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
Ciekawym zjawiskiem jest wystąpienie wysokiego odsetka błędów w grupie
testującej T przy jednoczesnych niskich wartościach błędu dla grupy uczącej L, co
oznacza tzw. przeuczenie sieci. W takim wypadku sieć potrafi dobrze odtworzyć
dane będące nauczycielem, nie ma jednak zdolności generalizacji nabytej wiedzy,
a co za tym idzie praktyczne możliwości zastosowania takiej sieci są znikome.
Celem uczenia sieci jest zatem minimalizacja błędu dla grupy T.
Omawiany powyżej błąd w swej istocie ma charakter błędu statystycznego
zbliżonego do znanej z ekonometrii miary błędu dopasowania funkcji regresji, czyli
sumy kwadratów reszt. Funkcja celu, której minimum jest poszukiwanym
rozwiązaniem eksploruje się poprzez takie modyfikowanie wag synaptycznych
sieci, aby osiągnąć wartość funkcji znajdującą się w jej minimum całkowitym.
Najczęściej przyjmowanymi miarami błędów są średni kwadrat błędu (MSE –
mean square error) oraz błąd średniokwadratowy (RMS – root mean square). W
dalszej części rozprawy wykorzystany zostanie właśnie błąd typu RMS, który
umożliwia łatwą interpretację otrzymanych wyników o postaci53:
∑−
=
−=1
1
21 n
iii yt
nRMS )( .
gdzie:
ti – docelowa (rzeczywista) wartość odpowiadająca rozpatrywanemu
obiektowi,
yi – wartość otrzymana na wyjściu sieci,
n – ilość obiektów znajdujących się w próbie.
Istota uczenia się SSN polega na takim dopasowywaniu wag
synaptycznych aby otrzymywane wartości funkcji celu stanowiącej błąd
odwzorowywania rzeczywistości przez sieć były minimalne. Pierwszą czynnością
w procesie uczenia jest przygotowanie dwóch ciągów danych: uczącego i
weryfikującego (walidacyjnego). Ciąg uczący jest to zbiór takich danych, które w
miarę dokładnie charakteryzują dany problem. Jednorazowa porcja danych
nazywana jest wektorem uczącym. W jego skład wchodzi wektor wejściowy czyli
te dane wejściowe, które podawane są na wejścia sieci i wektor wyjściowy czyli
sieci z nauczycielem, co jest podyktowane charakterem przedmiotu niniejszej dysertacji. 53 T. Masters. op. cit. s. 70.
111
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością takie dane oczekiwane, jakie sieć powinna wygenerować na swoich wyjściach. Po
przetworzeniu wektora wejściowego, nauczyciel porównuje wartości otrzymane z
wartościami oczekiwanymi i informuje sieć czy odpowiedź jest poprawna, a jeżeli
nie, to jaki powstał błąd odpowiedzi. Błąd ten jest następnie propagowany przez
sieć ale w odwrotnej niż wektor wejściowy kolejności (od warstwy wyjściowej do
wejściowej) i na jego podstawie następuje taka korekcja wag w każdym neuronie,
aby ponowne przetworzenie tego samego wektora wejściowego spowodowało
zmniejszenie błędu odpowiedzi. Procedurę taką powtarza się do momentu
wygenerowania przez sieć błędu mniejszego niż założony. Wtedy na wejście sieci
podaje się kolejny wektor wejściowy i powtarza te czynności. Po przetworzeniu
całego ciągu uczącego (proces ten nazywany jest epoką) oblicza się błąd dla
epoki i cały cykl powtarzany jest do momentu, aż błąd ten spadnie poniżej
dopuszczalnego poziomu błędu akceptowanego przez badacza. Jak to już było
zasygnalizowane wcześniej, SSN wykazują tolerancję na nieciągłości,
przypadkowe zaburzenia lub niewielkie braki w zbiorze uczącym. Jest to wynikiem
właśnie zdolności do uogólniania wiedzy.
Jednym z najczęściej wykorzystywanych algorytmów w procesie uczenia
sięci rozpoznawania obrazów jest algorytm wstecznej propagacji błędów. Metoda
ta została po raz pierwszy opublikowana przez D. Rumelharta i J. McClellanda w
1986 roku54, a jej nazwa pochodzi od propagowania błędów (modyfikacji wartości
wag) w kierunku od neuronów wyjściowych, poprzez warstwy ukryte do wag
neuronów wejściowych.
W swojej najbardziej podstawowej formie propagacja wsteczna polega na
zastosowaniu algorytmu spadku gradientu. Gradient funkcji wielu zmiennych jest
kierunkiem najbardziej stromego „wspinania się” po powierzchni błędu (rysunek
21) a więc dążeniem do maksimum funkcji. Mały krok w tym kierunku daje w
rezultacie maksymalny przyrost funkcji w porównaniu z jakimkolwiek innym
kierunkiem. Ten sam krok w przeciwnym kierunku da maksymalny możliwy
spadek wartości funkcji, czyli w tym przypadku, spadek wartości funkcji błędu
generowanej przez sieć. Obliczenie gradientu funkcji błędu umożliwia zatem
wykonywanie kroków w stronę minimum funkcji. Przedstawiona poniżej
przykładowa postać funkcji błędu w swym przekroju, ukazuje możliwość
54 D. Rumelhart, J. McClelland: Parallel Distributed Processing. Cambridge MIT Press. 1986.
112
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością „utknięcia” w minimum lokalnym. Stosując SSN należy pamiętać, iż podczas ich
uczenia koniecznym jest przeprowadzanie szeregu prób reinicjalizujących wartości
wag początkowych tak, aby rozwiązanie zawarte w oszacowanych wagach
synaptycznych nie pozostawało w punkcie minimum lokalnego, które nie stanowi
rozwiązania najlepszego z punktu widzenia rozwiązania ogólnego postawionego
problemu.
Rysunek 21
Przykładowy przekrój funkcji błędu w przestrzeni dwuwymiarowej
Źródło: opracowanie własne
Szczegóły wykorzystania algorytmu wstecznej propagacji błędów
przedstawiają się następująco55. Załóżmy, że przedmiotem uczenia będzie SSN
składająca się z L warstw. W każdej warstwie znajduje się Nk elementów, k = 1,
…, L oznaczonych jako ADik , i = 1, …, Nk , przy czym każdy element AD jest
neuronem nieliniowym na swym wyjściu. Sieć posiada również N0 wejść, na które
podawane są sygnały u1(n), …, zapisane w postaci wektora: )(nuN0
1,2,...n nunuu TN == )](),...,([
01
Sygnał wyjściowy i – tego neuronu w k – tej warstwie jest oznaczony jako yi(k)(n), i
= 1, …, Nk, k = 1,..., L. Neuron ADik ma Nk wejść tworzących wektor:
TkN
kk nxnxnxk
)](),...,([)( )()()(10 −
= ,
przy czym xi(k)(n) = +1 dla i = 0 oraz k = 1, …, L. Sygnał wejściowy neuronu ADi
k
jest powiązany z sygnałem wyjściowym warstwy k – 1 w sposób następujący:
⎪⎩
⎪⎨
⎧
==+==
= −
. L1,...,k 0,idla L2,...,kdla )(
k dla )()( )()(
1
11 ny
nunx k
i
ik
i
55 D. Rutkowska, M. Piliński, L. Rutkowski: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte. Warszawa: PWN. 1997. s. 34–38
113
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością Wagę i – tego neuronu, i = 1, …, Nk, w warstwie k łączącą ten neuron z j – tym
sygnałem wejściowym xj(k)(n), j = 0, 1, … ,Nk-1 oznaczamy jako wij
(k)(n). Wektor
wag neuronu ADik oznacza się jako:
kTk
Nik
ik
i Ni Lk nwnwnwk
,...,...,)](),...,([)( )(,
)(,
)( 1110 ===−
Sygnał wyjściowy neuronu ADik w chwili n - tej, n = 1,2,…, jest określony jako:
))(()( )( nsfny ki
ik = ,
przy czym
∑−
=
=1
0
kN
j
kj
kij
ki nxnwns )()()( )()()( .
Można zauważyć, że sygnały wyjściowe neuronów w warstwie L – tej:
)(),...,(),( nyny ny LN
LLL21 ,
są jednocześnie sygnałami wyjściowymi całej sieci. Są one porównywane z tzw.
sygnałami wzorcowymi sieci:
)(),...,(),( nd nd nd LN
LLL21 ,
w wyniku czego można sformułować postać błędów:
LL
iL
iLi Ni nyndn ,...,)()()( )()( 1=−=ε .
Dzięki temu możliwym jest określenie funkcji błędów, w rozpatrywanym przypadku
błędu typu MSE, o postaci:
∑ ∑= =
−===L LN
i
N
i
Li
Li
Li nynd
nn
nnQMSE
1 1
211 2
))()(()()( )()()(ε
Z poprzednich formuł wynika zatem, że miara błędu jest funkcją wag sieci.
Uczenie sieci polega na adaptacyjnej korekcji wszystkich wag wij(k)(n) w taki
sposób, aby miarę tą zminimalizować. Do korekcji dowolnej wagi możemy
zastosować regułę najszybszego spadku, która przyjmuje postać:
)()()()( )(
)()(
nwnQnwnw k
ij
kij
kij ∂
∂−=+ η1 ,
gdzie stała η > 0 określa wielkość kroku korekcji. Zauważając, że:
)()(
)()()(
)()(
)()( )(
)()(
)(
)()( nxns
nQnwns
nsnQ
nwnQ k
jki
kij
ki
ki
kij ∂
∂=
∂∂
⋅∂∂
=∂∂
114
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością Oznaczając następnie:
)()()(
nsnQ
ki
ki ∂
∂−=
21δ
otrzymujemy równość:
)()()()( nw jik
ij∂)( )( nxnnQ kkδ2−=∂
a zatem zapisana wcześniej reguła najszybszego spadku przyjmuje postać:
wartości wyrażenia δi(k)(n) zależy od warstwy. Dla
warstwy ostatniej jest to:
)()()()( )(()()( nxnnwnw kj
ki
kij
kij ηδ21 +=+
Sposób obliczenia
)
=∂
∂−=−=
∑=
)(
)(
)()()( )(
)(
)()(
ns
n
nsnQn L
i
N
m
Lm
Li
Li
L
1
2
21
21
ε
δδδ
=∂
−∂−=
∂∂
−=)(
))()(()()(
)(
)()(
)(
)(
nsnynd
nn
Li
Li
Li
Li
Li
2
21
21
2
εε
))((')()()( ns L
ii ∂
)()( )()()(
)( nsfnnyn Li
Li
LiL εε =
∂= .
Dla dowolnej warstwy k ≠ L otrzymujemy:
∑+
=
+
+ =∂∂
∂∂
−=−=1
1
1
121
21 kN
mk
i
km
km
Li
Li ns
nsns
nQns
nQn)()(
)()(
)()()( )(
)(
)()()(
δδδ
== +
=
+∑+
))((')()( )()()( nsfnwn ki
kmi
N
m
km
k1
1
11
δ
)()())((' )()()( nwnnsf kmi
mmi
1=
Definiując błąd
Nkk
k11
1++∑
+
= δ .
dla i –tego neuronu w k – tej warstwie (za wyjątkiem warstwy
ostatniej) jako:
∑+
+ −==1
=
1 11kN
kk Lk nwnn ,...,),()()( )()( δε ,
a następnie podstawiając powyższą formułę do wzoru na δi(k)(n) otrzymujemy:
algorytm wstecznej propagacji błędów można sformułować
następująco:
1mmimi
))((')()( )()()( nsfnn ki
ki
ki εδ = .
Ostatecznie
115
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
))(()( )( nsfny ki
ik = ,
,
nwn
Lknyndn kN
m
kmi
km
Li
Li
ki ,...,dla )()(
dla )()()( )()(
)()(
)(
δε
,
.
ość funkcji aktywacji i
reguluj
i minimów globalnych ilustruje prezentowany
wcześ
∑−
=
=1
0
kN
j
kj
kij
ki nxnwns )()()( )()()(
⎪⎩
⎪⎨⎧
−=
=−=∑
+
=
++ 111
1
11 Lk
))((')( )()()( nsfn ki
ki
ki εδ =
)()()()( )()()()( nxnnwnw kj
ki
kij
kij ηδ21 +=+
Dla dużych sieci i ciągów uczących składających się z wielu tysięcy
wektorów uczących ilość obliczeń wykonywanych podczas całego cyklu uczenia
jest gigantyczna a więc i czasochłonna. Nie zdarza się także aby sieć została
dobrze zbudowana od razu. Zawsze jest ona efektem wielu prób i błędów.
Ponadto nigdy nie mamy gwarancji, że nawet prawidłowa sieć nie utknie w
minimum lokalnym podczas gdy interesuje nas znalezienie minimum globalnego.
Dlatego algorytmy realizujące SSN wyposaża się mechanizmy dające
nauczycielowi możliwość regulacji szybkości i jakości uczenia. Są to tzw.
współczynniki: uczenia i momentum. Wpływają one na strom
ą szybkość wpływu zmiany wag na proces uczenia.
Krok korekcji η ,nazywany współczynnikiem uczenia powinien przyjmować
wartości większe (bliższe jedności) na początku procesu uczenia sieci, a
następnie należy go zmniejszać wraz z dochodzeniem do minimalizacji błędów56.
Dokładna długość kroku, ma bardzo duże znaczenie dla szybkości procesu
uczenia. Jeżeli długość ta jest za mała, to zbieżność będzie powolna, jeżeli
natomiast długość kroku będzie za duża, to wartości funkcji błędu będą
wykonywać gwałtowne skoki i nigdy nie osiągną minimum całkowitego (problem
minimów lokalnych
niej rys. 21)57.
56 Szeroki przegląd współczynników uczenia i możliwości ich zastosowania przedstawia: S. Osowski: op. cit. s. 61-68. 57 T. Masters: op. cit. s. 100.
116
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
Po drugie wyróżnia się modyfikację metody wstecznej propagacji błę ów, w
eżącego gradientu i poprzednio znalezionego kierunku. Ideą tej
modyf
ze wartości początkowe wag tworzących sieć
są wy
tem prezentacji ciągu weryfikującego z tą
różnic
d
której do rekursji )()( 1+nw kij dodawany jest dodatkowy człon nazywany momentum,
otrzymuje się zatem:
)]()([)())((')()()( )()()()()()()( 121 −−++=+ nwnwnxnsfnnwnw kij
kij
kj
ki
ki
kij
kij αηε
Wprowadzenie członu momentu umożliwia niedopuszczanie do
wykonywania żywiołowych zmian kierunków w których poszukiwane są
rozwiązania minimalizujące wartości błędów. Każdy nowy kierunek oblicza się jako
ważoną sumę bi
ikacji jest to, iż odfiltrowując szybkie lokalne fluktuacje otrzymuje się trend w
kierunku bardziej globalnego minimum, dzięki czemu znacznie przyspiesza się
proces uczenia.
Podsumowując rozważania dotyczące algorytmu wstecznej propagacji
błędów należy podkreślić, że pierws
bierane losowo i są na ogół bliskie zeru. Po nauczeniu sieci zawsze warto
dla sprawdzenia otrzymanych wyników powtórzyć całą procedurę od
wygenerowania wag początkowych
Jeżeli mamy już nauczoną sieć, musimy zweryfikować jej działanie. W tym
momencie ważne jest podanie na wejście sieci wzorców spoza zbioru
treningowego w celu zbadania czy sieć może efektywnie generalizować zadanie,
którego się nauczyła. Do tego używamy ciągu weryfikującego – testującego, który
ma te same cechy co ciąg uczący tzn. dane dokładnie charakteryzują problem i
znamy dokładne odpowiedzi. Ważne jest jednak, aby dane te nie były używane
uprzednio do uczenia. Dokonujemy za
ą, że w tym procesie nie rzutujemy błędów wstecz a jedynie rejestrujemy
ilość odpowiedzi poprawnych i na tej podstawie orzekamy, czy sieć spełnia nasze
wymagania czyli jak została nauczona.
Sztuczne sieci neuronowe są szczególnie mocno wykorzystywaną metodą
rozpoznawania w ostatnich latach. Dzieje się tak dlatego, iż istota ich działania
pozwala na osiągnięcie wyników przewyższających wyniki otrzymywane w
metodach opisanych wcześniej. Sztuczne sieci neuronowe w swej budowie oraz
procesie uczenia nie bazują bowiem na założeniach statystycznych dotyczących
danych ilościowych będących przedmiotem klasyfikacji. Poza tym algorytmy te
mają możliwość optymalnego dostosowania się do zadanego problemu osiągając
117
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością zadany z góry niewielki poziom błędów. Krytyka SSN skupia się głównie na
ogromnej liczbie obliczeń wykonywanych w procesie uczenia oraz na niemożności
zinterpretowania wartości wag synaptycznych, jednakże wady te przestają być
ążli go wspomaganego
dpowiednim oprogramowaniem.
eczywistości
upadło
rzedsiębiorstwo o dobrej kondycji finansowej zostanie
empirycznej oceny jakości reguły dyskryminującej przebiega w
– j dla obiektów o znanym
uci wymi dzięki zastosowaniu sprzętu komputerowe
o
4. Empiryczna ocena jakości klasyfikacji dychotomicznej
Zagadnienie przewidywania możliwości bankructwa przedsiębiorstwa ze
swojej metodologicznej strony skupia się na zastosowaniu metod ilościowych
umożliwiających dokonywanie klasyfikacji złożonych, wielowymiarowych obiektów.
Celem wykorzystania tych metod jest zatem rozpoznanie obiektu, którego obraz
tworzony jest przez wektor charakterystyk, będących wartościami wskaźników
finansowych, a który to wektor określa sytuację finansową spółki, i
zaklasyfikowanie firmy, przy wykorzystaniu określonej na podstawie próby uczącej
funkcji dyskryminującej, do grupy przedsiębiorstw zagrożonych bądź
niezagrożonych upadłością. Jednakże ze względu na fakt, że określenie
parametrów przyjętej funkcji dyskryminującej nastąpiło na drodze estymacji
bazującej na obiektach występujących w próbie uczącej, których to charakterystyki
mogą odbiegać od charakterystyk występujących w całej populacji, dlatego też
klasyfikacja58 obiektów spoza próby uczącej może być obarczona błędem. W tym
przypadku błąd ten będzie przyjmował formę zaklasyfikowania niezgodnego ze
stanem faktycznym, co oznacza, że przedsiębiorstwo, które w rz
zostanie zaklasyfikowane do grupy przedsiębiorstw nie zagrożonych
bankructwem, natomiast p
zaklasyfikowane do grupy przedsiębiorstw zagrożonych upadłością.
Procedura
następujących etapach59:
obliczenie wartości funkcji dyskryminujące
pochodzeniu,
58 W przypadku prognozowania bankructwa występuje konieczność dokonywania klasyfikacji dychotomicznej 59 D. Hadasik: Upadłość… . op. cit. s. 121.
118
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością – określenie na podstawie oszacowanej wartości funkcji przynależności
badanych obiektów do rozważanych populacji,
klasyfikacji,
– osz
klasyfikacji,
– we
u jednak na uniwersalny charakter
model
weryfikacji stosowane są te same
obiekty. Próba analityczna i próba walidacyjna są w tym przypadku identyczne, co
– konstrukcja tzw. macierzy trafności
acowanie na podstawie macierzy klasyfikacji empirycznych wskaźników
jakości
ryfikacja otrzymanych wartości.
Przeprowadzając powyższy proces należy mieć na uwadze następujące
zjawiska:
Po pierwsze ważne jest, aby weryfikacja otrzymanego modelu
klasyfikującego była przeprowadzana przy wykorzystaniu obiektów, które nie
stanowiły próby uczącej, a których przynależność do grup musi być znana a priori.
Grupa ta nazywana jest często grupą walidacyjną, przez co prezentowany proces
weryfikacji jakości otrzymanej reguły dyskryminującej nazywany jest również
procesem walidacyjnym. Wykorzystywanie specjalnej grupy walidacyjnej jest
podyktowane koniecznością dokonania obiektywnej oceny jakości oszacowanego
modelu. Z założenia bowiem funkcja rozdzielająca dwie rozpatrywane populacje,
której parametry zostały określone na podstawie grupy uczącej tworzonej przez
obiekty wchodzące w skład tychże populacji, winna doskonale rozdzielać obiekty
będące nauczycielami modelu. Ze względ
u, który winien rozpoznawać obiekty spoza podpopulacji będących
nauczycielem, należy rzeczywistą efektywność modelu diagnozować na podstawie
danych wykraczających poza grupę uczącą.
Po drugie, dokonanie analizy modelu klasyfikującego z wykorzystaniem
grupy walidacyjnej związane jest z koniecznością posiadania odpowiednio dużej
liczby obiektów w obu populacjach, tak aby model określany z wykorzystaniem
danych będących nauczycielem posiadał zdolność do rozpoznania wszystkich
cech charakteryzujących przynależność obiektów do obu populacji. Liczba tychże
obiektów musi być również na tyle duża, aby występowała w nim grupa obiektów
będących grupą walidacyjną, co umożliwi wnioskowanie o efektywności
praktycznego zastosowania wypracowanego modelu. W praktyce często
występującym problemem jest mała liczba zaklasyfikowanych obiektów, co
sprawia że tak do budowy modelu jak i jego
119
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością sprawia, że ocena modelu jest zawyżona i nie gwarantuje wysokiej efektywności w
przypadku weryfikacji obiektów zewnętrznych.
Konieczność empirycznej oceny efektywności wykorzystania modeli
klasyfikujących doprowadziła do wykształcenia tzw. macierzy trafności klasyfikacji
(ang. accurancy matrix)60, która umożliwia określenie odsetka błędów
powstających w procesie klasyfikacji. W tym miejscu koniecznym jest
wprowadzenie pojęcia błędu typu I oraz typu II powstających w klasyfikacji
obiektów należących do dwóch populacji. Błąd typu I określa zakwalifikowanie
obiektu należącego do populacji p1 do populacji p2, natomiast błąd typu II to
zaklasyfikowanie obiektu z populacji p2 do populacji p1. Macierz trafnośc
klasy rozp
Przynależ ć obiektu do populacji stawie
eprowadzonej klasyfik
i
fikacji ma w atrywanym przypadku następującą postać:
noprzś na
acji podRzec sta
ależ obiektu do populacji P1 p2
Liczebno róby w danej populacji
zyność
wi ść pprzyn
p1 n11 n12 N1p2 n21 n22 N2
W powyższej macierzy poprzez p1 oraz p2 zostały oznaczone dwie
populacje do których zaklasyfikowane mają zostać rozpoznawane obiekty,
natomiast poprzez nmn oznaczono liczbę obiektów zaliczonych do poszczególnych
pozycji macierzy. I tak poprzez n11 oznaczono liczbę obiektów pochodzących z
populacji p1, które na podstawie oszacowanej wartości funkcji dyskryminującej
zostały zaklasyfikowane również do populacji p1. Przez n22 oznaczono natomiast
liczbę obiektów pochodzących z populacji p2, które również na podstawie
oszacowanej wartości funkcji dyskryminującej zostały zaklasyfikowane do
populacji p2. Oznacza to, iż liczebność obiektów na głównej przekątnej macierzy
trafności klasyfikacji określa ilość poprawnych klasyfikacji obiektów. Inaczej
przedstawia się sytuacja w przypadku liczebności n12 oraz n21. Pierwsza z tych
wartoś
mpirycznej poprawności
posiadanej reguły klasyfikacyjnej. I tak, ogólną trafność przeprowadzonej
klasyfikacji obliczymy za pomocą następującej formuły:
ci określa liczbę popełnionych błędów typu I, druga natomiast to liczebność
obserwacji, przy których klasyfikacji popełniony został błąd typu II.
Powyższe wartości umożliwiają określenie e
60 E. Altman: Corporate Bankruptcy Prediction. A Discriminant Analysis. New York&London: Gerland Publishing 1988. s. 66.
120
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
Nnn 2211 +=ϕ ,
gdzie:
=2
N
Całkowity odsetek błędnych klasyfikacji można obliczyć wykorzystując
proste
∑∑= =1
2
1n mnmn – oznacza łączną liczbę obiektów stanowiących grupę walidacyjną.
przekształcenie:
ϕ−=ϕ 1B' .
porównań różnych metod klasyfikacji
obiektów są współczynniki określające odsetek popełnionych błędów typu I i II. Ich
wartość obliczymy za pomocą wzoru:
Otrzymana wartość pozwoli na określenie jak duży poziom błędów generuje
oszacowana formuła klasyfikująca.
Często wykorzystywanymi do
1
12
Nn
I =ϕ' ,
oraz
2N
gdzie:
21nII =ϕ' ,
2
ony
minimalne wartości funkcji rozdzielającej dla przedsiębiorstw funkcjonujących i
maksymalne wartości tejże funkcji dla przedsiębiorstw bankrutów (rysunek 1).
N1 , N – oznaczają liczebności obiektów w populacjach p1 oraz p2
należących do grupy walidacyjnej.
Występowanie błędów w klasyfikacji obiektów sprawia, iż możliwym staje
się określenie tzw. sfery niepewności, czy też szarej strefy. Strefa ta ograniczona
jest przedziałem (Zpfmin , Zpu
max), którego skrajnymi wartościami są z jednej str
121
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
Rysunek 22
Problem „szarej strefy”– tj. występowania błędów klasyfikacji generowanych przez
ródło: opracowanie własne na podstawie: W. Tarczyński: Analiza yskryminacyjna na giełdzie papierów wartościowych. „Przegląd Statystyczny”
asyfikowanych. W takim wypadku decyzja co do zaklasyfikowania
doprowadził do wykształcenia metod pozwalających na oszacowanie tzw. punktu
Przedsiębiorstwaupadłe
Przedsiębiorstwafunkcjonujące
Szara strefa
ZdpfZmin
puZmax
otrzymaną regułę klasyfikującą
Źd1996. nr 1- 2. s. 63.
Określenie przedziału strefy niepewności możliwe jest po dokonaniu oceny
jakości klasyfikacji funkcji dyskryminującej za pomocą próby walidacyjnej.
Znajomość rzeczywistej przynależności obiektów składających się na tą grupę
umożliwia bowiem wskazanie przedziału wartości funkcji, w których decyzje co do
przynależności obiektu do grupy nie mogą być podjęte. Dzięki wartościom
przedziału tworzącego szarą strefę możliwe jest uniknięcie podjęcia błędnych
decyzji określających przynależność do rozpatrywanych populacji obiektów
jeszcze nieskl
obiektu nie jest podejmowana w celu uniknięcia ewentualnych błędów
klasyfikacji61.
Problem występowania strefy niepewności oraz niemożność podejmowania
decyzji w określonym przedziale wartości funkcji dyskryminującej (rozdzielającej)
61 Należy zwrócić uwagę na problem kosztów związanych z błędną klasyfikacją obiektów. W przypadku problemu prognozowania upadłości przedsiębiorstw koszty błędnej klasyfikacji zależą od wykorzystania narzędzia jakim jest model klasyfikujący firmy ze względu na możliwość ich upadku. Jednym z najbardziej znanych zastosowań jest zatem wykorzystanie modeli jako narzędzi określających zdolność przedsiębiorstwa do zaciągania kredytów inwestycyjnych. W tym przypadku błędna decyzja typu I (podjęcie decyzji obciążonej błędem typu I) oznacza możliwość wystąpienia strat związanych z niespłaceniem zaciągniętego kredytu, koszty takiej decyzji są zatem wysokie. Podjęcie błędnej decyzji typu II to nie udzielenie kredytu przedsiębiorstwu dobrze funkcjonującemu i zaklasyfikowanie go do grupy przedsiębiorstw – bankrutów. W tym przypadku możemy mówić o kosztach utraconych korzyści, gdyż bank lub inna instytucja finansująca nie osiągnie dochodów z tytułu płaconych przez kredytobiorcę odsetek, jednakże rzeczywiste koszty błędnej decyzji wydają się być mniejszymi niż w pierwszym przypadku.
122
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością krytycznego62 (ang. cutoff point). Oszacowanie tego punktu jest jednak związane z
przyjęciem szeregu założeń dotyczących np. występowania rozkładu normalnego
wartości funkcji dyskryminującej dla populacji firm funkcjonujących jak i
bankrutujących. Poza tym w literaturze z krytyką spotykają się następujące
czynniki: fakt określania punktu krytycznego ex post, określanie jego wartości na
podstawie testu wielkości błędów otrzymanych z próby bez posługiwania się
modelami statystycznymi oraz fakt występowania niejednorodnych
prawdopodobieństw upadku w posiadanej próbie i w całej populacji63. Niekiedy do
określenia wielkości błędu wykorzystywane są takie parametry jak koszt podjęcia
błędnych decyzji64. W takich warunkach problem ten sprowadza się do
zastosowania szczególnego przypadku bayesowskiej teorii minimalizacji
średniego ryzyka błędu, a konkretnie do minimalizacji średnich kosztów podjętych
decyzji, w przypadku kiedy ustalone są straty powstające w wyniku popełnienia
określonych błędów oraz koszty poprawnego postępowania po podjęciu
prawidłowej decyzji65. Jednak i tu wadą jest konieczność występowania rozkładu
normalnego wartości funkcji dyskryminującej jak również konieczność znajomości
wielkości kosztów odpowiadających konkretnym decyzją. Na uwagę zasługuje
również fakt, iż nie we wszystkich metodach klasyfikacji możliwe jest oszacowanie
tej wartości. Znajomość wartości przedziału „szarej strefy” jest niezbędna
szczególnie w praktycznych zastosowaniach rozpatrywanych modeli, kiedy to
obiektami klasyfikowanymi są przedsiębiorstwa, dla których wartość funkcji
dyskryminującej stanowić może diagnozę ich obecnej kondycji finansowej i formę
antycypowania o zagrożeniu upadłością. W takim przypadku konsekwencje
błędów w dokonywanej klasyfikacji przedsiębiorstwa mogą odbić się na dalszym
funkcjonowaniu podmiotu. W niniejszym opracowaniu wyniki klasyfikacji
62 Szerzej o problemach związanych z wyznaczaniem punktu krytycznego: E. I. Altman: Corporate Financial Distress and Bankruptcy. New York: Wiley 1993. s. 254-264; jak również: R.A. Eisenbies, R.B Avery: Discriminant Analysis and Classification Procedures. Theory and Applications. Toronto&London: Lexington Books. 1972. s. 21-25.
65 R. Tadeusiewicz, C. Kulik: Elementy cybernetyki ekonomicznej. Kraków: Wydawnictwo Akademii Ekonomicznej w Krakowie. 1974. s. 1984.
63 S.J. Hsieh: A Note on the Optimal Cutoff Point in Bankruptcy Prediction Models. Journal of Business Finance & Accounting. 20(3), April 1993. S 457-463. 64 Szczegółowe badania przeprowadzone przez H. C. Koh(H. C. Koh: The Sensitivity of Optimal Cuttoff Points to Misclassification Coast of Type I and Type II Errors in the Going-Concern Prediction Context. Journal of Business Finance & Accunting. 19(2). January 1992. S. 187-198.) pozwoliły wykazać, iż aczkolwiek na optymalną wartość punktu krytycznego wpływ mają koszty błędnych klasyfikacji (ang. misclassification coasts) to jednak wpływ ten jest niewielki. Optymalny punkt krytyczny jest raczej nieczuły, jak wskazuje H. C. Koh, na zmiany stosunku kosztów związanych z popełnieniem błędu I typu, do kosztów związanych z popełnieniem błędu typu II. Wyniki przeprowadzonych badań wskazały, że optymalna wartość punktu krytycznego nie zmieniała się dla stosunku kosztów I typu do kosztów II typu w zakresie od 1:1 aż do 1:71. Oznacza to, że nawet wysokie dysproporcje w stosunku wartości obu rodzajów kosztów posiadają znikomy wpływ na zmiany wartości punktu krytycznego.
123
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością przedstawiane będą wraz z wartościami przedziału określanego mianem strefy
nie wyznaczenie
unktu krytycznego jako połowy wielkości pomiędzy wartościami granicznymi.
odejściem do
ych. Jak bowiem wykazały badania przeprowadzone na
wiecie, których podsumowanie zawarte jest w punkcie następnym, efektywność
chże modeli obok jakości danych ilościowych jest również uzależniona od samej
etody obliczeniowej.
niepewności. Do klasyfikacji testowej obiektów przyjęte zosta
p
5. Porównawcza analiza metod rozpoznawania z nauczycielem
Omówione wyżej metody charakteryzują się zróżnicowanym p
problemu rozpoznawania z nauczycielem. Różnice te wynikają tak z idei działania
samych algorytmów, jak również ze statystycznych założeń, których przyjęcie
stanowiło podstawę ich zbudowania. Różnice te prezentuje tabela 7.
Zróżnicowanie omówionych niżej metod jest przyczyną dla której
koniecznym wydaje się być określenie efektywności ich zastosowania w
zagadnieniu jakim jest przewidywanie zagrożenia upadłością w polskich
warunkach gospodarcz
ś
ty
m
124
„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu
zagrożenia upadłością
Tabela 7
Porównawcza analiza ilościowych meAnaliza dyskryminacyjna (LDA)
tod przewidywania zagrożLogit, Probit
enia bankructwem Sztuczne sieci neuronowe
(SSN) Opis
Idea działalgorytmu
ania dstawie
okonanych porównań z artościami rzeczywistymi,
klas
rawdopodobieństwo zajścia kreślonego zdarzenia
rozp
awania biektów na podstawie formacji zawartych w
Budowa funkcji, której wartości umożliwiają, na podwokreślenie przedziałów
yfikujących obiekty
Budowa algorytmu określającego pozaklasyfikowania obiektów do
atrywanych populacji
Uczenie się rozpoznoinpróbie będącej nauczycielem
Przzałożenistatystyc ne: – dan
bada cze,
modelu
– u
ady wektorów losowych X mają
ści o wielowymiarowym rozkładzie normalnym,
–
ści pozwala na
ożeń
–
ogistycznego (Logit) lub rozkładu
brak założeń co do aci rozkładów
danych,
ymaeci,
– unormowane w
yjęte a ze w
– postać analityczna
– sygnaływyjściowe
dla obiektów z obpopulacji rozkł
dane funkcje gęsto
– funkcja liniowa,
– nie są unormowane i mogą
przybierać dowolne wartości,
założenie występowania liniowości logarytmu naturalnego ilorazu
post
wiarygodnouwolnienie się od załdotyczących postaci rozkładów w obu klasach, funkcja prawdopodobieństwa wykorzystuje dystrybuantę rozkładu l
normalnego (Probit), – unormowane w przedziale
[0, 1],
–
– określenia w ga
jedynie architektura si
przedziale [0, 1],
Znajomość postaci funkcji (powierzchni) rozdzielabadane grupy
jącej
Zakłada się występowanie liniowej postaci funkcji rozdzielającej obiekty należące do dwóch grup
Brak założeń co postaci funkcji rozdzielającej
Brak założeń co postaci funkcji rozdzielającej
Występowanie w Wystąpienie braków w danych w danych opisujących
u
braków danych opisujących obiekty
opisujących obiekty uniemożliwia dokonania prawidłowe klasyfikacji obiektu
Wystąpienie braków w danych opisujących obiekty uniemożliwia dokonania prawidłowej klasyfikacji obiektu
Brakiobiekty nie stanowią przeszkody w dokonaniu klasyfikacji obiekt
Sposób nabywania wiedzy przez
Uczenie się poprzez dostosowanie parametrów funkcji do danych tworzących
się poprzez Nabywanie wiedzy poprzez uczenie się i
model grupę będącą nauczycielem
Uczenie znalezienie ekstremum funkcji pozwalającej na określenie prawdopodobieństw klasyfikacji obiektów
zapamiętywanie poprawnych wyników
Możliwości W zakresie postaci analitycznej yjnej (np. sie przyjętych metod
rozwiązywania równań nieliniowych (met. Newtona, quasi – Newtona, Marquardta itp.).
y sieci, funkcji aktywacji, funkcji błędu, algorytmy uczącego.
W zakresie postaci przyjętych dystrybuant: rozkładu logistycznego, normalnego; w zakre
W zakresie architektur
modyfikacji algorytmów
funkcji dyskryminacfunkcja kwadratowa).
Źródło: opracowanie własne
125