5. Prognozowanie upadłości przedsiębiorstwa - Rozdział III

„Prognozowanie upadłości przedsiębiorstwa” Rozdział 3: Przegląd i ocena wybranych metod ilościowych wykorzystywanych w rozpoznawaniu

zagrożenia upadłością Rozdział III Przegląd wybranych metod ilościowych wykorzystywanych w rozpoznawaniu zagrożenia upadłością

1. Podstawy statystycznej teorii rozpoznawania obrazów a proces prognozowania upadłości przedsiębiorstwa

Proces przewidywania zagrożenia upadłością opiera się na rozpoznaniu

obecnej sytuacji przedsiębiorstwa i jej ocenie poprzez zakwalifikowanie badanej

jednostki do grupy przedsiębiorstw zagrożonych bądź też niezagrożonych

bankructwem. Wykorzystane wyżej pojęcia – rozpoznanie, klasyfikacja – nie są

jednak przypadkowe. Wskazują one bowiem na zakres metod stosowanych w

prognozowaniu bankructwa, które to metody określane są mianem statystycznej

teorii rozpoznawania obrazów.

Ogólnie rzecz traktując, zagadnienie rozpoznawania sprowadza się do

problemu klasyfikacji rozpatrywanych obiektów. Należy bowiem dokonać podziału

zbioru rozpatrywanych obiektów tzn. dla każdego obiektu należy rozpoznać klasę,

do której ten obiekt należy”1. Rozpoznawaniem obrazów nazywamy zatem

podjęcie decyzji, która polega na ustaleniu przynależności nowego, dotychczas

nie rozpatrywanego obiektu, do danej klasy obiektów (obrazu) przez

porównywanie właściwości danego obiektu z cechami znanymi i zbadanymi. Przez

pojęcie klasy rozumie się zbiorowość obiektów lub zjawisk, które charakteryzują

się pewnymi wspólnymi właściwościami (bliskimi ze względu na zbiór pewnych

cech)”2. Można zatem stwierdzić, że dziedzina wiedzy określana rozpoznawaniem

obrazów wyrasta z pojęcia klasyfikacji, które to w sensie teorio – mnogościowym

oznacza podział danego zbioru na pewną liczbę rozłącznych podzbiorów. Podziału

takiego dokonuje się na podstawie relacji równoważności (w przypadku

zastosowań praktycznych często zwanej relacją podobieństwa), a otrzymane

podzbiory nazywa się klasami abstrakcji (klasami podobieństw, klasami

jednorodności, itp.). Czynność polegającą na przyporządkowaniu jakiegoś

indywidualnego obiektu do określonej klasy podobieństwa nazywa się

1 K. Jajuga: Statystyczna teoria rozpoznawania obrazów. Warszawa: PWN. 1990. s. 30. 2 BB. Rozin: Teoria rozpoznawania obrazów w badaniach ekonomicznych. Warszawa: PWN. 1979. s. 39.

76


zagrożenia upadłością rozpoznaniem tego obiektu3. Jeśli natomiast klasy równoważności (podobieństwa)

stanowią obiekty nie abstrakcyjne, lecz konkretne, poznawalne przez narządy

zmysłu lub podlegające pomiarom, to klasę taką nazywa się obrazem,

rozpoznawanie obiektów – rozpoznawaniem obrazów4.

Każde zadanie określane nazwą rozpoznawania obrazów można określić

za pomocą czterech podstawowych pojęć, czy też inaczej mówiąc, każde takie

zadanie, w tym również zadanie rozpoznawania zagrożenia bankructwem,

wymaga określenia czterech elementów, podjęcia czterech następujących

decyzji5:

1. Ustalenie elementów zbioru obrazów, wzorców, obszarów, które z pewnego

punktu widzenia uznajemy za jednorodne oraz wskazanie co stanowi

przedmiot rozpoznawania.

W przypadku procesu prognozowania zagrożenia bankructwem etap ten

polega na odseparowaniu przedsiębiorstw zagrożonych i niezagrożonych

upadłością ze względu na zróżnicowaną sytuację finansową oraz na

wskazaniu, iż przedmiotem rozpoznania będzie właśnie kondycja finansowa

przedsiębiorstw.

2. Dokonanie wyboru własności obiektów, które będą badane, tj. wyboru cech,

zmiennych charakteryzujących pojedynczą realizację obrazu.

Zmiennymi charakteryzującymi obiekty są w rozpatrywanym zagadnieniu

wskaźniki finansowe. Na tym etapie koniecznym jest również dokonanie

selekcji wskaźników pod kątem ich zdolności do obrazowania przedmiotu

rozpoznawania.

3. Przyjęcie reguły decyzyjnej, zasady, zgodnie z którą podejmowane będą

decyzje, do jakiego obrazu należy zaliczyć wybraną w przestrzeni realizację.

Przez regułę decyzyjną należy rozumieć metodę umożliwiającą oszacowanie

modelu stanowiącego narzędzie rozpoznawania kondycji przedsiębiorstw.

Reguła ta, będącą funkcją określonych w etapie wcześniejszym zmiennych

umożliwi generowanie wartości dyskretnej zmiennej objaśnianej o charakterze

binarnym.

3 W. Ostasiewicz: Dyskryminacja, klasyfikacja, rozpoznawanie. Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Nr 165(187). 1980. s. 95. 4 J. L. Kulikowski: Cybernetyczne układy rozpoznające. Warszawa: PWN. 1972. s. 11. 5 J. Kolonko: Analiza dyskryminacyjna i jej zastosowania w ekonomii. Warszawa: PWN. 1980. s. 14.

77


zagrożenia upadłością 4. Ustalenie wielkości strat spowodowanych błędami klasyfikacji. W tym miejscu

należy również wybrać sposób pomiaru strat oraz dopuszczalną ich wielkość.

Odsetek błędów generowanych przez model szacuje się jako stosunek

błędnych klasyfikacji do łącznej liczby rozpoznawanych obiektów.

W świetle powyższego, koniecznym jest powiązanie procesu wnioskowania

o możliwości bankructwa z ogólnymi założeniami teorii rozpoznawania obrazów.

W tym celu wygodnie jest posłużyć się rysunkiem 10. Każdy punkt ograniczonego

obszaru na rysunku 10 obrazuje przedsiębiorstwa różne pod względem ich

sytuacji finansowej. Krzywa I dzieli zaznaczony obszar zgodnie ze stanem

faktycznym na klasy przedsiębiorstw A1 i A2, których sytuacja finansowa wskazuje,

na podstawie przeprowadzonych wcześniej analiz6, na zagrożenie bankructwem i

przedsiębiorstw o dobrej sytuacji finansowej, natomiast krzywa II dzieli ten sam

obszar na klasy o analogicznym znaczeniu z tym, że ich podział nastąpił na

podstawie sygnałów decyzyjnych wygenerowanych przez model klasyfikujący.

Obszary oznaczone na rysunku przez B1 oraz B2 reprezentują zbiory błędnych

decyzji. Obszar B1 przedstawia zbiór błędnych decyzji typu I, czyli

zakwalifikowanie przedsiębiorstwa – bankruta jako przedsiębiorstwa o dobrej

kondycji finansowej(zaklasyfikowanie do grupy A2). Obszar B2 to zbiór błędnych

decyzji typu II, czyli zakwalifikowanie przedsiębiorstwa o dobrej kondycji

finansowej jako potencjalnego bankruta. Idealną procedurę klasyfikującą stanowić

będzie oczywiście taki model, który nie wygeneruje błędnych decyzji (w takim

przypadku krzywe I i II winny się pokrywać), dzięki czemu umożliwiał będzie

przeprowadzenie doskonałej dyskryminacji badanej grupy przedsiębiorstw.

Pod pojęciem dyskryminacji rozumie się znalezienie reguły, za pomocą której

można rozdzielić obiekty należące do różnych klas. Jeżeli obiekty dwóch klas

traktowane są jako punkty w przestrzeni wielowymiarowej7, to regułą taką może

być np. przekształcenie liniowe tej przestrzeni na prostą tak, aby punkty leżące na

lewo od pewnego ustalonego punktu prostej zaliczały się do jednej klasy, a punkty

leżące na prawo do drugiej klasy8. Podstawowymi warunkami stosowania metod

6 Proces uczenia dla różnych metod ilościowych został szczegółowo opisany w dalszej części niniejszego rozdziału. 7 Należy podkreślić, że problematyka prognozowania bankructw w swym metodologicznym zakresie skupia się właśnie na dokonywaniu dychotomicznego podziału wielowymiarowych obiektów (przedsiębiorstw opisywanych za pomocą szeregu wskaźników finansowych). 8 W. Ostasiewicz: Dyskryminacja… op. cit. .s. 96.

78


zagrożenia upadłością dyskryminacyjnych są zatem posiadanie informacji o ilości klas oraz o

przynależności elementów próbkowych do tych klas, a także występowanie teorii

stanowiącej podstawę dyskryminacji zbiorów, mierzalność oraz posiadanie

odpowiedniego zbioru danych statystycznych.

Rysunek 10.

Związek między rzeczywistą strukturą przedsiębiorstw a klasami wytypowanymi przez funkcję klasyfikującą

podział faktyczny

decyzje

B1

B2

I II

D1={x∈A1} D2={x∈A2}

x∈A1 x∈A2

A1 A2

Źródło: opracowanie własne na podstawie: J. Kolonko: Analiza dyskryminacyjna i jej zastosowania w ekonomii. Warszawa: PWN. 1980. s. 54.

Mówiąc o informacji a priori dotyczącej przynależności określonych

elementów do klas w celu zbudowania reguły klasyfikującej koniecznym wydaje

się być wskazanie na powiązanie algorytmicznego uczenia modeli

umożliwiających rozpoznawanie wielowymiarowych obiektów z procesem uczenia

się człowieka. Ogólnie można wskazać dwa sposoby uczenia ludzi rozpoznawania

obrazów. Sposób pierwszy jest związany z tym, że nauczyciel nie tylko potrafi

rozpoznawać obiekt, ale przemyślał, jak należy to robić w każdym konkretnym

przypadku. Wiedząc jakie obiekty będzie uczeń klasyfikował, nauczyciel wyjaśnia

mu, jak to należy robić, czyli zadaje algorytm klasyfikacji. W drugim sposobie

proces uczenia jest oparty na nieznanych dotychczas mechanizmach mózgowych.

Jeżeli przedstawić uczniowi wiele przykładów liter „a” i „b”, napisanych różnymi

charakterami pisma, i pokazywać je uczniowi nie znającemu liter, mówiąc tylko „to

jest a” i „to jest b”, nie podając przy tym żadnej informacji, w jaki sposób należy

rozróżniać litery, to po pewnym czasie będzie on w stanie odróżniać „a” od „b”, i to

79


zagrożenia upadłością nie tylko spośród elementów pokazywanego zbioru9. Główny problem w

rozpoznawaniu obrazów leży właśnie na płaszczyźnie określania zasady, na

podstawie której pewne obiekty mogą być uznane za „podobne” do siebie10.

Trudności w wykrywaniu reguł umożliwiających rozpoznawanie i klasyfikację

obiektów wielowymiarowych z szerokiego zakresu dziedzin nauki (jak medycyna,

antropologia, ekonomia, itp.) sprawiły, iż koniecznym stało się wypracowanie

metod, umożliwiających rozwiązywanie tego typu problemów przy całkowitym lub

jedynie niewielkim udziale człowieka.

I tak, nawiązując do wcześniejszych rozważań dotyczących procesu

uczenia się człowieka wyróżniono dwa ogólne przypadki rozpoznawania:

rozpoznawanie z nauczycielem i rozpoznawanie bez nauczyciela. Pierwszy proces

– rozpoznawanie z nauczycielem – realizowany jest w dwóch etapach: na etapie

uczenia i rozpoznawania. Na etapie uczenia występuje sklasyfikowana próba

ucząca, nazywana tak dlatego, że oprócz wartości m – wymiarowego wektora

cech poszczególnych obiektów tej próby, posiadana jest również informacja

dotycząca przynależności obserwacji do określonej klasy. Na etapie uczenia, na

podstawie informacji zawartych w próbie uczącej określane są charakterystyki

wszystkich klas. Z kolei na etapie rozpoznawania dokonywana jest klasyfikacja

próby rozpoznawanej, tzn. dla każdego obiektu próby określana jest klasa, do

której on należy11.

W przypadku rozpoznawania bez nauczyciela, kiedy występuje jedynie

próba rozpoznawana, przeprowadzany jest proces uczenia za pomocą

odpowiedniej dla tego zadania metody. Gdy brakuje informacji a priori określającej

przynależność obiektów do klas, wówczas algorytmy rozpoznawania obiektów

wykorzystują zasadę samouczenia, która z kolei w większości przypadków opiera

się na zasadach tzw. analizy skupień. Dlatego też często metody samouczenia się

algorytmów rozpoznawania utożsamiane są z metodami wyodrębniania skupień

jednorodnych. Spośród różnych metod wyodrębniania skupień najczęściej stosuje

się metody bazujące na pojęciu najkrótszej sieci połączeń, zwanej dendrytem.

Metody te określane są mianem metod taksonomicznych. W takim wypadku na

9 M .A. Ajzerman, E. M. Brawerman i L. I. Rozonoer: Rozpoznawanie obrazów. Metoda funkcji potencjałowych. Warszawa: WNT. 1976. s. 14. 10 B. B. Rozin: Teoria… . op. cit. s. 22. 11 K. Jajuga: Statystyczna … . op. cit. s. 32.

80


zagrożenia upadłością podstawie posiadanej próby wyodrębniane są klasy będące podzbiorami

(podprzestrzeniami) punktów w jakimś sensie jednorodnych i na tej podstawie

aproksymowana jest funkcja f.12

Specyfika prognozowania upadłości przedsiębiorstwa, a także charakter

wykorzystywanych do tego celu danych ilościowych sprawiają, że w procesie

takim wykorzystywane są metody rozpoznawania z nauczycielem.

2. Dobór zmiennych i redukcja wymiarów13

Obiekty mające podlegać klasyfikacji charakteryzowane są zwykle za

pomocą dużej liczby cech. Interpretacja geometryczna obiektów i

odpowiadających im cech rozpatruje te elementy jako punkty wielowymiarowych

przestrzeni, których wymiar zależny jest od ilości cech opisujących obiekt. Zadanie

rozpoznawania w takich warunkach sprowadza się do aproksymacji powierzchni

rozdzielającej skupiska jednorodnych pod względem danego kryterium

wielowymiarowych obiektów. Takie podejście jest wystarczające jeśli obrazy są

dość proste, tj. obszary, które należy rozdzielić są wewnętrznie dostatecznie

zwarte, a jednocześnie „rozrzucone” w przestrzeni i kiedy powierzchnie

rozdzielające nie są zbyt „wymyślne”14. W przypadkach bardziej złożonych

zachodzi zwykle konieczność wstępnego uproszczenia zadania rozpoznawania

poprzez obniżenie (redukcję) wymiaru pierwotnej przestrzeni. Redukcja taka

winna posiadać jednak minimalny wpływ na ogólny potencjał informacyjny zawarty

w cechach opisujących badane obiekty.

Należy zwrócić również uwagę na inny aspekt tego zagadnienia. Tam gdzie

stosuje się metody rozpoznawania obrazów, dana jest zwykle skończona liczba

cech (wymiarów) charakteryzujących każdy obiekt. Jednak niektóre z cech, z

punktu widzenia rozpoznawania, zawierają więcej informacji niż pozostałe15.

Można również stwierdzić, iż niektóre cechy mogą posiadać tak wysokie

zróżnicowanie swoich wartości pomiędzy homogenicznymi grupami, że ich

12 W. Ostasiewicz: Dyskryminacja … . op. cit. s. 97. 13 Niniejszy punkt stanowi nawiązanie do punktu 5.1. rozdziału 2 rozprawy, w zakresie ilościowych metod doboru wskaźników finansowych do modeli przewidujących zagrożenie upadłością. 14 M. A. Ajzerman, E. M Brawerman, L. I. Rozonoer: Rozpoznawanie obrazów. Metoda funkcji potencjałowych. Warszawa: WNT. 1976. s. 25. 15 B. B. Rozin: Teoria rozpoznawania obrazów w badaniach ekonomicznych. Warszawa: PWN. 1979. s. 47.

81


zagrożenia upadłością występowanie utrudniało będzie proces klasyfikacji obiektów, a co za tym idzie ich

występowanie w zbiorze cech opisujących obiekty jest zbędne. Dlatego też

minimalizację opisu można sformułować jako przekształcenie pierwotnej

przestrzeni cech w pewną inną przestrzeń nie doprowadzającą jednak do

istotnego zwiększenia wartości funkcji straty (wielkości błędnych klasyfikacji),

dzięki czemu nowy wymiar przestrzeni jest znacznie mniejszy niż przestrzeni

pierwotnej.

Możliwość redukcji wymiarów niesie za sobą również korzyści kosztowe.

Zbieranie szeregu danych tworzących charakterystyki obiektów jest często wysoce

pracochłonne, czasochłonne jak i kapitałochłonne. W związku z tym ograniczenie

liczby zmiennych umożliwiających rozpoznawanie obiektów wiąże się ze

znacznymi oszczędnościami powyższych trzech parametrów, co występuje jednak

w procesie rozpoznawania obiektów dla których to posiadana jest już reguła

rozpoznająca wraz z charakteryzującymi ją zmiennymi. W procesie uczenia jednak

niezbędnym jest posiadanie maksymalnie szerokiego spektrum poprawnych

merytorycznie i odpowiadających nadrzędnemu kryterium klasyfikacji danych,

które dzięki odpowiednio przeprowadzonym procesom ich weryfikacji umożliwią

wyselekcjonowanie optymalnego zbioru cech.16

Wśród metod redukcji wymiarów należy wymienić takie jak analiza

głównych składowych, analiza czynnikowa, analiza zgodności17 oraz metody

nowsze jak algorytmy genetyczne18 i metody bazujące na współczynniku lambda

Wilksa zwane metodami krokowymi.

Szczególnie te ostatnie, umożliwiające testowanie wpływu poszczególnych

cech na zdolność określonego ich zestawu do dyskryminowania populacji19

znajdują zastosowanie w zagadnieniach związanych z klasyfikacją

wielowymiarowych obiektów. Metody te, jak analiza krokowa w przód (ang.

stepforward analysis) oraz analiza krokowa w tył (ang. stepbackward analysis)

16 Por. Application of Classification Techniques in Business, Banking and Finance. Greenwich, Connecticut: 1981. s. 145. 17 Obszerny opis tych metod zawarty jest w: W. Sobczak, W. Malina: Metody selekcji i redukcji informacji. Warszawa: WNT. 1985.; T. Grabiński, S. Wydmus, A. Zeliaś: Metody doboru zmiennych w modelach ekonometrycznych. Warszawa: PWN. 1982, E. Nowak: Problemy doboru zmiennych do modelu ekonometrycznego. Warszawa: PWN. s. 1984. 18 O wykorzystaniu algorytmów genetycznych do redukcji ilości informacji piszą: T. D. Gwiazda: Algorytmy genetyczne. Zastosowania w finansach. Warszawa: Wydawnictwo Wyższej Szkoły Przedsiębiorczości. 1998, oraz D. Rutkowaska, M. Piliński, L. Rutkowski: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte. Warszawa: PWN 1997. 19 Bazą dla tych metod był wspomniany już wcześniej test F.

82


zagrożenia upadłością umożliwiają wskazanie optymalnego zestawu cech dyskryminujących

rozpatrywane obiekty.

Punktem wyjścia tych metod jest obliczenie statystyki lambda Wilksa o

postaci20:

)det()det(

TW

=Λ ,

gdzie:

det (T) – wyznacznik macierzy ogólnogrupowej wariancji-kowariancji,

det (W) – wyznacznik macierzy wewnątrzgrupowej wariancji-kowariancji,

Posiadając zatem dwie macierze obserwacji P1, P2 (zmienna objaśniana

jest skokowa i zero - jedynkowa), charakteryzujące się N (i=1,2, …, N)

obserwacjami o M (j=1,2, … , M) cechach, otrzymujemy:

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

−−−

−−−=

∑∑∑∑

∑∑∑∑

= == =

= == =N

i

M

jPijPPijP

N

i

M

jPijP

PijP

N

i

M

jPijP

N

i

M

jPijP

XXXXXX

XXXXXXT

1 1

2

1 1

1 11 1

2

222211

221111

)()()(

)()()(,

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

−−−

−−−=

∑∑∑∑

∑∑∑∑

= == =

= == =N

i

M

jjPijPjPijP

N

i

M

jjPijP

jPijP

N

i

M

jPijP

N

i

M

jjPijP

XXXXXX

XXXXXXW

1 1

2

1 1

1 11 1

2

222211

221111

)()()(

)()()(

gdzie:

XijP1,2 – określa wartość poszczególnej cechy w danej macierzy.

Oszacowana za pomocą wyznaczników statystyka Λ przyjmuje wartości z

przedziału <0,1>. Im większa część ogólnej zmienności wyjaśniana jest przez

zmienność międzygrupową (macierz wariancji-kowariancji międzygrupowej B,

można obliczyć: B=T-W) tym wielkość statystyki Λ jest bliższa zeru i świadczy o

dużej zdolności dyskryminacyjnej modelu opartego na danych cechach. Wartość

statystyki bliska 1 oznacza zupełny brak dyskryminacji, innymi słowy nie ma

istotnego zróżnicowania zmiennych w rozważanych populacjach, a prawie cała ich

20 Zastosowanie analiz krokowych i wykorzystanie w nich statystyki lambdy Wilksa przedstawione zostało szczegółowo przez: C. R. Rao: Advanced Biometrics Methods in Biometric Reaserch. New York: Wileys. 1952. s. 372-373

83


zagrożenia upadłością zmienność wyjaśniona jest przez zmienność wewnętrzgrupową21. W przypadku

gdy wartość Λ jest bliska 1, wtedy zdecydowanie przewyższa wariancja

wewnątrzgrupowa, co oznacza także, że średnie w populacjach niewiele się różnią

od średniej ogólnej, co z kolei można interpretować mówiąc, że rozpatrywane

populacje, przy uwzględnieniu danych cech, nie są rozróżnialne22.

W celu przeprowadzenia wymienionych wyżej procedur koniecznym jest

również oszacowanie cząstkowej wartości lambdy Wilksa będącej stosunkiem

lambdy Wilksa po dodaniu nowej cechy (lub jej odjęciu) do lambdy Wilksa przed

dodaniem (lub odjęciem) tejże zmiennej, co można zapisać jako:

0

1

ΛΛ

=Λ j' ,

Lambda cząstkowa jest zatem multiplikatywnym przyrostem lambdy, który

wynika z dodania lub odjęcia odpowiedniej cechy Xj. Dla obliczonych wyżej

wartości obliczana jest odpowiadająca im statystyka F o postaci23:

)'

')((

j

j

PMPNF

ΛΛ−

−−−

=1

1,

gdzie:

N – liczba obiektów,

P – liczba grup,

M – liczba cech.

Wymienione na wstępie krokowe metody doboru zmiennych do modeli jak

analiza krokowa w przód oraz analiza krokowa w tył, pozwalają określić zdolność

dyskryminacyjną poszczególnych zmiennych występujących w modelu. Wychodzi

21 Dobrą aproksymacją złożonego rozkładu statystyki lambda Wilksa, wykorzystywaną do testowania jest transformacja w statystykę F. 22 Por. D. Hadasik: Upadłość … . op. cit. s. 117. 23 Prezentowana postać statystki F jest jedną z najprostszych, wśród innych zaproponowanych przez C. R. Rao (C. R. Rao: Advanced…op. cit. s. 264-266) na podkreślenie zasługuje statystyka, często wykorzystywana w badaniach empirycznych, o postaci:

])(

[][]);([ 11

1

1

1 −−

⋅Λ

Λ−=−− PM

vmsFs

s

vmsPM

gdzie:

222 −−−

=PMPNm

21

22

22

5141 ]

)()([

−++−−

=PM

PMs

221 −−

=)(PMv

84


zagrożenia upadłością się tu z dwóch założeń: w pierwszym (analiza krokowa w tył) proces rozpoczyna

się od przyjęcia pełnego zbioru M cech opisujących obiekty O. Dla pełnego zbioru

cech szacowana jest wartość całkowitej macierzy wariancji-kowariancji oraz

macierz wewnątrzgrupowej wariancji-kowariancji oraz odpowiadająca im wartość

statystyki Λ i statystyki F. Następnie szacowane są wartości cząstkowe

powstające po usunięciu poszczególnych cech ze zbioru pierwotnego. Efektem

tego jest usunięcie zmiennej o najmniejszej wartości F, tj. mniejszej od wartości

krytycznej statystyki F przyjętej jako wartość usunięcia. Im mniejszą liczbę

zmiennych chcemy zatem posiadać w modelu tym większa wartość statystyki F

ustalana jest jako warunek usunięcia zmiennej z modelu. Oznacza to, że

eliminowane są zmienne, których istotność statystyczna do dyskryminowania grup

jest najmniejsza. W następnym kroku proces jest powtarzany i usuwana jest

zmienna o najmniejszej wartości dyskryminacyjnej. Proces ten zatrzymuje się w

momencie, kiedy istotność wszystkich zmiennych pozostałych w modelu będzie

większa niż istotność określona w momencie rozpoczęcia procedury jako

wystarczająca24.

W przypadku analizy krokowej w przód proces przebiega odwrotnie. W

pierwszym kroku wybierana jest zmienna która posiada największą zdolność do

dyskryminowania rozpatrywanych obiektów. W dalszych krokach dobierane są

następne zmienne, które posiadają największą wartość statystyki F, tj. większą niż

przyjęta na wstępie wartość F wprowadzenia. Do modelu zostaną zatem dobrane

wszystkie zmienne, których wartości statystyki F okażą się być wyższymi od

zadanej wartości progowej.

3. Ilościowe metody rozpoznawania z nauczycielem wykorzystywane do przewidywania zagrożenia upadłości firm

Określenie efektywności metod ilościowych w procesie prognozowania

upadłości przedsiębiorstwa nie jest możliwe bez przeprowadzenia empirycznego

badania metod na zadanym zbiorze danych. Aczkolwiek każda z metod umożliwia

dokonywanie klasyfikacji obiektów (metody te służą temu samemu celowi), to

jednak ze względu na założenia towarzyszące generowaniu modelu

klasyfikującego ich efektywność może znacznie się różnić. Dlatego też wydaje się 24 Proces ten został szczegółowo omówiony w: N. R. Draper, H. Smith: Analiza regresji stosowana. Warszawa: PWN. 1973. s. 197-207.

85


zagrożenia upadłością uzasadnione dokonanie analizy najistotniejszych rozpoznawania z nauczycielem,

które były skutecznie wykorzystywane w rozwiązaniu problemów empirycznych, w

tym w szczególności były już stosowane do tworzenia modeli umożliwiających

prognozowanie bankructwa. Pomimo faktu, że większość metod ilościowych może

z powodzeniem być wykorzystywana również do rozwiązywania problemu

klasyfikacji w przypadku występowania więcej niż dwóch klas, to jednak

zważywszy na istotę rozpatrywanego zagadnienia ich prezentacja zostanie

ograniczona do problemu rozpoznawania dwuklasowego (zero – jedynkowego).

Przewidywanie zagrożenia bankructwem skupia się bowiem na wskazaniu, bądź

wyeliminowaniu możliwości upadku przedsiębiorstwa, a więc zaklasyfikowaniu

wielowymiarowego obiektu jakim jest firma, opisanego przez zestaw

wyselekcjonowanych cech, jakimi są wartości wskaźników finansowych, do jednej

z dwóch klas, przedsiębiorstw zagrożonych bądź niezagrożonych upadkiem.

Ze względu na niewątpliwie utylitarny charakter tworzonych modeli w

badaniach nad prognozowaniem bankructw wykorzystuje się metody, które w

najlepszy sposób umożliwiają dychotomiczny podział danych finansowych.

Najczęściej wykorzystywanymi metodami są:

– analiza dyskryminacyjna,

– dyskryminacja typu logit i typu probit,

– sztuczne sieci neuronowe.

3.1. Analiza dyskryminacyjna

Problem odszukiwania reguły (modelu) umożliwiającej dokonywanie

dyskryminacji danego zbioru danych wielowymiarowych, w tym również podziału

dychotomicznego, może być rozpatrywany przy wykorzystaniu szeregu

zróżnicowanych metod ilościowych. Bez względu jednak na metodę generującą

narzędzie pozwalające na dokonywanie klasyfikacji badanych obiektów, istota

zagadnienia rozpoznawania z nauczycielem jest niezmienna i sprowadza się do

przeprowadzenia następującego zadania decyzyjnego:

Danych jest K rozłącznych populacji: π1, π 2, …, πK. W każdej populacji πk

występuje N elementowy zbiór obiektów O = {O1, O2, …, ON} nazywany próbą.

Obiekty opisane są za pomocą M wymiarowego wektora zmiennych X = [X1, X2,

86


zagrożenia upadłością …, XM], który dla różnych populacji πk może mieć różne rozkłady. W każdej próbie

wyróżnia się I podprób, pochodzących z poszczególnych populacji, z których

przynajmniej jedna, nazwijmy ją U, stanowi próbę uczącą.

W rozpatrywanym zagadnieniu decyzyjnym głównym problemem jest

możliwość wskazania k–tej populacji do której należeć ma M wymiarowy obiekt O

pochodzący spoza dowolnej podpróby U.

Istota zagadnienia skupia się zatem na skonstruowaniu, przy wykorzystaniu

podprób uczących U i obiektów w nich zawartych ON, należących do danych

populacji πk, modelu (funkcji) pozwalającego na zaklasyfikowanie do rozważanych

populacji dowolnych obiektów opisanych za pomocą zmiennych tworzących

wektor X. Z punktu widzenia obiektów zawartych w wielowymiarowych

przestrzeniach zadaniem jest znalezienie takiej funkcji, która odseparuje

obserwacje należące do różnych klas. Zgodnie z wcześniejszym stwierdzeniem,

taki rodzaj postępowania nazywany jest rozpoznawaniem z nauczycielem, gdyż

oprócz wartości M wymiarowego wektora dla poszczególnych obiektów, dane są

również numery klas, do których obiekty te należą, a co za tym idzie posiadana

jest informacja a priori określająca przynależność poszczególnych elementów do

grup.

Procedury wykorzystywane do tego celu umożliwiają sprowadzenie

obiektów z przestrzeni wielowymiarowych, w których każdy wymiar odpowiada

poszczególnym zmiennym Xj opisującym obiekty Oi, do przestrzeni

jednowymiarowej, co niekiedy nazywa się rzutowaniem obiektów z przestrzeni

wielowymiarowych na prostą. Możliwość taka występuje właśnie dzięki

oszacowaniu wartości jednowymiarowej funkcji wektora obserwacji obiektów, która

nazywana jest funkcją dyskryminującą, w znaczeniu – rozdzielającą. Funkcja taka,

oznaczona symbolem f, pozwala na przyporządkowanie każdej M wymiarowej

obserwacji (każdemu obiektowi) liczby rzeczywistej, przeto możemy mówić o

odwzorowaniu M wymiarowej przestrzeni w jednowymiarowy zbiór liczb

rzeczywistych, co zapisuje się jako:

f: RK → RL

Zagadnienie skupia się zatem na określeniu L przedziałów Rl wartości

funkcji f i przyporządkowaniu im odpowiednich grup obiektów należących do

zróżnicowanych populacji πk. Dzięki temu zamiast wyodrębniania w

87


zagrożenia upadłością wielowymiarowej przestrzeni RK obszarów Rk ustala się na prostej przedziały Rl

odpowiadające odpowiednim obszarom Rk. Posługując się zapisem formalnym

można to przedstawić w następujący sposób:

– jeżeli:

(Xn ∈ Rk f(Xn) ∈Rl), ⇔

to obiekt O opisany wektorem Xn zostaje przypisany do populacji πk.

Problem dokonywania dyskryminacji obiektów w przypadku występowania

jedynie dwóch klas skupia się zatem do znalezienia takiego przekształcenia

liniowego przestrzeni na prostą, że punkty leżące na lewo od pewnego ustalonego

punktu prostej zalicza się do jednej klasy, a punkty leżące na prawo – do drugiej

klasy.

Powyższe twierdzenie występuje, jeżeli spełnione są następujące warunki:

– występuje funkcja f : RK → RL,

– możliwe jest dokonanie takiego podziału zbioru RL, będącego zbiorem wartości

tej funkcji, na przedziały Rl, że spełnione będą następujące warunki:

– Rl ⊂ RL,

– Rl ∩ Rl ± n = ∅,

– . U10 −=

=l RR

Podsumowując powyższe rozważania należy stwierdzić, iż wyodrębnienie w

przestrzeni RK obszarów Rk nazywane jest dokonaniem dyskryminacji, a więc

dokonaniem podziału przestrzeni na homogeniczne obszary (podprzestrzenie),

natomiast określenie na podstawie posiadanej funkcji do której populacji należy

rozpatrywany obiekt nazywane jest klasyfikacją.

Metoda określania parametrów funkcji dyskryminacyjnej

Analiza dyskryminacyjna jest techniką numeryczną umożliwiającą

dokonywanie dyskryminacji wielowymiarowych obiektów, wykorzystywaną w

zagadnieniach, w których zmienna objaśniana ma charakter dyskretny. Istota

analizy sprowadza się do sprowadzenia wielowymiarowych obserwacji,

należących do dwóch grup obiektów będących częściami różnych populacji, do

przestrzeni jednowymiarowej, tak aby możliwe było dokonanie ich maksymalnie

dokładnego odseparowania zgodnie z rzeczywistą przynależnością do populacji.

Zagadnienie to przedstawia poniższy rysunek.

Ll ,...,

88


zagrożenia upadłością

Rysunek 11

Ilustracja istoty liniowej analizy dyskryminacyjnej

– o biek t n a leż ą cy d o g r u p y p 1 ,– o biek t n a leż ą cy d o g r u p y p 2 ,– op tym a ln a h ip erp ła sz cz yz n a ( lin ia p r osta w pr z estrz en i d w u w ym ia r ow e j) ,– p un k t kr ytycz n y (w a r tość od s ep a row u ją ca ba d an e g ru p y, m in im aliz u ją ca

b łąd k la syfik a c ji) .

Źródło: Z. H. Yang, H. James, A. Packer: The Fialure Prediction of Private Construction Companies. University of Portsmouth. Departamet of Land & Construction Management. s. 6.

Możliwość dokonania liniowego przekształcenia rozpatrywanych

wielowymiarowych obiektów pozwala na znalezienie optymalnej wartości

rozdzielającej, przy której minimalizowany będzie błąd powstający przy

rozpoznawaniu danych obiektów. Oszacowywanie wartości funkcji

dyskryminacyjnej dla poszczególnych obiektów oraz porównywanie jej z wartością

rozdzielającą (nazywaną wcześniej punktem krytycznym) stanowi o istocie

procesu dyskryminacji.

Liniową funkcję dyskryminacyjną przedstawia się najczęściej wyrażeniem25:

)()()()( 101

101

10 21

μ+μΣμ−μ−Σμ−μ= −− TT xxD .

10 μμ ,

Σ

x

gdzie:

– oznaczają wektory średnich wartości zmiennych w poszczególnych

grupach,

– jest macierzą wariancji – kowariancji zmiennych,

– jest losową obserwacją.

Przy czym obserwacja X zostanie zaklasyfikowana do populacji π0, jeżeli:

,)( cxD >

25 Discriminant Analysis and Clustering. Committe on Applied and Theoretical Statistics. Board on Matehemtaical Sciences. National Academy Press. Washington. 1998. s. 10.

89


zagrożenia upadłością gdzie:

0

1

ppc ln= .

dla p0 oraz p1 oznaczających odpowiednio prawdopodobieństwa a priori tego, że

dany obiekt pochodzi z populacji π0 lub też π1.

Przyjmując następujące oznaczenia:

)( 101 μ−μΣ= −a ,

oraz

)()( 101

100 21

μ−μΣμ−μ−= −Ta ,

otrzymujemy następującą postać funkcji dyskryminacyjnej:

0axaxD T +=)( .

Na podstawie powyższego zapisu funkcji widać, że funkcja ta jest liniową

kombinacją obserwacji zmiennych tworzących losowy wektor X określający

poddawany klasyfikacji obiekt. Poszczególne współczynniki tej kombinacji tworzyć

będą wektor kolumnowy a, którego elementy obliczane są na podstawie

parametrów rozkładów wektora losowego X w populacjach π0, π1. Poszczególne

elementy wektora a są zatem wagami przypisanymi zmiennym tworzącym wektor

X, co można obliczyć w następujący sposób:

⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢

⎣

⎡

μ−μσ=

⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢

⎣

⎡

μ−μ

μ−μμ−μ

⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢

⎣

⎡

σσσ=μ−μΣ= ∑=

−

M

M

M

M

M

M

LLLL

LLLL

L

LLLL

LLLL

)()( ii

K

iki

KK

kKkka 101

10

1202

1101

21101 ,

gdzie:

określa wielkość ogólnogrupowej wariancji – kowariancji dla

poszczególnych zmiennych, σkK

Na uwagę zasługuje jednak geneza powstania liniowej funkcji

dyskryminacyjnej. U podstaw stworzenia reguły umożliwiającej dokonanie liniowej

klasyfikacji obiektów leży bayesowska reguła klasyfikacyjna. Liniowa funkcja

dyskryminacyjna wykorzystuje te same ogólne założenia statystyczne, które

umożliwiają podejmowanie decyzji w warunkach probabilistycznych. Założenia te

dotyczą w szczególności znajomości prawdopodobieństw przynależności

90



21

badanych obiektów do rozpatrywanych populacji. W analizach empirycznych, przy

braku dodatkowych wskazówek, założenie to jest trudnym do wyegzekwowania,

dlatego też zakłada się, że prawdopodobieństwo to jest takie samo dla każdej

grupy i wynosi (gdzie I oznacza liczbę populacji), co dla przypadku dwóch

populacji wynosi oczywiście 1. Ponadto funkcja dyskryminacyjna wymaga

znajomości funkcji gęstości wektora losowego X w poszczególnych populacjach

(tzn. fi(x) (i=0,1)). Ponieważ decyzja określająca do której populacji należy dana

obserwacja jest podejmowana po zaobserwowaniu wektora x dlatego też

prawdopodobieństwo to nazywane jest prawdopodobieństwem a posteriori.

Mówiąc o prawdopodobieństwie a posteriori mamy zatem na myśli

prawdopodobieństwo warunkowe, zależne od wektora opisującego dany obiekt, co

można zapisać jako γ(x

iπ ). Korzystając zatem z twierdzenia Bayesa,

prawdopodobieństwo a posteriori można zapisać wykorzystując

prawdopodobieństwa a priori pi oraz funkcje gęstości fi(x), co dane jest wzorem:

I1

)()()()(

xfpxfpxfp

x 110

iii

+=

πγ

0

dla i = 0, 1.

O przynależności do określonej populacji danego obiektu decyduje

maksymalizacja wartości prawdopodobieństwa a posteriori dla danej populacji.

Regułę decyzyjną w tym przypadku można zapisać w sposób następujący:

– jeżeli dla danego wektora x zachodzi γ(x

0π ) > γ(x1π ), to dany obiekt X należy do

populacji π0,

– jeżeli natomiast danego wektora x zachodzi γ(x

0π ) ≤ γ(x1π ), to dany obiekt X

należy do populacji π1.

Nadając postać analityczną powyższej regule klasyfikacyjnej, zgodnie ze

znanym lematem Neymana–Pearsona przyjmowanym w statystycznej teorii

klasyfikacji, otrzymujemy iloraz prawdopodobieństw a posteriori, dzięki czemu

możliwe będzie zastosowanie przekształceń umożliwiających otrzymanie liniowej

funkcji dyskryminacyjnej26. Oznaczając przez Z(x) iloraz tychże

prawdopodobieństw otrzymuje się:

26 Por. S. Ostasiewicz: Metody dyskryminacyjne w prognozowaniu dyskretnym. Warszawa: Wydawnictwo Polskiej Akademii Nauk. 1989. s . 67. Autorka wskazuje dalej, iż w przypadku szerokiej klasy rozkładów istnieje pewna monotonicznie rosnąca funkcja h:R→R taka, że h(z(x)) jest funkcją liniową względem X. Własność ta jest bardzo ważna nie tylko z tego względu, że znając funkcję liniową

91



)()(

)()()(

)()()(

)(xfpxfp

xfpxfpxfp

xfpxfpxfp

xZ11

00

1100

11

1100

00

=

+

+= .

Zgodnie zatem z bayesowską regułą klasyfikującą otrzymujemy:

– jeżeli dla dowolnego obiektu opisanego przez wektor x zachodzi: Z(x)>1, to

obiekt zaklasyfikowany zostaje do populacji π0,

– jeżeli dla dowolnego obiektu opisanego przez wektor x zachodzi: Z(x) ≤1, to

obiekt zaklasyfikowany zostaje do populacji π1.

Postać funkcji Z(x) zależy zatem w bezpośredni sposób od postaci funkcji

gęstości wektorów X w obu populacjach, przy czym klasyczna funkcja

dyskryminacyjna opiera się na założeniu, że funkcje te mają wielowymiarowy (K

wymiarowy) rozkład normalny. Funkcje te oznaczane N(μi, Σ) charakteryzują się

różnymi wartościami wektorów wartości oczekiwanych w każdej populacji oraz

jednakową macierzą wariancji – kowariancji. Wykorzystując powyższe założenia

otrzymujemy27:

)]()(,exp[)(

)]()(,exp[)(),(),(

)()()( ,

,

,

,

11

150

01

050

1

0

11

00

502

50250

50

μ−Σμ−−Σπ

μ−Σμ−−Σπ=

ΣμΣμ

==−−

−−

−

−

xx

xxNN

xfpxfpxZ

TK

TK

,

Dokonując następujących przekształceń:

=μ−Σμ−−Σπ

μ−Σμ−−Σπ=

−−

−−

−

−

)]()(,exp[)(

)]()(,exp[)()( ,

,

,

,

11

150

01

050

502

50250

50

xx

xxxZ

TK

TK

=μ−Σμ−+μ−Σμ−−=−−

)]()(,)()(,exp[ 1100

11

5050 xxxx TT

=μΣ+Σμ−μΣ−Σ+μΣμ−Σμ+μΣ+Σ−=−−−−−−−−

])[,exp( 1110000

11111111

50 TTTTTTTT xxxxxxxxx

=μΣμ+μΣμ−Σμ−Σμ=−−−−

]())[(,exp( 110010

1111

2250 TTTT xx

=μ+μΣμ−μ−Σμ−μ=−−

)]()()()[(,exp( 101010

11

250 TT x

)]()()exp[( 10101011

21

μ+μΣμ−μ−Σμ−μ=−− TT x .

oraz zwracając uwagę na fakt, iż Z(x) jest funkcją wykładniczą, której wartość dla

danego wektora x zależy od tego, jaką wartość przyjmie wyrażenie znajdujące się

łatwo jest obliczać wartości potrzebne do formułowania prognoz (dokonywania klasyfikacji obiektów), ale głównie dlatego, że w przypadku nieznajomości tej funkcji można ją efektywnie aproksymować (S. Ostasiewicz: ibidem). 27 Należy zauważyć, że takie przekształcenie możliwe jest jedynie, kiedy prawdopodobieństwa a priori tego, że obserwacje pochodzą z rozpatrywanych klas są sobie równie (i wynoszą 0,5).

92


zagrożenia upadłością w wykładniku tej funkcji, otrzymywana jest ostateczna postać funkcji Z(x), która

jest tożsama z postacią przedstawioną na początku niniejszego podpunktu. A

zatem:

)()()()()( 101

101

10 21

μ+μΣμ−μ−Σμ−μ== −− TT xxDxZ .

Łatwo wykazać, że badany obiekt zostanie zaklasyfikowany do π0 dla D(x)>0 lub

do π1 dla D(x)<0. W takim przypadku wartością rozdzielającą populacje jest 0, co

jest zgodne z przedstawionym wcześniej warunkiem:

015050

0

1 ==== )ln(,,lnln

ppc .

Taka sytuacja występuje wtedy, o czym powiedziano wcześniej, gdy

prawdopodobieństwa a priori są sobie równie. W przypadku, gdy

prawdopodobieństwa te nie są sobie równe tj. p0 ≠ p1 otrzymujemy:

)]()()exp[()()()( 10

110

110

1

0

11

00

21

μ+μΣμ−μ−Σμ−μ== −− TT xpp

xfpxfpxZ .

Aby spełniony był zatem warunek Z(x)>1 musi zachodzić:

.)]()()exp[( 1

21

101

101

101

0 >+Σ−−Σ− −− μμμμμμ TT xpp

Przekształcając powyższy wzór i obustronnie go logarytmując otrzymujemy, że

punktem krytycznym dla różnych prawdopodobieństw jest przedstawione na

wstępie wyrażenie:

0

1

ppc ln= .

Przedstawione wyżej rozważania pozwoliły na ustalenie postaci liniowej

funkcji dyskryminacyjnej. Należy jednak jeszcze raz zaznaczyć, że jednym z

podstawowych warunków umożliwiających określenie tej funkcji było

występowanie znanych parametrów rozkładów warunkowych zmiennych w

populacjach. Taka sytuacja występuje jednakże niezmiernie rzadko w badaniach

empirycznych, dlatego też w przypadku braku informacji o parametrach

wielowymiarowych rozkładów normalnych koniecznym jest ich oszacowanie z

posiadanej próby. Proces określania parametrów funkcji dyskryminacyjnej

obejmował będzie zatem dwa etapy, tj. szacowania parametrów rozkładów

wektora losowego X w obu badanych populacjach oraz określanie

93


zagrożenia upadłością współczynników liniowej funkcji dyskryminacyjnej. Przyjmując następujące

oznaczenia:

Ni – liczebność próby odpowiadającej danej populacji,

ikx – oszacowana z próby wartość przeciętna zmiennej Xk.

ix – K – wymiarowy wektor średnich wartości zmiennych opisujących obiekty,

S – oszacowana na podstawie próby K × K wymiarowa ocena macierzy Σ

wariancji, kowariancji dla zmiennych opisujących dane obiekty,

ijkx – wartość zmiennej Xk dla obiektu O należącego do populacji πi.

oraz dla poniższych formuł:

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

iK

i

i

x

xx M

1

, gdzie i

N

jijk

ik N

xx

i

∑== 1 , i= 0, 1.

a także dla:

∑∑= =

−−=1

0 1

1i

N

j

Tikijkikijk

i

xxxxn

S ))(( ,

gdzie:

∑=

−=1

02

iiNn ,

otrzymujemy:

)].()()[()(' 101

101

10 21 xxSxxxSxxxD TT +−−−= −−

Powyższa formuła, której parametry zostały oszacowane z próby jest zatem

odpowiednikiem oryginalnej postaci funkcji dyskryminacyjnej dla danych

parametrów rozkładów28.

Analiza dyskryminacyjna, a właściwie metoda współrzędnych

dyskryminacyjnych, która została zaprezentowana powyżej, była przez szereg lat

jedną z najczęściej wykorzystywanych metod klasyfikacji zero – jedynkowej

stosowaną w badaniach ekonomicznych. Niewątpliwą zaletą tej metody jest

prostota obliczeń oraz możliwość interpretacji wag odpowiadających

poszczególnym zmiennym modelu. Wady metody leżą natomiast w zakresie

28 D. Hadasik: op. cit. s. 104 – 115

94


zagrożenia upadłością założeń jej towarzyszących. Sama liniowa postać modelu jest często krytykowana,

jako że stwierdza się, iż rzutowane na prostą wielowymiarowe obiekty nie muszą

w rzeczywistości być liniowo separowalne. Poza tym, trudnym warunkiem jest

występowanie rozkładu normalnego, któremu mają podlegać obserwacje należące

do poszczególnych klas.

3.2. Model logitowy i probitowy

O ile przedstawiona w powyższym podpunkcie metoda analizy

dyskryminacyjnej jest techniką umożliwiającą dokonanie dyskryminacji danego

zbioru danych (jej istotą jest zatem znalezienie punktu rozdzielającego wartości

funkcji obliczonych dla obiektów należących do dwóch różnych populacji), o tyle

prezentowane w niniejszym części pracy metody modelu logitowego oraz

probitowego są technikami umożliwiającymi dokonanie klasyfikacji tychże

obiektów. Oznacza to, iż w przypadku występowania dwóch klas, do których mają

być zaklasyfikowane obiekty xn opisane za pomocą wektora zmiennych Xm,

wartość funkcji yn winna osiągnąć jedną z dwóch wartości, tj.:

⎩⎨⎧

π∈π∈

=0

1

01

n

nn x jeżeli

x jeżeli y .

Można zatem stwierdzić, że zmienna y jest zmienną binarną, której

prawdopodobieństwo a priori zaklasyfikowania do populacji π1 wynosi p1,

natomiast prawdopodobieństwo zaklasyfikowania do populacji π0 równie jest p0 (p0

= 1 – p1). W modelach logitowym i probitowym zakłada się, że o zaklasyfikowaniu

obiektu decyduje oszacowane prawdopodobieństwo przynależności do

rozpatrywanych klas. Jeżeli zatem prawdopodobieństwo to wynosi 1 (lub jest

bliskie 1), to uznaje się, że dany obiekt należy do klasy π1, w przypadku, gdy

prawdopodobieństwo to wynosi 0 (lub jest bliskie 0) uznaje się, że obiekt należy

do klasy π0.

Podobne podejście wykorzystywane jest w tzw. liniowych modelach

prawdopodobieństwa znanych z ekonometrii, w których to dyskretna i

dychotomiczna zmienna objaśniana określa prawdopodobieństwo

95


zagrożenia upadłością zaklasyfikowania poszczególnych obiektów do rozpatrywanych klas. Funkcja ta

jest oczywiście liniową funkcją regresji zero – jedynkowej o postaci29:

nnn Xy ε+β+α= ' ,

gdzie:

X’n – wektor zmiennych opisujących obiekty,

β – wektor współczynników – wag,

α – wyraz wolny,

nε – czynnik losowy.

Zgodnie z tym co stwierdzono na wstępie celem jest określenie populacji, z

której pochodzi badany obiekt. Jako, że zmienna yn może przyjmować tylko dwie

wartości, całkowite prawdopodobieństwo tych zdarzeń można opisać w sposób

następujący:

⎩⎨⎧

=1

1n P-1 bieństwaprawdopodo dla

P bieństwaprawdopodo dla y

01

co odpowiada zapisowi:

nnnnn PPPXyE =−⋅+⋅= )()()/( 101

Jak zatem widać Pn może być również interpretowane jako wartość

oczekiwana yn przy danych parametrach Xn. Można zatem zapisać, że:

)/()/( 'nnnnn XEXXyE ε+β+α= .

Zgodnie z założeniami towarzyszącymi estymacji klasycznego modelu

ekonometrycznego30 wartość oczekiwana składnika losowego wynosi zero:

0=ε )/( nn XE ,

a zatem:

β+α= ')/( nnn XXyE ,

lub:

β+α= 'nn XP .

Istota wykorzystywania liniowych modeli prawdopodobieństwa sprowadza

się do dokonywania klasyfikacji obiektów dzięki obliczeniu prawdopodobieństwa

ich przynależności do danych klas. Jednakże ze względu na własności liniowych

29 Do oszacowania parametrów liniowej funkcji prawdopodobieństwa wykorzystywana jest klasyczna metoda najmniejszych kwadratów. 30 Por. S. Bartosiewicz: Metody ekonometryczne. Warszawa: PWN. 1974. s. 50.

96


zagrożenia upadłością funkcji prawdopodobieństwa31 ich wartość może być <0 lub >1, a więc może

wykraczać poza przedział [0;1], co jest sprzeczne z definicją

prawdopodobieństwa32. Prawdopodobieństwo ujemne, jak również większe od

jedności nie ma sensu z punktu widzenia podstaw rachunku prawdopodobieństwa,

co sprawia, że w przypadku szeregu obiektów nie będzie możliwe podjęcie decyzji

dotyczącej ich zaklasyfikowania do jednej z rozpatrywanych klas.

Opisana wyżej niedogodność zmusza do zastosowania monotonicznych

przekształceń prawdopodobieństw z przedziału [0; 1] na przedział (- , ), dzięki

czemu uniknie się występowania skończonego przedziału zmiennej objaśnianej

∞ ∞33.

Przekształceniami takimi są właśnie model logitowy i probitowy.

W tym miejscu wprowadzone zostanie jedno z najpopularniejszych

przekształceń, tzw. przekształcenie logitowe, odwzorowujące skalę parametru P z

przedziału [0;1] na przedział (-∞ ,∞ ), na bazie którego buduje się modele dla

danych dwumianowych. Przekształcenie logitowe prawdopodobieństwa tego, że

obiekt xi zostanie zaklasyfikowany do klasy k jest oznaczane i definiowane

następująco:

)log()(p

pplogit−

=1

.

Taka transformacja ma następujące własności:

),,()(];[ +∞−∞∈⇔∈ plogitp 10

,)( −∞→⇔→ plogitp 0

,)( +∞→⇔→ plogitp 1

Wykres funkcji logit jest symetryczny względem punktu (0,5; 0), a dla

funkcja ta jest prawie liniowa);,( 020 , p∈ 8 34. Zakładając, że n obserwacji pochodzi z

rozkładu dwumianowego, logitowy model liniowy dla Pn zależnego od m

zmiennych objaśniających (cech obiektów) xj (j=1,2, … , m) związanych z i – tą

obserwacją ma postać:

mimin

nn xx

ppplogit β++β+β=−

= ...)log()( 1101,

31 Liniowe funkcje prawdopodobieństwa i ich zastosowanie w klasyfikacji obiektów szczegółowo przedstawiają: E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification Techniqes in Busienss, Banking and Finance: Connecticut.. JAI Press. 1981. s. 3-10. 32 E. Nowak: Prognozowanie gospodarcze. Warszawa: Placet. 1998. s. 141. 33 Ibidem. s. 142. 34 W. Ostasiewicz: Statystyczne analizy metody danych. Wrocław. Wydawnictwo Akademii Ekonomicznej we Wrocławiu. 1998. s. 325

97


zagrożenia upadłością skąd po przekształceniach otrzymujemy:

)...exp()...exp()/(mimi

mimii xx

xxxppβ++β+β+

β++β+β=π=

11

111 1

.

Powyższa formuła określa zatem prawdopodobieństwo zaklasyfikowania obiektu x

do klasy πi, przy czym i = [0, 1]. Prawdopodobieństwo, że tej samej obserwacji

odpowiada klasa π0 wynosi 1-pi, a zatem:

)...exp()/(

mimii xx

xppβ++β+β+

=π=11

0 11 .

Taka postać funkcji występuje jednak wtedy, gdy wartość współczynnika wolnego

wynosi:

'ln p+β=β 0 ,

gdzie:

1

0

ppp =' .

Wychodząc bowiem od założenia o liniowości logarytmu naturalnego ilorazu

największej wiarygodności o postaci:

xxfxf Tβ+β=ππ

00

1

)/()/(ln ,

co pozwala na uwolnienie się od założeń dotyczących znajomości postaci

rozkładów w obu klasach, możemy wyznaczyć prawdopodobieństwo a posteriori

umożliwiające dokonywanie klasyfikacji obserwacji (za pomocą oszacowanego

prawdopodobieństwa) przy wykorzystaniu wzoru Bayesa o postaci:

)/(

)/()/(i

2

1iii

iiii

xfp

xfpxPπ

π=π

∑=

.

Dokonując następnie przekształceń dwóch powyższych formuł dochodzimy do

postaci prawdopodobieństw a posteriori określonych jako:

)'lnexp()'lnexp()/(px

pxxP T

T

+β+β++β+β

=π10 ,

oraz:

)'lnexp()/(

pxxP T +β+β+=π

11

1 .

98


zagrożenia upadłością Jeżeli natomiast prawdopodobieństwa a priori p0 oraz p1 są sobie równe, to

podobnie jak miało to miejsce w analizie dyskryminacyjnej, ln p’ = 0, co skutkuje

wyeliminowaniem tego elementu z kombinacji czynników, których suma stanowi

wykładnik potęgi w powyższych wzorach, dzięki czemu otrzymujemy: β = β0.

Jak się zatem okazuje prawdopodobieństwo a posteriori p(πi, x) określające

zaklasyfikowanie obiektu x do jednej z klas może być traktowane jako wartość

dystrybuanty rozkładu logistycznego, a zatem35:

∫β+β

∞−=π

x

i

T

dzLfxp 0 )(),( ,

gdzie:

L – dystrybuanta rozkładu logistycznego,

f(L) – funkcja gęstości standardowego rozkładu logistycznego.

Ponadto, jeżeli w wektorze Xm zmiennych (cech) opisujących obiekty

występuje zmienna, która jest zawsze równa jedności, to wektor wag (parametrów

strukturalnych modelu) może zawierać wyraz wolny β 0, w innym przypadku tak

liniowa postać funkcji wiarygodności, jak i prawdopodobieństwo a posteriori

przyjmuje postać36:

)exp()exp()(

iTi

T

i xxxpβ+

β=

1

Powyższy wzór można łatwo przekształcić otrzymując tożsamości

wykorzystywane w następnych przekształceniach37.

W celu oszacowania parametrów β modelu określamy postać funkcji

wiarygodności38 dla n – elementowej próby, a następnie dokonujemy

maksymalizacji funkcji o postaci39:

iii yyi

yi

n

iPPL −

=

−=Π 1

11 )( ,

Obliczając logarytm powyższej funkcji otrzymujemy:

35 Por. K. Jajuga: Statystyczna teoria… . op. cit. s. 126; oraz : E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification Techniqes … . op. cit. s. 16. 36 E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification… . op. cit. s. 18. 37 Por. G.C. Chow: Ekonometria. Warszawa: PWN. 1995. s. 310. 38 Metoda największej wiarogodności stanowi ogólną metodę estymacji parametrów populacji przy pomocy wartości, które maksymalizują wiarogodność próby. Wiarygodność próby składającej się z n obserwacji xi, i=1,…,n, jest funkcją łącznego prawdopodobieństwa p(x1, x2,..., xn) gdy x1, x2, ..., xn są zmiennymi losowymi skokowymi. Niech L będzie wiarogodnością próby, gdzie L jest funkcją parametrów q1, q2,... qk, wówczas estymatory największej wiarogodności parametrów q1, q2,... qk są wartościami, które maksymalizują L. 39 Metodę największej wiarygodności szeroko omawia S. Brandt: Analiza danych. Warszawa: PWN. 1999. s. 230.

99



∑=

=−−+=n

iiiii PyPyL

1

11 )log()(log[log ]

}

∑=

=−+−−n

iiiii PPPy

1

11 )log()]log([log{

∑ ∑= =

β+−β=n

i

n

i

xi

Ti

iT

exy1 1

1 )( ,

co było możliwe do otrzymania dzięki określonym wcześniej przekształceniom.

Do otrzymania estymatora wektora parametrów β metodą największej

wiarygodności, koniecznym jest określenie postaci pochodnej log L względem β

oraz przyrównanie pierwszej pochodnej do zera:

∑ ∑ ∑= = =

− =−=+−=∂

∂ n

i

n

i

n

iiiii

xxii xPfxeexfL

iT

iT

1 1 111

11 01 )()(log ββ

β.

W przypadku gdy liczba obserwacji n jest większa (lub równa) liczbie cech

tworzących wektor xi (co zwykle ma miejsce) i jeżeli wektory xi nie są liniowo

zależne, to macierz o postaci:

∑∑=

β

β

β

β

=

=+

++

−=β∂∂

−=β∂β∂

∂ n

i

Tix

xTix

x

i

n

iTi

iT xe

exe

exPxLi

T

iT

iT

iT

12

2

1

12

11]

)()([log

∑=

−=n

i

Tiiii xPPx

111 1 )( ,

jest ujemnie określona.

Dla tak określonego równania w celu oszacowania parametrów wektora β

koniecznym jest wykorzystanie którejś z metod rozwiązywania równań

nieliniowych. W dalszej części pracy zastosowany zostanie iteracyjny algorytm

quasi – Newtonowski40.

Podobnym do modelu logitowego jest model probitowy, w którym

prawdopodobieństwo Pi określające zaklasyfikowanie obiektu x do jednej z

populacji jest określane przez dystrybuantę rozkładu normalnego o postaci:

∫β

∞−

−−βΦ=π=π

x

i

s

xdsexp'

)'()(),( 221

0 2 .

40 O metodach rozwiązywania równań nieliniowych, w tym również o metodzie quasi Newtona szeroko pisze: W. Milo: Nieliniowe modele ekonometryczne. Warszawa: PWN. 1990. s. 57.

100


zagrożenia upadłością Zakładając, że próba zawiera n1 jednostek takich, że klasą im odpowiadającą jest

π1 oraz n2 takich jednostek, dla których klasą im odpowiadającą jest π0. Funkcja

wiarygodności tej próby ma postać:

)].'([)'( i

n

ii

n

ixxL βΦ−βΦ= ΠΠ

==

121

11

Logarytm powyższej funkcji ma postać:

∑∑==

βΦ−+βΦ=21

11

1n

ii

n

ii xxL )]'(log[)'(loglog .

Podobnie jak miało to miejsce w analizie logit do oszacowania wektora β

metodą największej wiarygodności koniecznym jest zróżniczkowanie powyższej

funkcji względem β i przyrównanie pochodnej do zera:

∑∑=

−

=

− =βϕβΦ−−βϕβΦ=β∂

∂ 21

1

1

1

1 01n

iiii

n

iiii xxxxxxL )'()]'([)'()]'([log ,

gdzie:

φ – funkcja gęstości standaryzowanego rozkład normalnego o postaci:

dzzdez

z )()()( Φ=π=ϕ

−−22

1 2

2 .

Również w tym przypadku do rozwiązania układu równań i oszacowania

wartości parametrów wektora β niezbędnym jest zastosowanie jednej z

numerycznych metod rozwiązywania równań. Tak jak miało to miejsce w modelu

logit do tego celu zastosowany zostanie algorytm quasi – Newtonowski.

Poniższe rysunki (nr 12 oraz nr 13) przedstawiają różnice pomiędzy

rozkładami logistycznym i normalnym.

Rysunek 12 Dystrybuanty skumulowanego rozkładu normalnego i logistycznego

-3 -2 -1 0 1 2 3

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

skumulowanyrozkład logistyczny

skumulowany rozkładnormalny

Źródło: opracowanie własne

101



Rysunek 13 Krzywe standaryzowanego rozkładu normalnego i logistycznego

-3 -2 -1 0 1 2 3

0,1

0,2

0,3

0,4

rozkład logistyczny

rozkład normalny


Oprócz oczywistego zróżnicowania w podstawowych parametrach tych

rozkładów (w rozkładzie normalnym mamy wariancję oraz odchylenie

standardowe równe 1, w przeciwieństwie do rozkładu logistycznego w którym

elementy te przyjmują wartości odpowiednio 3,29 i 1,71), pomiędzy rozkładami

zachodzi ta różnica, że skumulowana postać rozkładu logistycznego ma

„zamkniętą formę” co czyni tą metodę dużo łatwiejszą z punktu widzenia

konieczności dokonywania niezbędnych obliczeń41.

Przedstawione wyżej metody logit i probit są ciekawą alternatywną dla

analizy dyskryminacyjnej. W metodach tych następuje uwolnienie od sztywnego

wymogu występowania rozkładu normalnego, któremu podlegać mają obserwacje

należące do poszczególnych klas. Poza tym sama klasyfikacja nie następuje

poprzez przyporządkowanie obiektu do jednej z grup, lecz poprzez określenie

prawdopodobieństwa wystąpienia jednego z dwóch rozpatrywanych stanów.

Sama procedura oszacowania parametrów takiego modelu (wykorzystująca

metody rozwiązywania układów równań nieliniowych) jest jednak bardziej złożona

niż ma to miejsce w przypadku analizy dyskryminacyjnej.

41 E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification… . op. cit. s. 17

102


zagrożenia upadłością 3.3. Sztuczne sieci neuronowe

Sztuczne sieci neuronowe (SSN) stanowią jedną z najbardziej dynamicznie

rozwijających się gałęzi sztucznej inteligencji. Rozległy obszar zastosowań SSN

obejmuje również zagadnienia z zakresu nauk ekonomicznych, które do tej pory

badano głównie za pomocą modeli statystycznych, ekonometrycznych czy

optymalizacyjnych42. Aczkolwiek wykorzystanie SSN jest możliwe niemal we

wszystkich dziedzinach nauki i techniki, wszędzie tam, gdzie koniecznym jest

wykorzystanie układów wspomagających podejmowanie decyzji w warunkach

występowania szumów informacyjnych, to właśnie w ekonomii zastosowanie SSN

pozwala na efektywne prognozowanie, rozpoznawanie i analizę zjawisk, które do

tej pory sprawiały trudności poznawcze.

W zagadnieniu prognozowania bankructw wykorzystywany jest tylko jeden

z obszarów zastosowań SSN, a mianowicie ich możliwość dokonywania

klasyfikacji, w tym przypadku klasyfikacji dwuwartościowej.

O możliwości szerokich zastosowań SSN decydują podstawy działania tego

typu algorytmów. Inspiracją do stworzenia tej klasy systemów była budowa mózgu

ludzkiego, który jak dotąd jest najdoskonalszym układem gromadzącym i

przetwarzającym informacje. Koncepcja działania sztucznych sieci neuronowych

została oparta na sposobie przetwarzania informacji w ludzkim mózgu43. SSN jest

bowiem uproszczonym modelem połączeń występujących pomiędzy komórkami

ludzkiego mózgu44, dzięki czemu stanowi strukturę, która swym działaniem

przypomina zasadę funkcjonowania systemu nerwowego.

Należy jednak zauważyć, że inspiracje biologiczne, aczkolwiek istotne,

dotyczą jedynie ogólnych zasad funkcjonowania SSN. W rzeczywistości działanie

większości modeli sieci neuronowych opiera się na czysto pragmatycznych

koncepcjach matematycznych, dostosowanych do rozwiązywanych zadań i

mających niewiele wspólnego ze swymi neurofizjologicznymi podstawami.

Sieć neuronowa jest systemem wzajemnie połączonych prostych

elementów przetwarzających informacje, zwanych neuronami. Każdy neuron

42 J. S. Zieliński: Inteligentne systemy w zarządzaniu. Teoria i praktyka. Warszawa: PWN. 1999. s. 141. 43 P. D. Wasserman i T. Schwartz: Neural Networks. Part 1. IEEE Expert. Spring. 1998. s. 10–15. 44 R. E. Dorosey, R. O. Edmister, J. D. Johnson: Bankruptcy Prediction Using Artificial Neurlal Systems. The University of Mississipi. School of Business. The Reaserch Fundation of The Institute of Chartered Financial Analysts. 1997. s. 6.

103


zagrożenia upadłością posiada ciało komórkowe (somę), z którego wyrasta pojedynczy akson. Kiedy

soma zostanie dostatecznie silnie pobudzona przez nadchodzące impulsy,

przekazuje je wzdłuż aksonu do innych neuronów. Impulsy takie neuron odbiera

za pomocą receptorów zwanych dendrytami. Obszar na którym odbierane są

impulsy, określany jest mianem synapsy. To właśnie za ich pośrednictwem

impulsy nerwowe przekazywane są z jednego neuronu na drugi45”. Schemat

neuronu biologicznego pokazany został na rysunku 5.

Rysunek 14

Schematyczny obraz komórki nerwowej, pokazujący jej zasadnicze elementy.

Źródło: R. Tadeusiewicz: Problemy biocybernetyki. PWN. Warszawa: 1994. s. 32.

Sztuczna sieć neuronowa składa się zatem z szeregu połączonych ze sobą

neuronów tworzących pewną strukturę. Poszczególne neurony są w strukturze

grupowane w większe zespoły, zwane warstwami. W najprostszych SSN

występuje jedynie warstwa wejściowa neuronów, którą zgodnie z analogią do

biologicznego neuronu możemy nazwać warstwą receptorów i warstwa wyjściowa,

dzięki której odbierany jest wygenerowany sygnał. Struktura wewnętrzna sieci

tworzy tzw. architekturę sieci, która określa również sposób propagacji sygnału

między neuronami.

Cała wiedza sieci o sposobie rozwiązywania danego problemu

przechowywana jest w jej wewnętrznych odwzorowaniach, definiowanych przez

wartości wag występujących pomiędzy poszczególnymi neuronami. Najprostszy

pojedynczy neuron liniowy posiada zatem j wejść, po których przejściu sygnały

45 E. Gately: Prognozowanie finansowe i projektowanie systemów transakcyjnych. Warszawa. WIG Press. 1999. s. 5. Struktury neuronu działają na zasadzie elektrochemicznej. Oznacza to, że działanie mózgu opiera się na przepływie impulsów elektrycznych wyzwolonych na skutek reakcji chemicznych. Kiedy wskutek połączonego oddziaływania wielu nadchodzących impulsów zostanie osiągnięty odpowiedni poziom pobudzenia (czyli zgromadzony ładunek elektryczny określany mianem ładunku progowego), ciało komórkowe wyzwala swój ładunek (ulega depolaryzacji) i wysyła go wzdłuż aksonu do innych komórek nerwowych i ich dendrytów.

104


zagrożenia upadłością wejściowe xj są mnożone przez wagi wij i przekazywane do sumatora Σ, który

oblicza potencjał ϕi i – tego neuronu. Potencjał ten może być również korygowany

o dodatkowy składnik tzw. bias, który pełni rolę wartości progowej; jest nim stała

wartość bi. Skorygowany o bi potencjał ϕi oznacza się jako ui. Taki model

sztucznego neuronu nazywany jest neuronem liniowym, a sieć zbudowana z

takich neuronów nosi nazwę sieci liniowej.

Sieci takie mają ograniczone zastosowanie, gdyż nadają się jedynie do

realizacji odwzorowań liniowych46. Realizacja neuronu nieliniowego, który, co

zrozumiałe, posiadać będzie możliwość odwzorowywania również problemów

nieliniowych, polega na dodaniu bloku aktywacji i przetworzeniu dzięki niemu

wyjściowego sygnału ui danego neuronu, dzięki czemu otrzymuje się sygnał

wyjścia y będący wynikiem funkcji aktywacji F(ui).

Rysunek 15

Model pojedynczego neuronu liniowego

x1

x2

x3

Σ

wi1

wij

wiN

bi

ui


Blok nieliniowej funkcji aktywacji F(ui) w zależności od konkretnego celu

jakiemu służy neuron, może przyjmować różne postacie. Poczynając od funkcji

typu unipolarnego, przyjmującej wartość 0 lub 1, poprzez funkcje bipolarne o

wartości –1 lub 1, skończywszy na ciągłych funkcjach sigmoidalnych takich jak

funkcja logistyczna (rys. 16), tangens hiperboliczny. Należy również podkreślić, że

SSN posiadające funkcje aktywacji skokowe, a więc funkcję unipolarną lub

bipolarną, mają charakterystyki nieciągłe, co znacznie utrudnia proces ich

46 R Tadeusiewicz.: Sieci neuronowe. Warszawa. Akademicka Oficyna Wydawnicza. 1993. s. 23.

105


zagrożenia upadłością uczenia47, w związku z czym, dla zwiększenia efektywności wyników, w dalszej

części pracy zostaną wykorzystane jedynie funkcje sigmoidalne, a konkretnie

funkcja logistyczna.

Rysunek 16

Przykładowe funkcje aktywacji neuronu wraz z ich postacią analityczną

u

F(u)

1

0

-1

-0,5

01

1>

+= − ββ

euF u)(


Zastosowanie funkcji logistycznej jako stałego bloku nieliniowego dla

wszystkich neuronów sieci ma również tą zaletę, że zamiast uczenia sieci

wytwarzania jedynie dwóch wartości (zagadnieniem jest klasyfikacja

dwuwartościowa), co jest często trudne do osiągnięcia gdyż sieć może realizować

wartości wyjściowe większe lub mniejsze od wartości progowych uznanych za

klasyfikatory wskazujące na przynależność obiektu do rozpatrywanych grup, sieć

uczona jest realizować określony poziom aktywacji, a nie wartości ekstremalne,

które są trudne bądź niemożliwe do osiągnięcia. W przypadku zastosowania

funkcji logistycznej nigdy nie otrzymujemy zatem pełnego poziomu aktywacji o

wartości 1, ani pełnego poziomu aktywacji o wartości 0. Jeżeli bowiem sieć miała

by być uczona osiągać te wartości, to wagi synaptyczne musiały by być

„podciągane” do tak dużych wartości, że pojawi się numeryczna niestabilność

związana z ograniczeniem zakresu liczbowego48. Najlepszym rozwiązaniem jest

zatem uczenie sieci osiągania umiarkowanych wartości. W przypadku funkcji

47 S. Osowski: Sieci neuronowe w ujęciu algorytmicznym. Warszawa. WNT. 1996. s. 38. Autor stwierdza również, że sieci o skokowych funkcjach aktywacji nie mogą być wykorzystywane jeżeli do uczenia sieci stosuje się algorytmy gradientowe (np. algorytm wstecznej propagacji błędów). 48 Inną cechą funkcji logistycznej jest to, że jej pochodna dąży do zera dla wartości ekstremalnych przez co optymalizacja SSN metodą gradientową posuwa się wolno, co stanowi argument krytyczny w stosunku do metody wstecznej propagacji błędów.

106


zagrożenia upadłością logistycznej wartości miar aktywacji wybiera się zwykle na poziomie 0,1 dla jednej

decyzji i 0,9 dla drugiej49.

Rysunek 17

Model neuronu nieliniowego

x1

x2

xN

Σ

wi1

wij

wiN

bi

uiF(ui) yi

M


Powyższa sieć jest siecią jednowarstwową, w której nie występują warstwy

ukryte. Taka architektura sieci sprawia, iż przy jej zastosowaniu możliwe jest

rozwiązywanie jedynie prostych problemów. Należy podkreślić, że rozwiązywanie

przez sztuczną sieć neuronową problemów o wysokim stopniu komplikacji

wymaga rozszerzenia architektury sieci. Uzyskuje się to poprzez dodawanie

warstw ukrytych neuronów, w których połączeniach wagowych oraz funkcjach

aktywacji „zapisany” zostaje sposób rozwiązywania takich problemów. Schemat

sieci wielowarstwowej prezentuje rysunek 18.

Rysunek 18

Schemat sieci jednokierunkowej wielowarstwowej

x1

x2

x3

xN

M

y1

yk

MM


Każdy neuron, przedstawiony na rysunku 18 jako kółko, działa w sposób

opisany wcześniej, czego schemat przedstawia rys. 17 (schemat neuronu

49 T. Masters: op. cit. s. 29.

107


zagrożenia upadłością nieliniowego). Sygnały wejściowe pochodzą z warstwy poprzedniej, a wyjściowe

płyną do warstwy następnej.

Przystępując do rozwiązania jakiegokolwiek problemu przy wykorzystaniu

sieci neuronowej wielowarstwowej należy zatem, oprócz zebrania i dostosowania

danych uczących, zaprojektować strukturę sieci, dopasowaną do danego zadania.

Oznacza to zatem wybór liczby warstw sieci i neuronów w nich zawartych, a także

określenie powiązań między poszczególnymi warstwami oraz przyjęcie konkretnej

funkcji aktywacji. Dobór liczby neuronów w warstwie wejściowej jest

uwarunkowany wymiarem wektora danych x. Podobnie jest w warstwie

wyjściowej, w której liczba neuronów równa się wymiarowi wektora zadanego. Tu

jednak należy zaznaczyć, iż dla zadania klasyfikacji dwuwartościowej możliwe jest

przyjęcie dwóch rozwiązań: w pierwszym SSN posiadać będzie dwa neurony

wyjściowe, po jednym na każdy rodzaj podejmowanej decyzji, w drugim SSN

posiadać będzie tylko jeden neuron wyjściowy. W pierwszym z podejść

przedstawiony sieci obiekt generuje na wyjściu sygnał charakteryzujący się

włączonym pierwszym neuronem wyjściowym i wyłączonym drugim (pod pojęciem

włączony – wyłączony należy rozumieć wartość neuronu wyjściowego równą 1 lub

0), co oznacza zaklasyfikowanie rozpatrywanego obiektu do I z analizowanych

klas lub pierwszym neuronem wyłączonym i drugim włączonym, co z kolei

oznacza zaklasyfikowanie rozpoznawanego obiektu do II klasy. Taka metoda

jednak nie daje żadnej korzyści w znaczeniu jakości przetwarzania, a podnosi

koszt pamięci i czasu uczenia oraz wprowadza niejednoznaczność do procesu

decyzyjnego50, powstaje bowiem problem jaką decyzję podjąć w przypadku gdy

oba neurony będą w stanie włączonym lub wyłączonym. Rozwiązaniem tego

problemu jest zastosowanie jednego neuronu wyjściowego. W takim przypadku

sieć winna być uczona, a co za tym idzie winna rozwiązywać stawiany jej problem,

tak aby wytwarzać dużą wartość sygnału wyjściowego dla jednej decyzji i małą dla

drugiej. W dalszej części pracy przyjęto zatem, że badane SSN posiadać będą

tylko jeden neuron wyjściowy.

Ilość warstw ukrytych oraz liczba neuronów w nich zawartych jest natomiast

uzależniona od postawionego sieci zadania, przy czym określenie tak liczby

50 T. Masters. op. cit. s. 28.

108


zagrożenia upadłością warstw jak i neuronów pozostawia się zazwyczaj doświadczeniom51. Przyjmuje

się, że sieć z jedną warstwą ukrytą powinna nauczyć się rozwiązywania

większości postawionych problemów. Nie są znane problemy wymagające do

rozwiązania sieci z więcej niż trzema warstwami ukrytymi. Nie ma natomiast

dobrej recepty na dobór właściwej ilości neuronów w warstwie ukrytej.

Określenie architektury sieci jest pierwszym krokiem do stworzenia sieci

neuronowej. Należy zauważyć, że prawidłowo zbudowana sieć neuronowa

posiada zdolność do uogólniania, a więc generowania właściwego rozwiązania dla

danych, które nie pojawiły się w zestawie danych uczących. Rysunek 19 stanowi

ilustrację umiejętności generalizacji sieci neuronowych.

Rysunek 19

Podział przestrzeni danych na dane uczące L, testujące T oraz sprawdzające

(weryfikujące) V.

R

T L V

Źródło: S. Osowski: op. cit. s. 32.

Jak stwierdzono wcześniej inspiracją do stworzenia SSN był neuron, a więc

pojedyncza komórka nerwowa spełniająca określone funkcje w ludzkim mózgu.

Istota działania SSN opiera się również na założeniu, że poszczególne neurony

nabywają wiedzę w procesie uczenia podobnie jak dzieje się to w systemie

nerwowym człowieka. O efektywności SSN decyduje zatem ich zdolności do

rozpoznawania zadanego problemu poprzez uczenie się prawidłowych

51 S. Osowski (S. Osowski: op. cit. s. 93) stwierdza: „Problemem pozostaje dobór warstw ukrytych i liczby neuronów w każdej warstwie. Rozwiązanie tego problemu zostało podane (w sensie istnienia rozwiązania) przez matematyków zajmujących się aproksymacją funkcji wielu zmiennych. … Określenie minimalnej liczby warstw ukrytych sieci opiera się na właściwościach funkcji aproksymujących.”

109


zagrożenia upadłością rozwiązań52. W procesie uczenia sieci zostaje przedstawiony zbiór danych

wejściowych, do których stosuje się regułę R. Zbiór ten zostaje następnie

rozdzielony na 2 podzbiory: zbiór testujący T oraz zbiór uczący L, z którego

dodatkowo wydzielono podzbiór V używany w trakcie uczenia do sprawdzania

stopnia nauczenia sieci (zbiór ten nazywany jest często grupą walidacyjną). Sieć

zostaje poddana uczeniu na zbiorze V. Zdolność odtworzenia zbioru L przez sieć

jest miarą zdolności zapamiętania danych uczących, natomiast zdolność do

generowania właściwych rozwiązań dla danych należących do zbioru T, na

których sieć nigdy nie była trenowania, jest miarą zdolności uogólniania. Zakłada

się przy tym, że zarówno dane tworzące zbiór L, jak i zbiór T są typowymi

reprezentantami zbiorów tworzących regułę R.

W procesie uczenia sieci występują jednak zagrożenia których nie

wyeliminowanie może ograniczyć zdolność sieci do generalizacji uzyskanej

wiedzy. Należy bowiem mieć na uwadze, że nadrzędnym kryterium uczenia sieci

jest minimalizacja błędów otrzymywanych w procesie uczenia, przy czym chodzi tu

o ograniczenie błędów dla ciągu testowego. Zagrożenia te przedstawia rysunek

20.

Rysunek 20

Charakter błędów mogących wystąpić w procesie uczenia SSN

dobre dopasowanie dociągu uczącego i

zdolność dogeneralizacji

przeuczenie sieci –dobre dopasowanie dociągu uczącego i brak

zdolności dogeneralizacji

słabe dopasowanie dociągu uczącego i brak

zdolności dogeneralizacji

błąd dla ciąguuczącego

błąd dla ciągutestowego

niski

niski

wysoki

wysoki

Źródło: P. Lula: Metody projektowania struktur sieci neuronowych stosowanych w procesie modelowania. Taksonomia. Zeszyt 4. 1997. s. 189.

52 Podobnie jak miało to miejsce w przypadku metod rozpoznawania obrazów, również w procesie uczenia SSN występują dwa różne procesy uczenia: uczenie z nauczycielem oraz uczenie bez nauczyciela. W niniejszej pracy rozpatrywane będą jedynie metody uczenia

110



Ciekawym zjawiskiem jest wystąpienie wysokiego odsetka błędów w grupie

testującej T przy jednoczesnych niskich wartościach błędu dla grupy uczącej L, co

oznacza tzw. przeuczenie sieci. W takim wypadku sieć potrafi dobrze odtworzyć

dane będące nauczycielem, nie ma jednak zdolności generalizacji nabytej wiedzy,

a co za tym idzie praktyczne możliwości zastosowania takiej sieci są znikome.

Celem uczenia sieci jest zatem minimalizacja błędu dla grupy T.

Omawiany powyżej błąd w swej istocie ma charakter błędu statystycznego

zbliżonego do znanej z ekonometrii miary błędu dopasowania funkcji regresji, czyli

sumy kwadratów reszt. Funkcja celu, której minimum jest poszukiwanym

rozwiązaniem eksploruje się poprzez takie modyfikowanie wag synaptycznych

sieci, aby osiągnąć wartość funkcji znajdującą się w jej minimum całkowitym.

Najczęściej przyjmowanymi miarami błędów są średni kwadrat błędu (MSE –

mean square error) oraz błąd średniokwadratowy (RMS – root mean square). W

dalszej części rozprawy wykorzystany zostanie właśnie błąd typu RMS, który

umożliwia łatwą interpretację otrzymanych wyników o postaci53:

∑−

=

−=1

1

21 n

iii yt

nRMS )( .

gdzie:

ti – docelowa (rzeczywista) wartość odpowiadająca rozpatrywanemu

obiektowi,

yi – wartość otrzymana na wyjściu sieci,

n – ilość obiektów znajdujących się w próbie.

Istota uczenia się SSN polega na takim dopasowywaniu wag

synaptycznych aby otrzymywane wartości funkcji celu stanowiącej błąd

odwzorowywania rzeczywistości przez sieć były minimalne. Pierwszą czynnością

w procesie uczenia jest przygotowanie dwóch ciągów danych: uczącego i

weryfikującego (walidacyjnego). Ciąg uczący jest to zbiór takich danych, które w

miarę dokładnie charakteryzują dany problem. Jednorazowa porcja danych

nazywana jest wektorem uczącym. W jego skład wchodzi wektor wejściowy czyli

te dane wejściowe, które podawane są na wejścia sieci i wektor wyjściowy czyli

sieci z nauczycielem, co jest podyktowane charakterem przedmiotu niniejszej dysertacji. 53 T. Masters. op. cit. s. 70.

111


zagrożenia upadłością takie dane oczekiwane, jakie sieć powinna wygenerować na swoich wyjściach. Po

przetworzeniu wektora wejściowego, nauczyciel porównuje wartości otrzymane z

wartościami oczekiwanymi i informuje sieć czy odpowiedź jest poprawna, a jeżeli

nie, to jaki powstał błąd odpowiedzi. Błąd ten jest następnie propagowany przez

sieć ale w odwrotnej niż wektor wejściowy kolejności (od warstwy wyjściowej do

wejściowej) i na jego podstawie następuje taka korekcja wag w każdym neuronie,

aby ponowne przetworzenie tego samego wektora wejściowego spowodowało

zmniejszenie błędu odpowiedzi. Procedurę taką powtarza się do momentu

wygenerowania przez sieć błędu mniejszego niż założony. Wtedy na wejście sieci

podaje się kolejny wektor wejściowy i powtarza te czynności. Po przetworzeniu

całego ciągu uczącego (proces ten nazywany jest epoką) oblicza się błąd dla

epoki i cały cykl powtarzany jest do momentu, aż błąd ten spadnie poniżej

dopuszczalnego poziomu błędu akceptowanego przez badacza. Jak to już było

zasygnalizowane wcześniej, SSN wykazują tolerancję na nieciągłości,

przypadkowe zaburzenia lub niewielkie braki w zbiorze uczącym. Jest to wynikiem

właśnie zdolności do uogólniania wiedzy.

Jednym z najczęściej wykorzystywanych algorytmów w procesie uczenia

sięci rozpoznawania obrazów jest algorytm wstecznej propagacji błędów. Metoda

ta została po raz pierwszy opublikowana przez D. Rumelharta i J. McClellanda w

1986 roku54, a jej nazwa pochodzi od propagowania błędów (modyfikacji wartości

wag) w kierunku od neuronów wyjściowych, poprzez warstwy ukryte do wag

neuronów wejściowych.

W swojej najbardziej podstawowej formie propagacja wsteczna polega na

zastosowaniu algorytmu spadku gradientu. Gradient funkcji wielu zmiennych jest

kierunkiem najbardziej stromego „wspinania się” po powierzchni błędu (rysunek

21) a więc dążeniem do maksimum funkcji. Mały krok w tym kierunku daje w

rezultacie maksymalny przyrost funkcji w porównaniu z jakimkolwiek innym

kierunkiem. Ten sam krok w przeciwnym kierunku da maksymalny możliwy

spadek wartości funkcji, czyli w tym przypadku, spadek wartości funkcji błędu

generowanej przez sieć. Obliczenie gradientu funkcji błędu umożliwia zatem

wykonywanie kroków w stronę minimum funkcji. Przedstawiona poniżej

przykładowa postać funkcji błędu w swym przekroju, ukazuje możliwość

54 D. Rumelhart, J. McClelland: Parallel Distributed Processing. Cambridge MIT Press. 1986.

112


zagrożenia upadłością „utknięcia” w minimum lokalnym. Stosując SSN należy pamiętać, iż podczas ich

uczenia koniecznym jest przeprowadzanie szeregu prób reinicjalizujących wartości

wag początkowych tak, aby rozwiązanie zawarte w oszacowanych wagach

synaptycznych nie pozostawało w punkcie minimum lokalnego, które nie stanowi

rozwiązania najlepszego z punktu widzenia rozwiązania ogólnego postawionego

problemu.

Rysunek 21

Przykładowy przekrój funkcji błędu w przestrzeni dwuwymiarowej


Szczegóły wykorzystania algorytmu wstecznej propagacji błędów

przedstawiają się następująco55. Załóżmy, że przedmiotem uczenia będzie SSN

składająca się z L warstw. W każdej warstwie znajduje się Nk elementów, k = 1,

…, L oznaczonych jako ADik , i = 1, …, Nk , przy czym każdy element AD jest

neuronem nieliniowym na swym wyjściu. Sieć posiada również N0 wejść, na które

podawane są sygnały u1(n), …, zapisane w postaci wektora: )(nuN0

1,2,...n nunuu TN == )](),...,([

01

Sygnał wyjściowy i – tego neuronu w k – tej warstwie jest oznaczony jako yi(k)(n), i

= 1, …, Nk, k = 1,..., L. Neuron ADik ma Nk wejść tworzących wektor:

TkN

kk nxnxnxk

)](),...,([)( )()()(10 −

= ,

przy czym xi(k)(n) = +1 dla i = 0 oraz k = 1, …, L. Sygnał wejściowy neuronu ADi

k

jest powiązany z sygnałem wyjściowym warstwy k – 1 w sposób następujący:

⎪⎩

⎪⎨

⎧

==+==

= −

. L1,...,k 0,idla L2,...,kdla )(

k dla )()( )()(

1

11 ny

nunx k

i

ik

i

55 D. Rutkowska, M. Piliński, L. Rutkowski: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte. Warszawa: PWN. 1997. s. 34–38

113


zagrożenia upadłością Wagę i – tego neuronu, i = 1, …, Nk, w warstwie k łączącą ten neuron z j – tym

sygnałem wejściowym xj(k)(n), j = 0, 1, … ,Nk-1 oznaczamy jako wij

(k)(n). Wektor

wag neuronu ADik oznacza się jako:

kTk

Nik

ik

i Ni Lk nwnwnwk

,...,...,)](),...,([)( )(,

)(,

)( 1110 ===−

Sygnał wyjściowy neuronu ADik w chwili n - tej, n = 1,2,…, jest określony jako:

))(()( )( nsfny ki

ik = ,

przy czym

∑−

=

=1

0

kN

j

kj

kij

ki nxnwns )()()( )()()( .

Można zauważyć, że sygnały wyjściowe neuronów w warstwie L – tej:

)(),...,(),( nyny ny LN

LLL21 ,

są jednocześnie sygnałami wyjściowymi całej sieci. Są one porównywane z tzw.

sygnałami wzorcowymi sieci:

)(),...,(),( nd nd nd LN

LLL21 ,

w wyniku czego można sformułować postać błędów:

LL

iL

iLi Ni nyndn ,...,)()()( )()( 1=−=ε .

Dzięki temu możliwym jest określenie funkcji błędów, w rozpatrywanym przypadku

błędu typu MSE, o postaci:

∑ ∑= =

−===L LN

i

N

i

Li

Li

Li nynd

nn

nnQMSE

1 1

211 2

))()(()()( )()()(ε

Z poprzednich formuł wynika zatem, że miara błędu jest funkcją wag sieci.

Uczenie sieci polega na adaptacyjnej korekcji wszystkich wag wij(k)(n) w taki

sposób, aby miarę tą zminimalizować. Do korekcji dowolnej wagi możemy

zastosować regułę najszybszego spadku, która przyjmuje postać:

)()()()( )(

)()(

nwnQnwnw k

ij

kij

kij ∂

∂−=+ η1 ,

gdzie stała η > 0 określa wielkość kroku korekcji. Zauważając, że:

)()(

)()()(

)()(

)()( )(

)()(

)(

)()( nxns

nQnwns

nsnQ

nwnQ k

jki

kij

ki

ki

kij ∂

∂=

∂∂

⋅∂∂

=∂∂

114


zagrożenia upadłością Oznaczając następnie:

)()()(

nsnQ

ki

ki ∂

∂−=

21δ

otrzymujemy równość:

)()()()( nw jik

ij∂)( )( nxnnQ kkδ2−=∂

a zatem zapisana wcześniej reguła najszybszego spadku przyjmuje postać:

wartości wyrażenia δi(k)(n) zależy od warstwy. Dla

warstwy ostatniej jest to:

)()()()( )(()()( nxnnwnw kj

ki

kij

kij ηδ21 +=+

Sposób obliczenia

)

=∂

∂−=−=

∑=

)(

)(

)()()( )(

)(

)()(

ns

n

nsnQn L

i

N

m

Lm

Li

Li

L

1

2

21

21

ε

δδδ

=∂

−∂−=

∂∂

−=)(

))()(()()(

)(

)()(

)(

)(

nsnynd

nn

Li

Li

Li

Li

Li

2

21

21

2

εε

))((')()()( ns L

ii ∂

)()( )()()(

)( nsfnnyn Li

Li

LiL εε =

∂= .

Dla dowolnej warstwy k ≠ L otrzymujemy:

∑+

=

+

+ =∂∂

∂∂

−=−=1

1

1

121

21 kN

mk

i

km

km

Li

Li ns

nsns

nQns

nQn)()(

)()(

)()()( )(

)(

)()()(

δδδ

== +

=

+∑+

))((')()( )()()( nsfnwn ki

kmi

N

m

km

k1

1

11

δ

)()())((' )()()( nwnnsf kmi

mmi

1=

Definiując błąd

Nkk

k11

1++∑

+

= δ .

dla i –tego neuronu w k – tej warstwie (za wyjątkiem warstwy

ostatniej) jako:

∑+

+ −==1

=

1 11kN

kk Lk nwnn ,...,),()()( )()( δε ,

a następnie podstawiając powyższą formułę do wzoru na δi(k)(n) otrzymujemy:

algorytm wstecznej propagacji błędów można sformułować

następująco:

1mmimi

))((')()( )()()( nsfnn ki

ki

ki εδ = .

Ostatecznie

115



))(()( )( nsfny ki

ik = ,

,

nwn

Lknyndn kN

m

kmi

km

Li

Li

ki ,...,dla )()(

dla )()()( )()(

)()(

)(

δε

,

.

ość funkcji aktywacji i

reguluj

i minimów globalnych ilustruje prezentowany

wcześ

∑−

=

=1

0

kN

j

kj

kij

ki nxnwns )()()( )()()(

⎪⎩

⎪⎨⎧

−=

=−=∑

+

=

++ 111

1

11 Lk

))((')( )()()( nsfn ki

ki

ki εδ =

)()()()( )()()()( nxnnwnw kj

ki

kij

kij ηδ21 +=+

Dla dużych sieci i ciągów uczących składających się z wielu tysięcy

wektorów uczących ilość obliczeń wykonywanych podczas całego cyklu uczenia

jest gigantyczna a więc i czasochłonna. Nie zdarza się także aby sieć została

dobrze zbudowana od razu. Zawsze jest ona efektem wielu prób i błędów.

Ponadto nigdy nie mamy gwarancji, że nawet prawidłowa sieć nie utknie w

minimum lokalnym podczas gdy interesuje nas znalezienie minimum globalnego.

Dlatego algorytmy realizujące SSN wyposaża się mechanizmy dające

nauczycielowi możliwość regulacji szybkości i jakości uczenia. Są to tzw.

współczynniki: uczenia i momentum. Wpływają one na strom

ą szybkość wpływu zmiany wag na proces uczenia.

Krok korekcji η ,nazywany współczynnikiem uczenia powinien przyjmować

wartości większe (bliższe jedności) na początku procesu uczenia sieci, a

następnie należy go zmniejszać wraz z dochodzeniem do minimalizacji błędów56.

Dokładna długość kroku, ma bardzo duże znaczenie dla szybkości procesu

uczenia. Jeżeli długość ta jest za mała, to zbieżność będzie powolna, jeżeli

natomiast długość kroku będzie za duża, to wartości funkcji błędu będą

wykonywać gwałtowne skoki i nigdy nie osiągną minimum całkowitego (problem

minimów lokalnych

niej rys. 21)57.

56 Szeroki przegląd współczynników uczenia i możliwości ich zastosowania przedstawia: S. Osowski: op. cit. s. 61-68. 57 T. Masters: op. cit. s. 100.

116



Po drugie wyróżnia się modyfikację metody wstecznej propagacji błę ów, w

eżącego gradientu i poprzednio znalezionego kierunku. Ideą tej

modyf

ze wartości początkowe wag tworzących sieć

są wy

tem prezentacji ciągu weryfikującego z tą

różnic

d

której do rekursji )()( 1+nw kij dodawany jest dodatkowy człon nazywany momentum,

otrzymuje się zatem:

)]()([)())((')()()( )()()()()()()( 121 −−++=+ nwnwnxnsfnnwnw kij

kij

kj

ki

ki

kij

kij αηε

Wprowadzenie członu momentu umożliwia niedopuszczanie do

wykonywania żywiołowych zmian kierunków w których poszukiwane są

rozwiązania minimalizujące wartości błędów. Każdy nowy kierunek oblicza się jako

ważoną sumę bi

ikacji jest to, iż odfiltrowując szybkie lokalne fluktuacje otrzymuje się trend w

kierunku bardziej globalnego minimum, dzięki czemu znacznie przyspiesza się

proces uczenia.

Podsumowując rozważania dotyczące algorytmu wstecznej propagacji

błędów należy podkreślić, że pierws

bierane losowo i są na ogół bliskie zeru. Po nauczeniu sieci zawsze warto

dla sprawdzenia otrzymanych wyników powtórzyć całą procedurę od

wygenerowania wag początkowych

Jeżeli mamy już nauczoną sieć, musimy zweryfikować jej działanie. W tym

momencie ważne jest podanie na wejście sieci wzorców spoza zbioru

treningowego w celu zbadania czy sieć może efektywnie generalizować zadanie,

którego się nauczyła. Do tego używamy ciągu weryfikującego – testującego, który

ma te same cechy co ciąg uczący tzn. dane dokładnie charakteryzują problem i

znamy dokładne odpowiedzi. Ważne jest jednak, aby dane te nie były używane

uprzednio do uczenia. Dokonujemy za

ą, że w tym procesie nie rzutujemy błędów wstecz a jedynie rejestrujemy

ilość odpowiedzi poprawnych i na tej podstawie orzekamy, czy sieć spełnia nasze

wymagania czyli jak została nauczona.

Sztuczne sieci neuronowe są szczególnie mocno wykorzystywaną metodą

rozpoznawania w ostatnich latach. Dzieje się tak dlatego, iż istota ich działania

pozwala na osiągnięcie wyników przewyższających wyniki otrzymywane w

metodach opisanych wcześniej. Sztuczne sieci neuronowe w swej budowie oraz

procesie uczenia nie bazują bowiem na założeniach statystycznych dotyczących

danych ilościowych będących przedmiotem klasyfikacji. Poza tym algorytmy te

mają możliwość optymalnego dostosowania się do zadanego problemu osiągając

117


zagrożenia upadłością zadany z góry niewielki poziom błędów. Krytyka SSN skupia się głównie na

ogromnej liczbie obliczeń wykonywanych w procesie uczenia oraz na niemożności

zinterpretowania wartości wag synaptycznych, jednakże wady te przestają być

ążli go wspomaganego

dpowiednim oprogramowaniem.

eczywistości

upadło

rzedsiębiorstwo o dobrej kondycji finansowej zostanie

empirycznej oceny jakości reguły dyskryminującej przebiega w

– j dla obiektów o znanym

uci wymi dzięki zastosowaniu sprzętu komputerowe

o

4. Empiryczna ocena jakości klasyfikacji dychotomicznej

Zagadnienie przewidywania możliwości bankructwa przedsiębiorstwa ze

swojej metodologicznej strony skupia się na zastosowaniu metod ilościowych

umożliwiających dokonywanie klasyfikacji złożonych, wielowymiarowych obiektów.

Celem wykorzystania tych metod jest zatem rozpoznanie obiektu, którego obraz

tworzony jest przez wektor charakterystyk, będących wartościami wskaźników

finansowych, a który to wektor określa sytuację finansową spółki, i

zaklasyfikowanie firmy, przy wykorzystaniu określonej na podstawie próby uczącej

funkcji dyskryminującej, do grupy przedsiębiorstw zagrożonych bądź

niezagrożonych upadłością. Jednakże ze względu na fakt, że określenie

parametrów przyjętej funkcji dyskryminującej nastąpiło na drodze estymacji

bazującej na obiektach występujących w próbie uczącej, których to charakterystyki

mogą odbiegać od charakterystyk występujących w całej populacji, dlatego też

klasyfikacja58 obiektów spoza próby uczącej może być obarczona błędem. W tym

przypadku błąd ten będzie przyjmował formę zaklasyfikowania niezgodnego ze

stanem faktycznym, co oznacza, że przedsiębiorstwo, które w rz

zostanie zaklasyfikowane do grupy przedsiębiorstw nie zagrożonych

bankructwem, natomiast p

zaklasyfikowane do grupy przedsiębiorstw zagrożonych upadłością.

Procedura

następujących etapach59:

obliczenie wartości funkcji dyskryminujące

pochodzeniu,

58 W przypadku prognozowania bankructwa występuje konieczność dokonywania klasyfikacji dychotomicznej 59 D. Hadasik: Upadłość… . op. cit. s. 121.

118


zagrożenia upadłością – określenie na podstawie oszacowanej wartości funkcji przynależności

badanych obiektów do rozważanych populacji,

klasyfikacji,

– osz

klasyfikacji,

– we

u jednak na uniwersalny charakter

model

weryfikacji stosowane są te same

obiekty. Próba analityczna i próba walidacyjna są w tym przypadku identyczne, co

– konstrukcja tzw. macierzy trafności

acowanie na podstawie macierzy klasyfikacji empirycznych wskaźników

jakości

ryfikacja otrzymanych wartości.

Przeprowadzając powyższy proces należy mieć na uwadze następujące

zjawiska:

Po pierwsze ważne jest, aby weryfikacja otrzymanego modelu

klasyfikującego była przeprowadzana przy wykorzystaniu obiektów, które nie

stanowiły próby uczącej, a których przynależność do grup musi być znana a priori.

Grupa ta nazywana jest często grupą walidacyjną, przez co prezentowany proces

weryfikacji jakości otrzymanej reguły dyskryminującej nazywany jest również

procesem walidacyjnym. Wykorzystywanie specjalnej grupy walidacyjnej jest

podyktowane koniecznością dokonania obiektywnej oceny jakości oszacowanego

modelu. Z założenia bowiem funkcja rozdzielająca dwie rozpatrywane populacje,

której parametry zostały określone na podstawie grupy uczącej tworzonej przez

obiekty wchodzące w skład tychże populacji, winna doskonale rozdzielać obiekty

będące nauczycielami modelu. Ze względ

u, który winien rozpoznawać obiekty spoza podpopulacji będących

nauczycielem, należy rzeczywistą efektywność modelu diagnozować na podstawie

danych wykraczających poza grupę uczącą.

Po drugie, dokonanie analizy modelu klasyfikującego z wykorzystaniem

grupy walidacyjnej związane jest z koniecznością posiadania odpowiednio dużej

liczby obiektów w obu populacjach, tak aby model określany z wykorzystaniem

danych będących nauczycielem posiadał zdolność do rozpoznania wszystkich

cech charakteryzujących przynależność obiektów do obu populacji. Liczba tychże

obiektów musi być również na tyle duża, aby występowała w nim grupa obiektów

będących grupą walidacyjną, co umożliwi wnioskowanie o efektywności

praktycznego zastosowania wypracowanego modelu. W praktyce często

występującym problemem jest mała liczba zaklasyfikowanych obiektów, co

sprawia że tak do budowy modelu jak i jego

119


zagrożenia upadłością sprawia, że ocena modelu jest zawyżona i nie gwarantuje wysokiej efektywności w

przypadku weryfikacji obiektów zewnętrznych.

Konieczność empirycznej oceny efektywności wykorzystania modeli

klasyfikujących doprowadziła do wykształcenia tzw. macierzy trafności klasyfikacji

(ang. accurancy matrix)60, która umożliwia określenie odsetka błędów

powstających w procesie klasyfikacji. W tym miejscu koniecznym jest

wprowadzenie pojęcia błędu typu I oraz typu II powstających w klasyfikacji

obiektów należących do dwóch populacji. Błąd typu I określa zakwalifikowanie

obiektu należącego do populacji p1 do populacji p2, natomiast błąd typu II to

zaklasyfikowanie obiektu z populacji p2 do populacji p1. Macierz trafnośc

klasy rozp

Przynależ ć obiektu do populacji stawie

eprowadzonej klasyfik

i

fikacji ma w atrywanym przypadku następującą postać:

noprzś na

acji podRzec sta

ależ obiektu do populacji P1 p2

Liczebno róby w danej populacji

zyność

wi ść pprzyn

p1 n11 n12 N1p2 n21 n22 N2

W powyższej macierzy poprzez p1 oraz p2 zostały oznaczone dwie

populacje do których zaklasyfikowane mają zostać rozpoznawane obiekty,

natomiast poprzez nmn oznaczono liczbę obiektów zaliczonych do poszczególnych

pozycji macierzy. I tak poprzez n11 oznaczono liczbę obiektów pochodzących z

populacji p1, które na podstawie oszacowanej wartości funkcji dyskryminującej

zostały zaklasyfikowane również do populacji p1. Przez n22 oznaczono natomiast

liczbę obiektów pochodzących z populacji p2, które również na podstawie

oszacowanej wartości funkcji dyskryminującej zostały zaklasyfikowane do

populacji p2. Oznacza to, iż liczebność obiektów na głównej przekątnej macierzy

trafności klasyfikacji określa ilość poprawnych klasyfikacji obiektów. Inaczej

przedstawia się sytuacja w przypadku liczebności n12 oraz n21. Pierwsza z tych

wartoś

mpirycznej poprawności

posiadanej reguły klasyfikacyjnej. I tak, ogólną trafność przeprowadzonej

klasyfikacji obliczymy za pomocą następującej formuły:

ci określa liczbę popełnionych błędów typu I, druga natomiast to liczebność

obserwacji, przy których klasyfikacji popełniony został błąd typu II.

Powyższe wartości umożliwiają określenie e

60 E. Altman: Corporate Bankruptcy Prediction. A Discriminant Analysis. New York&London: Gerland Publishing 1988. s. 66.

120



Nnn 2211 +=ϕ ,

gdzie:

=2

N

Całkowity odsetek błędnych klasyfikacji można obliczyć wykorzystując

proste

∑∑= =1

2

1n mnmn – oznacza łączną liczbę obiektów stanowiących grupę walidacyjną.

przekształcenie:

ϕ−=ϕ 1B' .

porównań różnych metod klasyfikacji

obiektów są współczynniki określające odsetek popełnionych błędów typu I i II. Ich

wartość obliczymy za pomocą wzoru:

Otrzymana wartość pozwoli na określenie jak duży poziom błędów generuje

oszacowana formuła klasyfikująca.

Często wykorzystywanymi do

1

12

Nn

I =ϕ' ,

oraz

2N

gdzie:

21nII =ϕ' ,

2

ony

minimalne wartości funkcji rozdzielającej dla przedsiębiorstw funkcjonujących i

maksymalne wartości tejże funkcji dla przedsiębiorstw bankrutów (rysunek 1).

N1 , N – oznaczają liczebności obiektów w populacjach p1 oraz p2

należących do grupy walidacyjnej.

Występowanie błędów w klasyfikacji obiektów sprawia, iż możliwym staje

się określenie tzw. sfery niepewności, czy też szarej strefy. Strefa ta ograniczona

jest przedziałem (Zpfmin , Zpu

max), którego skrajnymi wartościami są z jednej str

121



Rysunek 22

Problem „szarej strefy”– tj. występowania błędów klasyfikacji generowanych przez

ródło: opracowanie własne na podstawie: W. Tarczyński: Analiza yskryminacyjna na giełdzie papierów wartościowych. „Przegląd Statystyczny”

asyfikowanych. W takim wypadku decyzja co do zaklasyfikowania

doprowadził do wykształcenia metod pozwalających na oszacowanie tzw. punktu

Przedsiębiorstwaupadłe

Przedsiębiorstwafunkcjonujące

Szara strefa

ZdpfZmin

puZmax

otrzymaną regułę klasyfikującą

Źd1996. nr 1- 2. s. 63.

Określenie przedziału strefy niepewności możliwe jest po dokonaniu oceny

jakości klasyfikacji funkcji dyskryminującej za pomocą próby walidacyjnej.

Znajomość rzeczywistej przynależności obiektów składających się na tą grupę

umożliwia bowiem wskazanie przedziału wartości funkcji, w których decyzje co do

przynależności obiektu do grupy nie mogą być podjęte. Dzięki wartościom

przedziału tworzącego szarą strefę możliwe jest uniknięcie podjęcia błędnych

decyzji określających przynależność do rozpatrywanych populacji obiektów

jeszcze nieskl

obiektu nie jest podejmowana w celu uniknięcia ewentualnych błędów

klasyfikacji61.

Problem występowania strefy niepewności oraz niemożność podejmowania

decyzji w określonym przedziale wartości funkcji dyskryminującej (rozdzielającej)

61 Należy zwrócić uwagę na problem kosztów związanych z błędną klasyfikacją obiektów. W przypadku problemu prognozowania upadłości przedsiębiorstw koszty błędnej klasyfikacji zależą od wykorzystania narzędzia jakim jest model klasyfikujący firmy ze względu na możliwość ich upadku. Jednym z najbardziej znanych zastosowań jest zatem wykorzystanie modeli jako narzędzi określających zdolność przedsiębiorstwa do zaciągania kredytów inwestycyjnych. W tym przypadku błędna decyzja typu I (podjęcie decyzji obciążonej błędem typu I) oznacza możliwość wystąpienia strat związanych z niespłaceniem zaciągniętego kredytu, koszty takiej decyzji są zatem wysokie. Podjęcie błędnej decyzji typu II to nie udzielenie kredytu przedsiębiorstwu dobrze funkcjonującemu i zaklasyfikowanie go do grupy przedsiębiorstw – bankrutów. W tym przypadku możemy mówić o kosztach utraconych korzyści, gdyż bank lub inna instytucja finansująca nie osiągnie dochodów z tytułu płaconych przez kredytobiorcę odsetek, jednakże rzeczywiste koszty błędnej decyzji wydają się być mniejszymi niż w pierwszym przypadku.

122


zagrożenia upadłością krytycznego62 (ang. cutoff point). Oszacowanie tego punktu jest jednak związane z

przyjęciem szeregu założeń dotyczących np. występowania rozkładu normalnego

wartości funkcji dyskryminującej dla populacji firm funkcjonujących jak i

bankrutujących. Poza tym w literaturze z krytyką spotykają się następujące

czynniki: fakt określania punktu krytycznego ex post, określanie jego wartości na

podstawie testu wielkości błędów otrzymanych z próby bez posługiwania się

modelami statystycznymi oraz fakt występowania niejednorodnych

prawdopodobieństw upadku w posiadanej próbie i w całej populacji63. Niekiedy do

określenia wielkości błędu wykorzystywane są takie parametry jak koszt podjęcia

błędnych decyzji64. W takich warunkach problem ten sprowadza się do

zastosowania szczególnego przypadku bayesowskiej teorii minimalizacji

średniego ryzyka błędu, a konkretnie do minimalizacji średnich kosztów podjętych

decyzji, w przypadku kiedy ustalone są straty powstające w wyniku popełnienia

określonych błędów oraz koszty poprawnego postępowania po podjęciu

prawidłowej decyzji65. Jednak i tu wadą jest konieczność występowania rozkładu

normalnego wartości funkcji dyskryminującej jak również konieczność znajomości

wielkości kosztów odpowiadających konkretnym decyzją. Na uwagę zasługuje

również fakt, iż nie we wszystkich metodach klasyfikacji możliwe jest oszacowanie

tej wartości. Znajomość wartości przedziału „szarej strefy” jest niezbędna

szczególnie w praktycznych zastosowaniach rozpatrywanych modeli, kiedy to

obiektami klasyfikowanymi są przedsiębiorstwa, dla których wartość funkcji

dyskryminującej stanowić może diagnozę ich obecnej kondycji finansowej i formę

antycypowania o zagrożeniu upadłością. W takim przypadku konsekwencje

błędów w dokonywanej klasyfikacji przedsiębiorstwa mogą odbić się na dalszym

funkcjonowaniu podmiotu. W niniejszym opracowaniu wyniki klasyfikacji

62 Szerzej o problemach związanych z wyznaczaniem punktu krytycznego: E. I. Altman: Corporate Financial Distress and Bankruptcy. New York: Wiley 1993. s. 254-264; jak również: R.A. Eisenbies, R.B Avery: Discriminant Analysis and Classification Procedures. Theory and Applications. Toronto&London: Lexington Books. 1972. s. 21-25.

65 R. Tadeusiewicz, C. Kulik: Elementy cybernetyki ekonomicznej. Kraków: Wydawnictwo Akademii Ekonomicznej w Krakowie. 1974. s. 1984.

63 S.J. Hsieh: A Note on the Optimal Cutoff Point in Bankruptcy Prediction Models. Journal of Business Finance & Accounting. 20(3), April 1993. S 457-463. 64 Szczegółowe badania przeprowadzone przez H. C. Koh(H. C. Koh: The Sensitivity of Optimal Cuttoff Points to Misclassification Coast of Type I and Type II Errors in the Going-Concern Prediction Context. Journal of Business Finance & Accunting. 19(2). January 1992. S. 187-198.) pozwoliły wykazać, iż aczkolwiek na optymalną wartość punktu krytycznego wpływ mają koszty błędnych klasyfikacji (ang. misclassification coasts) to jednak wpływ ten jest niewielki. Optymalny punkt krytyczny jest raczej nieczuły, jak wskazuje H. C. Koh, na zmiany stosunku kosztów związanych z popełnieniem błędu I typu, do kosztów związanych z popełnieniem błędu typu II. Wyniki przeprowadzonych badań wskazały, że optymalna wartość punktu krytycznego nie zmieniała się dla stosunku kosztów I typu do kosztów II typu w zakresie od 1:1 aż do 1:71. Oznacza to, że nawet wysokie dysproporcje w stosunku wartości obu rodzajów kosztów posiadają znikomy wpływ na zmiany wartości punktu krytycznego.

123


zagrożenia upadłością przedstawiane będą wraz z wartościami przedziału określanego mianem strefy

nie wyznaczenie

unktu krytycznego jako połowy wielkości pomiędzy wartościami granicznymi.

odejściem do

ych. Jak bowiem wykazały badania przeprowadzone na

wiecie, których podsumowanie zawarte jest w punkcie następnym, efektywność

chże modeli obok jakości danych ilościowych jest również uzależniona od samej

etody obliczeniowej.

niepewności. Do klasyfikacji testowej obiektów przyjęte zosta

p

5. Porównawcza analiza metod rozpoznawania z nauczycielem

Omówione wyżej metody charakteryzują się zróżnicowanym p

problemu rozpoznawania z nauczycielem. Różnice te wynikają tak z idei działania

samych algorytmów, jak również ze statystycznych założeń, których przyjęcie

stanowiło podstawę ich zbudowania. Różnice te prezentuje tabela 7.

Zróżnicowanie omówionych niżej metod jest przyczyną dla której

koniecznym wydaje się być określenie efektywności ich zastosowania w

zagadnieniu jakim jest przewidywanie zagrożenia upadłością w polskich

warunkach gospodarcz

ś

ty

m

124



Tabela 7

Porównawcza analiza ilościowych meAnaliza dyskryminacyjna (LDA)

tod przewidywania zagrożLogit, Probit

enia bankructwem Sztuczne sieci neuronowe

(SSN) Opis

Idea działalgorytmu

ania dstawie

okonanych porównań z artościami rzeczywistymi,

klas

rawdopodobieństwo zajścia kreślonego zdarzenia

rozp

awania biektów na podstawie formacji zawartych w

Budowa funkcji, której wartości umożliwiają, na podwokreślenie przedziałów

yfikujących obiekty

Budowa algorytmu określającego pozaklasyfikowania obiektów do

atrywanych populacji

Uczenie się rozpoznoinpróbie będącej nauczycielem

Przzałożenistatystyc ne: – dan

bada cze,

modelu

– u

ady wektorów losowych X mają

ści o wielowymiarowym rozkładzie normalnym,

–

ści pozwala na

ożeń

–

ogistycznego (Logit) lub rozkładu

brak założeń co do aci rozkładów

danych,

ymaeci,

– unormowane w

yjęte a ze w

– postać analityczna

– sygnaływyjściowe

dla obiektów z obpopulacji rozkł

dane funkcje gęsto

– funkcja liniowa,

– nie są unormowane i mogą

przybierać dowolne wartości,

założenie występowania liniowości logarytmu naturalnego ilorazu

post

wiarygodnouwolnienie się od załdotyczących postaci rozkładów w obu klasach, funkcja prawdopodobieństwa wykorzystuje dystrybuantę rozkładu l

normalnego (Probit), – unormowane w przedziale

[0, 1],

–

– określenia w ga

jedynie architektura si

przedziale [0, 1],

Znajomość postaci funkcji (powierzchni) rozdzielabadane grupy

jącej

Zakłada się występowanie liniowej postaci funkcji rozdzielającej obiekty należące do dwóch grup

Brak założeń co postaci funkcji rozdzielającej

Brak założeń co postaci funkcji rozdzielającej

Występowanie w Wystąpienie braków w danych w danych opisujących

u

braków danych opisujących obiekty

opisujących obiekty uniemożliwia dokonania prawidłowe klasyfikacji obiektu

Wystąpienie braków w danych opisujących obiekty uniemożliwia dokonania prawidłowej klasyfikacji obiektu

Brakiobiekty nie stanowią przeszkody w dokonaniu klasyfikacji obiekt

Sposób nabywania wiedzy przez

Uczenie się poprzez dostosowanie parametrów funkcji do danych tworzących

się poprzez Nabywanie wiedzy poprzez uczenie się i

model grupę będącą nauczycielem

Uczenie znalezienie ekstremum funkcji pozwalającej na określenie prawdopodobieństw klasyfikacji obiektów

zapamiętywanie poprawnych wyników

Możliwości W zakresie postaci analitycznej yjnej (np. sie przyjętych metod

rozwiązywania równań nieliniowych (met. Newtona, quasi – Newtona, Marquardta itp.).

y sieci, funkcji aktywacji, funkcji błędu, algorytmy uczącego.

W zakresie postaci przyjętych dystrybuant: rozkładu logistycznego, normalnego; w zakre

W zakresie architektur

modyfikacji algorytmów

funkcji dyskryminacfunkcja kwadratowa).


125

Documents

5. Prognozowanie upadłości przedsiębiorstwa - Rozdział III