28
ASK, 7996, nr 2 (4), strony 703-730 Copyright by ASK, ISSN 7 234-9224 Henryk ANALIZA ZMIENNYMI KATEGORIALNYMI. ZASTOSOWANIA PROGRAMU GUM chcemy dwiema zmiennymi: i kobiety) a kate- gorii - pracowników szczebla, prywatnych robotników wykwalifikowanych, robotników niewykwalifikowa- nych i rolników. i zawód typowymi zmiennymi kategorialnymi. Reprezentu- najprostszy poziom pomiaru, zwany nominalnym, gdzie zmiennej jedy- nie zbiór elementów ze na pewne cechy. i kobiety od siebie, podobnie kategorie zawodowe, natomiast nie w sta- nie, bez pewnych z tych kategorii lokuje od innej (lub ze na kryterium W od czy zawodu, poziom lub dochodów zmiennymi wymi. a dochody w sta- nie dystanse kategoriami. Pomiar zmiennymi nominalnymi wymaga innych technik sta- tystycznych w analizach zmiennych W socjologii empirycznej naj- bardziej jest modelowanie logarytmiczno-liniowe (na- zywane w skrócie: log-liniowym), stosowane od ponad 20 lat. tu praktycznej aplikacji analiz log-liniowych do rozstrzygania niektórych problemów, które w polu badaczy zjawisk nych. Czytelnicy, którzy nie mogli jej przy- dla analiz i jakie sto- program GLIM: od etapu jakim jest przygotowanie zbioru danych, poprzez uruchomienie programu, na interpretacji wyników. moim celem jest popularyzacja programu, prezenta- i modeli matematycznych, z których parame- trów zmiennymi. omówienie metodo- logicznych podstaw modeli log-liniowych specjalistyczne i pod- (zob. Bishop i in. 1975; Knoke i Burke 1980; Hout 1982; Kennedy 1983; Lissowski 1984; Goodman 1984; Wickens 1989; lshii-Kuntz 1994). Warto te pozy- cje na uwadze. jako praktyczne programem GLIM wymaga pewnej wiedzy o analizach log-liniowych od strony teoretycznej. Ich lektury niniejszego tekstu. • Uwagi do autora lub o nadbitki prosimy do: Henryk Instytut Filozofii i Socjologii PAN, 00-330 Warszawa, ul. Nowy 72, tel. 26 96 17, E-mail: RTFIS Ci" PLEARN.

ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ASK, 7996, nr 2 (4), strony 703-730 Copyright by ASK, ISSN 7 234-9224

Henryk Domański

ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI.

PRZYKŁADY ZASTOSOWANIA PROGRAMU GUM

Przypuśćmy, że chcemy określić siłę zależności pomiędzy dwiema zmiennymi: płcią (mężczyźni i kobiety) a grupą społeczno-zawodową, obejmującą sześć kate­gorii - inteligencję, pracowników umysłowych niższego szczebla, prywatnych przedsiębiorców, robotników wykwalifikowanych, robotników niewykwalifikowa­nych i rolników. Płeć i zawód są typowymi zmiennymi kategorialnymi. Reprezentu­ją najprostszy poziom pomiaru, zwany nominalnym, gdzie wartości zmiennej jedy­nie klasyfikują zbiór elementów ze względu na pewne cechy. Mężczyźni i kobiety różnią się od siebie, podobnie kategorie zawodowe, natomiast nie jesteśmy w sta­nie, bez przyjęcia pewnych założeń, twierdzić, że któraś z tych kategorii lokuje się od innej wyżej (lub niżej) ze względu na kryterium podziału. W odróżnieniu od płci czy zawodu, poziom wykształcenia, lub wielkość dochodów są zmiennymi ilościo­wymi. Specyfikują określoną hierarchię, a porównując dochody jesteśmy też w sta­nie określić dystanse między kategoriami.

Pomiar zależności między zmiennymi nominalnymi wymaga innych technik sta­tystycznych niż w analizach zmiennych ilościowych. W socjologii empirycznej naj­bardziej rozpowszechnioną techniką jest modelowanie logarytmiczno-liniowe (na­zywane w skrócie: log-liniowym), stosowane od ponad 20 lat. Przedstawię tu moż­liwości praktycznej aplikacji analiz log-liniowych do rozstrzygania niektórych problemów, które znajdują się w polu zainteresowań badaczy zjawisk społecz­nych. Czytelnicy, którzy nie posługiwali się tą techniką będą mogli ocenić jej przy­datność dla własnych analiz i dowiedzieć się, jakie czynności należy wykonać sto­sując program GLIM: od etapu początkowego, jakim jest przygotowanie zbioru danych, poprzez uruchomienie programu, kończąc zaś na interpretacji wyników. Ponieważ moim celem jest wyłącznie popularyzacja programu, pominę prezenta­cję założeń i modeli matematycznych, z których wynikają właściwości parame­trów opisujących związki między zmiennymi. Szczegółowe omówienie metodo­logicznych podstaw modeli log-liniowych zawierają specjalistyczne artykuły i pod­ręczniki (zob. Bishop i in. 1975; Knoke i Burke 1980; Hout 1982; Kennedy 1983; Lissowski 1984; Goodman 1984; Wickens 1989; lshii-Kuntz 1994). Warto mieć te pozy­cje na uwadze. jako że praktyczne posługiwanie się programem GLIM wymaga pewnej wiedzy o analizach log-liniowych od strony teoretycznej. Ich znajomość byłaby ułatwieniem lektury niniejszego tekstu.

• Uwagi do autora lub prośby o nadbitki prosimy kierować do: Henryk Domański, Instytut Filozofii i Socjologii PAN, 00-330 Warszawa, ul. Nowy Świat 72, tel. 26 96 17, E-mail: RTFIS Ci" PLEARN.

Page 2: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

104 HENRYK DOMAŃSKI

ISTOTA METODY: JAKIE USTALENIA MOŻNA OTRZYMAĆ?

Modelowanie log-liniowe jest techniką przeznaczoną do testowania hipotez. W odróżnieniu od technik eksploracyjnych, nastawionych na rozpoznawanie siły związków, czego klasycznym przykładem jest analiza czynnikowa albo prosta ma­cierz korelacji, wychodzi się tu od określonego modelu zależności między zmienny­mi, który poddawany jest weryfikacji. Przykładowo - interesuje nas wpływ płci na przynależność do określonych kategorii zawodowych. Chcemy wiedzieć, czy jest on statystycznie istotny i czy rzeczywiście kobiety są niedoreprezentowane wśród robotników wykwalifikowanych, a mężczyźni wśród pracowników umysło­wych niższego szczebla, tak jak można by sądzić na podstawie obserwacji i wyni­ków badań z innych krajów. Wynik analizy ma odpowiedzieć na pytanie, czy hi­poteza wyspecyfikowana w modelu jest prawdziwa, czy nie. Jeśli jest, można zro­bić następny krok, dokonujqc oszacowania parametrów, wnikających w strukturę związku.

Przy tradycyjnym podejściu, problem wpływu płci na przynależność zawodową ujmowany będzie w postaci rozkładu w dwuwymiarowej tabeli. Zastosowanie te­stu chi-kwadrat pozwala ocenić, czy między zmiennymi zachodzi związek. Mierniki zależności oparte na chi-kwadrat (V Cramera, Phi Pearsona, T Czuprowa), jak rów­nież lambda Goodmana i Kruskala czy tau Kendalla charakteryzują siłę związku. O tym, jaki jest jego kształt możemy orzekać po wyprocentowaniu rozkładów po wierszach i kolumnach tabeli. O względnej przewadze mężczyzn i kobiet w danej kategorii informuje porównanie wielkości procentów.

Ten tradycyjny schemat ma 3 ograniczenia, od których wolne jest modelowa­nie log-liniowe. Po pierwsze, posługiwanie się testem chi-kwadrat i wymienionymi wyżej miernikami zawęża pole analiz do zależności między dwiema zmiennymi. Można oczywiście wprowadzić trzecią, czwartą i kolejne zmienne w postaci ta­bel. Jeśli badacz chce np. kontrolować zależność zawodu od płci ze względu na wiek i zawód ojca, to rozwiązuje ten problem krzyżując dwuwymiarowe rozkłady zawodu z płcią z kategoriami zawodowymi ojca i grupami wieku. W dalszym cią­gu jednak, nie można określić siły „czystej" zależności poprzez wielkość miernika, który identyfikuje związek netto, tj. przy uwzględnieniu wpływu zmiennych kontrol­nych. Tym samym, nie można stwierdzić, która z „częściowych" korelacji między poszczególnymi zmiennymi ma relatywnie większą wagę, zaś w miarę rozsze­rzania analiz o kolejne zmienne, rozkłady w tabelach stają się coraz mniej przej­rzyste.

Po drugie, stosowanie tau, lambda, czy V stwarza pewne trudności interpreta­cyjne. Ich wielkości nie mają uniwersalnej interpretacji - w terminach odsetka wa­riancji zmiennej Y, wyjaśnionej przez X, co stanowi np. zaletę kowariancyjnego wspołczynnika korelacji Pearsona. W przypadku kilku innych mierników, poważną niedogodnością jest fakt, że ich wielkość zależy od liczby wyróżnionych kategorii (wartości analizowanych zmiennych).

Po trzecie, pozostając na gruncie tradycyjnego schematu analizy, nie możemy oszacować siły interakcji między zmiennymi. Jak już powiedziano wyżej, w przy­padku zależności zawodu od płci są podstawy aby podejrzewać, że kobiety są nadreprezentowane wśród pracowników biurowych, a mężczyźni wśród robotni­ków wykwalifikowanych. Świadectwem występowania obu tych interakcji w dwu-

Page 3: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDlY ZMIENNYMI KATEGORIALNYMI 105

wymiarowej tabeli, powstałej ze skrzyżowania 6 kategorii zawodowych ze względu na dwie kategorie płci, byłaby stosunkowo większa liczebność dwóch pól tabeli odpowiadających wspomnianym kategoriom. W modelu log-liniowym można te­stować siłę tych interakcji oddzielając je od wpływu rozkładów podziału zawodo­wego i płci, czyli niezależnie od marginesów tabeli. Zdolność do uchwycenia efek­tu interakcji zwiększa możliwości analityczne. Pozwala bowiem pokazać strukturę związków, co daje wgląd w ich złożoność. Jest to szczególnie przydatne w anali­zach tabel mobilności społeczno-zawodowej, w których dąży się m.in. do ustale­nia wielkości „czystych" przemieszczeń między kategoriami - jako wskaźnika otwartości struktury społecznej - niezależnie od zmian w strukturze zawodowej, kontrolowanych przez wpływ marginesów.

Na czym polega testowanie hipotez w modelu log-liniowym? Przejdę do przy­kładu, do którego będziemy się już odwoływać do końca. Wielkości w tabeli 1 są dwuwymiarowym rozkładem kategorii społeczno-zawodowych w 1988 r. ze wzglę­du na kategorię społeczno-zawodową w 1983 r. W tabeli 2 przedstawiam rozkład analogicznie wyodrębnionych kategorii 6 x 6 charakteryzujących przemieszczenia i stabilność w latach 1988-1994. Są to dane z badania przeprowadzonego w 1994 r. na ogólnopolskiej próbie 3520 dobranych losowo mężczyzn i kobiet w wieku 20-69 lat (zob. Domański 1995). Na razie, w tabelach 1 i 2 uwzględniłem tylko mężczyzn.

Kategorie społeczno­-zawodowe w1983 r.

Inteligencja, wyższe kadry kierownicze przedsiębiorstw i administracji państwowej

Pracownicy umysłowi średniego szczebla

Prywatni przedsiębiorcy

Robotnicy wykwalifikowani

Robotnicy niewykwalifikowani

Właściciele gospodarstw i robotnicy rolni

Ogółem

Tabela l. Liczebności kategorii społeczno-zawodowych w 1988 r.

ze względu na przynależność zawodową w 1983 r. Mężczyźni

Kategorie zawodowe w 1988 r.:

Umysłowi Prywatni Robotnicy Robotnicy średniego nie

Inteligencja i niższego przedsię- wykwalifi- wykwali- Rolnicy Ogółem szczebla biorcy kowani likowani

190 3 20 4 4 3 224

2 30 o o 7 40

32 4 2 o 40

13 5 8 308 19 3 356

5 4 5 25 214 11 264

o 2 o 7 5 155 169

211 45 65 348 251 173 1093

Page 4: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

106

Kategorie społeczno--zawodowe w 1988 r.

Inteligencja, wyższe kadry kierownicze przedsiębiorstw i administracji państwowej

Pracownicy umysłowi średniego szczebla

Prywatni przedsiębiorcy

Robotnicy wykwalifikowani

Robotnicy niewykwalifikowani

Właściciele gospodarstw i robotnicy rolni

Ogółem

HENRYK DOMAŃSKI

Tabela 2.

Liczebności kategorii społeczno-zawodowych w 1994 r. ze względu na przynależność zawodową w 1988 r. Mężczyźni

Kategorie zawodowe w 1994 r.:

Umysłowi Prywatni Robotnicy Robotnicy

Inteligencja średniego przedsię- wykwalifi- nie Rolnicy Ogółem

i niższego biorcy kowani wykwali-szczebla likowani

149 4 24 3 4 185

10 26 4 3 2 46

o 61 o 2 2 66

4 8 25 277 30 8 352

4 3 31 16 175 5 234

2 o 4 4 5 153 168

170 41 149 303 218 170 1051

Sq to klasyczne tabele mobilności, będqce punktem wyjścia do analizy zmian tego procesu w czasie. Problem, który postaramy się rozstrzygnqć jest następujq­cy: czy natężenie mobilności w latach 1988-1994 uległo w porównaniu w okresem 1983-1988 zmianie? A jeśli tak, to czy zmalało ono czy wzrosło?

Oznaczmy liczebność dowolnego pola tabeli l symbolem mij, a symbolem Lii -logarytm naturalny mii (tj. logarytm o podstawie e), gdzie

Lii=logemij·

Niech, teraz, L (bez subskryptu) symbolizuje logarytm średniej liczebności Lij, dla wszystkich pól tabeli l, Li niech oznacza średniq liczebność Lij w wierszu i (czyli dla kategorii zawodowej i w 1983 r.), Lj - średniq liczebność Lij w kolumnie j (kate­gorii i dla 1988 r.), zaś Lij średniq liczebność dowolnego pola tabeli określonego przez jednq z 36 możliwych kombinacji ii·

Model log-liniowy dla tabeli l można przedstawić w postaci następujqcego równania:

(1)

co oznacza, że logarytm liczebności mii w kolejnych polach tabeli l jest sumq średniej liczebności, czyli tzw. głównego efektu (a), efektu przynależności (w 1983 r.) do kategorii i (ui), efektu przynależności (w 1988 r.) do kategorii j (vj), oraz inter­akcji uivj, czyli usytuowania w polu ij, identyfikujqcego bqdź wymianę między kate­goriami i i j, bqdź też stabilność zawodowq w latach 1983-1988, jeżeli i=j.

Efekty w modelu log-liniowym sq definiowane analogicznie jak w analizie wa­riancji. Ich wielkości informujq o różnicy w stosunku do średniej w rozpatrywanej

Page 5: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDlY ZMIENNYMI KATEGORIALNYMI 107

zbiorowości, gdzie każdemu efektowi odpowiada określona liczba stopni swobody (df). Przyjmując więc, że określony efekt a, u, lub v jest logarytmem tych wielkości, można je zdefiniować następująco:

a=L Ui = Li - L

Vj = Lj - L

UiVj = Lij - Li - Lj - L

df = l df = (1-1) df = (J-1) df = (I- l)(J-1)

Równanie (l) jest ogólną postacią modelu zależności między dwiema zmienny-mi. Posługując się nim można testować rozmaite hipotezy, przechodząc do modeli bardziej konkretnych, uwzględniając lub wyłączając poszczególne efekty, odpo­wiednio do przyjmowanych hipotez, dotyczących postaci związku. Dla większości analiz modelem wyjściowym jest hipoteza o niezależności zmiennych, która w roz­patrywanym tutaj przykładzie głosi, że przynależność zawodowa mężczyzn

w 1988 r. (oznaczmy ją przez Z2) nie była związana z miejscem w podziale zawo­dowym w roku 1983 (Zł). Innymi słowy, w równaniu (l) pomijamy uivi:

Ho: UjVj = 0

Według notacji stosowanej przy prezentacji wyników analizy log-liniowej, model niezależności można zapisać jako: Zł Z2. Oddzielenie nazw zmiennych spacją oz­nacza, że zmienne są niezależne.

Jak dokonuje się weryfikacji tej hipotezy? Program statystyczny generuje roz­kład oczekiwanych wielkości dla poszczególnych pól tabeli, odpowiadających hi­potezie. Następnie są one porównywane z rzeczywistymi (empirycznymi) wielko­ściami. Testuje się dopasowanie modelu do danych - o wyniku informuje wartość statystyki X2 Pearsona, albo tzw. likelihood-rotio (G2). Obydwie statystyki mają asymptotyczny rozkład chi-kwadrat o liczbie stopni swobody, która pozostaje po odjęciu od liczby pól tabeli sumy stopni, związanych z każdym efektem w zakłada­nym modelu. Tak więc, df= liczba pól w tabeli - liczba parametrów związanych z uwzględnionymi w modelu efektami.

Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających mu wartości krytycznych dla określonej liczby stopni swobody i przyjętego przez badacza pozio­mu istotności można znaleźć w tablicach statystycznych zamieszczonych w więk­szości podręczników statystyki matematycznej. Otrzymanie odpowiednio dużej wielkości X2 lub G2 (czyli wielkości znaczącej statystycznie) implikuje, że hipotezę o niezależności zmiennych (czyli, że efekt uivi równy jest zero) należy odrzucić. W analizowanym przez nas przykładzie, G 2 = 2192 przy 25 stopniach swobody (36 -5 - 5 - l = 25). Oczywiście ten model nie jest dopasowany do empirycznego roz­kładu w tabeli l. Wynika stąd, że kategoria zawodowa, w której było się w 1988 r. związana jest z pozycją zajmowaną w roku 1983 w istotnym stopniu. Posługiwanie się G2 daje większe możliwości analityczne niż chi-kwadrat (zob. Knoke i Burke 1980: 30) i z tego względu jest częściej stosowane w analizach - do tej statystyki będziemy się i tu odwoływać.

Warto jeszcze nadmienić w kwestii posługiwania się G 2 w sytuacji, gdy analizo­wane są zbiory danych o niejednakowej wielkości. Wartość G2 zależy bezpośred­nio od liczebności próby, co przy porównaniach danych z różnych prób rzutuje na wynik testu. Aby tego uniknąć, zaleca się standaryzację G 2 według formuły ((G2 -

Page 6: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

108 HENRYK DOMAŃSKI

df)/N) x K + df, gdzie K jest liczebnością zbioru przyjętego za standard (zob. Erikson i Goldthorpe 1992: 88).

Jeżeli chodzi o wielkości parametrów, to w analizowanym modelu są one na­stępujące. Efekt główny (a), czyli logarytm średniej dla wszystkich pól tabeli l wy­nosi 3,8. Dla kolejnych kategorii zawodowych w 1983 r. idąc od góry tabeli: u1 = 3,8, u2=- l, 72, u3 = -1, 72, u4 = 0,46 u5 = O, 16 i u6 = -0,28. I odpowiednio dla kategorii z 1994 r.: V1 = 2,3, V2 = -1,55, V3 = -1,18, V4 = 0,50, V5 = 0,17 i v6 =-0,20. Wielkości tych statystyk identyfikują nic innego, jak tylko odchylenia od średniej liczebności ogółem. Na przykład, 3,8 oznacza, że estymowana na podstawie modelu liczeb­ność inteligencji w 1983 r. najbardziej przewyższała średnią liczoną dla wszystkich kategorii łącznie, natomiast oczekiwane liczebności pracowników umysłowych i prywatnych przedsiębiorców były najniższe (-1, 72).

Wartości tych parametrów nie mają substantywnego znaczenia, jako że model niezależności nie odtwarza w akceptowalnym stopniu wzorów przemieszczeń po­między kategoriami w latach 1983-1988. Na ogół i tak nie są one przedmiotem in­terpretacji ze względu na to, że nie mają - zdaniem większości badaczy - intui­cyjnych odniesień do siły związku. Zamiast nich, autorzy zwykli się posługiwać tzw. stosunkami szans (ang. odds ratios), które są funkcją parametrów generowanych przez program. Ideę odds ratio, zilustruję w części dotyczącej interpretacji wyni­ków.

Przejdźmy do modelu zawierającego więcej zmiennych. Z uwagi na analizowa­ny problem musimy uwzględnić wpływ płci i czasu. Przedmiotem naszego zaintere­sowania jest bowiem dynamika mobilności, uchwyconej dla dwóch przedziałów czasowych i zachodzącej nie tylko w zbiorowości mężczyzn, ale i kobiet. Pytanie dotyczy tego, czy natężenie tych procesów było wśród mężczyzn i kobiet podob­ne, czy też różniło się w znaczącym stopniu i czy w latach 1988-1994 wzory mobil­ności były inne niż w pięcioleciu 1983-1988. Wprowadzamy więc do modelu: pleć (P), która ma dwie wartości (l =mężczyźni, 2=kobiety) i czas (C), również zmienna dwu-wartościowa ( l identyfikuje lata 1983-1988, a 2 1988-1994).

Ogólna postać modelu obejmującego 4 zmienne przedstawia się następująco:

Lijki= a + Ui + Vj + Xk + Z[ + UiVj + UiXk +UiZI + VjXk + VjZI + XkZI + UiVjXk + UiVjZI+ UiXkZI + VjXkZI + UiVjXkZI, (2)

Model (2) specyfikuje wszystkie możliwe efekty, które determinują, w sumie, roz-kład liczebności w czterowymiarowej tabeli: zawódl x zawód2 x pleć x czas (6 x 6 x 2 x 2). W porównaniu z modelem (l), w modelu (2) przyjmuje się dodatkowo, że pleć (xk) i kilkuletni upływ czasu (z1), różnicują rozmiary mobilności. Dalej, że między tymi dwiema jak również między nimi a przynależnością zawodową Zł i Z2 zacho­dzą interakcje (w modelu 2 jest w 5 dodatkowych interakcji dwuzmiennowych). Dochodzą ponadto 4 interakcje trzy-zmiennowe (wszystkie możliwe kombinacje czterech zmiennych w układzie trójkowym) i jedna cztero-zmiennowa. Czterowy­miarowa tabela, której rozkład będziemy analizować składa się ze 144 pól, których wielkości odpowiadają kolejnym polom tabel l, 2 oraz 3 i 4. W tych dwóch ostat­nich, zamieszczonych poniżej, figurują rozkłady dla kobiet. Są to tabele mobilności pomiędzy sześcioma (identycznymi jak dla mężczyzn) kategoriami zawodowymi w okresach 1983-1988 i 1988-1994.

Page 7: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDzy ZMIENNYMI KATEGORIALNYMI 109

Tabela 3 Liczebności kategorii społeczno-zawodowych w 1988 r. ze względu na przynależność

zawodową w 1983 r. Kobiety

Kategorie Kategorie zawodowe w 1988 r.:

społeczno- Umysłowi Prywatni Robotnicy Robotnicy -zawodowe średniego nie w 1983 r. Inteligencja

i niższe~o przedsię- wykwalifi- wykwali- Rolnicy Ogółem

szczeb a biorcy kowani likowani

Inteligencja, wyższe 192 16 2 2 214 kadry kierownicze przedsiębiorstw i administracji państwowej

Pracownicy umysłowi średniego szczebla

26 222 2 5 3 259

Prywatni przedsiębiorcy 2 o 11 o 1 o 14

Robotnicy 4 8 25 277 30 8 352 wykwalifikowani

Robotnicy 3 3 2 92 6 6 112 niewykwalifikowani

Właściciele gospodarstw i robotnicy rolni

o o 3 2 165 171

Ogółem 225 249 16 107 167 178 942

Tabela 4

Liczebności kategorii społeczno-zawodowych w 1994 r. ze względu na przynależność zawodową w 1988 r. Kobiety

Kategorie Kategorie zawodowe w 1994 r.:

społeczno- Umysłowi Prywatni Robotnicy Robotnicy -zawodowe

Inteligencja średniego przedsię- wykwalifi- nie Rolnicy Ogółem w 1988 r. i niższego wykwali-

szczebla biorcy kowani likowani

Inteligencja, wyższe 184 12 11 3 212 kadry kierownicze przedsiębiorstw i administracji państwowej

Pracownicy umysłowi 21 202 12 2 239 średniego szczebla

Prywatni przedsiębiorcy o 13 o o 2 16

Robotnicy o 2 7 70 7 2 88 wykwalifikowani

Robotnicy 8 5 6 121 8 149 niewykwalifikowani

Właściciele gospodarstw 3 2 o 5 142 153 i robotnicy rolni

Ogółem 208 227 50 81 135 156 857

Page 8: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

110 HENRYK DOMAŃSKI

PRAKTYCZNE ZASTOSOWANIE PROGRAMU GUM

Przejdę do praktyki analiz. Jak, opierając się na danych w czterowymiarowej tabeli, przeprowadzić analizę dającą wynik potwierdzający prawdziwość lub fal­syfikujący hipotezę na temat związku między określonymi zmiennymi kategorialny­mi? Istnieje kilka programów komputerowych przeznaczonych do celów modelo­wania log-liniowego, z których najczęściej stosowanymi są SPSS-LOGLINEAR, SAS­CATMOD, BMDP4F i GLIM. Omówię zastosowanie GUM (Genera/ised Linear Interactive Mode/ling). W porównaniu z SPSS-em, który jest w Polsce programem najlepiej znanym w środowiskach akademickich, GLIM jest wygodniejszy do zasto­sowania w analizach, gdzie występuje potrzeba łączenia danych z kilku odręb­nych zbiorów. Największe korzyści przynosi to we wszelkiego rodzaju studiach po­równawczych, gdzie badacz korzysta z danych otrzymanych dla różnych punktów czasowych, dla różnych krajów, lub też różnych miejscowości czy regionów w ra­mach jednego społeczeństwa. Materiałem wejściowym jest w GLIM macierz da­nych, której przygotowanie jest znacznie mniej pracochłonne, niż procedury łą­czenia zbiorów, dostępne w SPSS. Do sporządzenia macierzy wystarczy wygenero­wać tabele z oryginalnych zbiorów i wpisać otrzymane wielkości w formacie pliku (data file).

GLIM jest licencjonowanym pakietem programów, zajmującym stosunkowo mało miejsca. Jego pojemność nie przekracza 500 kB, a do uruchomienia wystar­czy komputer (PC) o pamięci wewnętrznej rzędu 4 Mego.

Poza modelowaniem log-liniowym GLIM oferuje możliwości prowadzenia wielu innych analiz, np. analizy regresji. Jest szczególnie użyteczny w analizie logitowej i logistycznej, kiedy to - odmiennie niż w modelowaniu log-liniowym - w zestawie rozpatrywanych zmiennych badacz specyfikuje w postaci kategorialnej zmienną wyjaśnianq, starając się określić jej związek z innymi zmiennymi. W klasycznej anali­zie logitowej zmienna wyjaśniana ma postać dychotomii (np. płeć w podziale na kobiety i mężczyzn), aczkolwiek istnieją techniki umożliwiające prowadzenie analiz, gdzie wyjaśnianym zjawiskiem jest zmienna nominalna przyjmująca więcej niż dwie wartości (zob. Menard 1995). GLIM jest programem rozpowszechnionym, który zna­lazł zastosowanie w klasycznych studiach z zakresu empirycznej socjologii (zob. Goldthorpe 1987; Erikson i Goldthorpe 1992; lshida i in. 1995).

Przedstawię obecnie kolejne etapy praktycznej aplikacji tego programu. Moż­na wejść do GUM po uprzednim przygotowaniu pliku zawierającego macierz da­nych i komendy specyfikujące testowany model. Tę procedurę, jako najwygod­niejszą, będę tu rekomendował. Możliwe są jeszcze dwie inne: (i) tworzenie pliku z danymi i komendami „na bieżąco", po wejściu do GLIM (w porównaniu z proce­durą, którą za chwilę przedstawię łatwiej tu jednak zrobić błędy przy wprowadza­niu danych), lub też (ii) ściągnięcie do GLIM danych zapisanych w innym forma­cie, np. SPSS, i operowanie nimi przy pomocy komend - danych się nie widzi, a przez to są one jakby poza kontrolq, co w pewnych sytuacjach jest niedogod­nością.

Page 9: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDlY ZMIENNYMI KATEGORIALNYMI 111

KOMENDY

Pierwszym krokiem jest przygotowanie pliku. Podzielę go na 3 części. Pierwszą jest macierz danych. Druga część, to lista analizowanych zmiennych, wyspecyfiko­wanie funkcji określającej związek pomiędzy zmiennymi a wartościami teoretycz­nego (według przyjmowanego modelu) rozkładu hipotetyczych wielkości oraz wskazanie, jakiego rodzaju ma to być rozkład. Trzecim elementem jest zestaw ko­mend specyfikujących testowany model.

Przykładową postać pliku odtwarza wydruk zamieszczony w załączniku A. Na samym początku trzeba podać liczbę analizowanych przypadków. W modelowa­niu log-liniowym przypadkiem jest pole tabeli. W analizowanym tu przykładzie. ta­bela liczy 144 pola (6 x 6 x 2 x 2) - tyle wiośnie przypadków rozpatrujemy. Infor­macja ta podana jest w pierwszym wierszu jako: 'Sunits 144'. $ (dolar) jest obliga­toryjnym rozpoczęciem większości komend w GLIM.

W dwóch następnych wierszach muszą się znaleźć komendy zapowiadające macierz danych: .. $data count" i „Sread". Macierz danych zaczyna się od czwar­tego wiersza wydruku i - w rozpatrywanym przez nas przypadku - zajmuje 24 ko­lejne wiersze. Wielkości podane w pierwszym: 190 3 20 4 4 3 są wielkościami z pierwszego wiersza tabeli l . Od l O do 15 wiersza wprowadzone są dane z tabeli 2 (tabela mobilności między 1988 i 1994 r.), dalej zaś zamieszczono rozkłady dla kobiet z tabel 3 i 4, odpowiednio dla lat 1983-1988 i 1988-1994. Dane wejściowe do GUM mogą być zapisane w tzw ... wolnym formacie" tzn. wystarczy jeśli wielko­ści dla kolejnych pól tabeli są w poszczególnych wierszach oddzielone spacją, na­tomiast nie muszą być uporządkowane według kolumn, tak jak w tabelach 1-4.

Macierz danych kończy się w 27 wierszu. Od tego miejsca zaczyna się poda­wanie informacji o rozkładzie zmiennych, mających być przedmiotem analiz . .. $data Zł" w 28 wierszu i „Sread" w kolejnym, wskazują, że poszczególnym jedno­stkom obserwacji z macierzy danych przypiszemy odpowiadające im wartości zmiennej Zł, czyli kategorii zawodowej. do której respondenci należeli na począt­ku każdego w rozpatrywanych okresów - w tabelach l i 3 jest to rok 1983. a w tabelach 2 i 4 - rok 1988. Wartość l dla Zł identyfikuje inteligencję. Tak więc, sześć „jedynek" w 30 wierszu jest informacją dla GLIM, że mężczyźni z pierwszego wiersza macierzy danych należeli w 1983 r. do kategorii inteligentów. Sześć „dwó­jek" w wierszu 31 informuje, że kolejny wiersz z macierzy danych, GUM ma czytać jako rozkład pracowników umysłowych niższego szczebla, przez „3" identyfikujemy prywatnych przedsiębiorców, ..4" robotników wykwalifikowanych. ,,5" robotników niewykwalifikowanych, a „6" rolników.

Wiadomo już. jakie wartości zmiennej Zł odpowiadają jednostkom obserwacji z rozkładu mężczyzn w kategoriach zawodowych dla 1988 r. ze względu na kate­gorię w roku 1983. Tę samą macierz 6 x 6 musimy zreplikować jeszcze 3 razy, iden­tyfikując w analogiczny sposób pozostałe 18 pól (obserwacji) z macierzy danych (dla mężczyzn w latach 1988-1994 i tak samo dla kobiet w obydwu przedziałach czasu).

Przechodząc do kodowania wartości zmiennej Z2. postępujemy identycznie. Po '$data Z2' i 'Sread' wpisujemy sześć 'jedynek' w pierwszej kolumnie. identyfikując liczebności inteligentów w 1988 r„ ze względu na ich przynależność do sześciu ka­tegorii w 1983 r. W drugiej kolumnie jest sześć 'dwójek. itd. Macierz tę replikujemy

Page 10: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

112 HENRYK DOMAŃSKI

jeszcze 3 razy (dla rozkładu mężczyzn w latach 1988-1994, i dla kobiet w latach 1983-1988 i 1988-1994).

Pozostały jeszcze dwie zmienne: upływ czasu i płeć. Pierwsza przybiera dwie wartości: l dla okresu 1983-1988 i 2 dla lat 1988-1994. Po ,,$data CZAS" i „Sread" zamieszczona jest informacja, że wielkości pierwszych 36 pól macierzy danych od­noszą się do tego pierwszego i 36 następnych - do drugiego przedziału czasu, dla mężczyzn. Ta sama sekwencja, na przemian wartości l i 2, powtórzona jest da­lej dla kobiet. Na koniec, kierujemy do GUM dyrektywę, jaki jest rozkład płci -wielkości macierzy danych dla mężczyzn są „jedynkami" - ,,dwójki" to kobiety.

Po informacjach na temat rozkładu zmiennych idą 4 komendy. W modelach log-liniowych nie ma ścisłego odpowiednika zmiennej zależnej (jak w równaniu re­gresji) - choć, jak wynika z równania (l) i (2), zjawiskiem wyjaśnianym jest rozkład liczebności wielowymiarowej tabeli. Mówi o tym komenda ,,$yvar count". W języku GUM, ,,count" informuje, że analizowany będzie wpływ zmiennych na rozkład li­czebności.

Kolejna komenda ,,$fac Zł 6 Z2 6 czas 2 piec 2" zawiera listę zmiennych - po każdej nazwie musi być podana liczba wyróżnionych kategorii. Następnie, ,,$link I" wskazuje ma rodzaj funkcji określającej zależność rozkładu liczebności od analizo­wanych predyktorów. W modelowaniu log-liniowym jest to funkcja logarytmiczna, oznaczona w GUM literą I (przykładowo, i symbolizuje relację tożsamości, identity, stosowaną w modelu regresji liniowej). Wreszcie „Serr p" definuje rozkład „wyjaś­nianych" liczebności - jest nim rozkład Poissona, oznaczony przez p.

Od następnego wiersza zaczyna się ostatni zestaw komend - specyfikują one modele poddawane kolejnym testom. Każda komenda musi być poprzedzona wyrażeniem '$fit' (od ang. to fit- dopasowywać; chodzi tu o „dopasowywanie" modelu do danych, czyli weryfikowanie jego adekwatności, o czym informuje ilo­raz G2 /df). Po ,, $fit" trzeba podać formułę określającą funkcję teoretycznego roz­kładu liczebności, jako sumy wprowadzonych do modelu predyktorów.

Punktem wyjścia jest w naszym przykładzie model niezależności między 4 roz­patrywanymi zmiennymi. Stosując konwencjonalną notację zapiszemy go w po­staci: Zł Z2 P C (zob. tabela 5). Hipoteza o niezależności głosi, że rozkład czte­rowymiarowej tabeli jest zdeterminowany wyłącznie przez identyczne dla 1983, 1988 i 1994 r., brzegowe rozkłady podziału zawodowego i płci, przy czym nie ma różnic między tymi rozkładami dla mężczyzn i kobiet. Informacje na temat dopa­sowania tego modelu do danych w tabeli otrzymuje się po komendzie ,.$disp m" - czyli „pokaż model". Uzyskujemy wielkość G2 i liczbę stopni swobody, w czym zawiera się informacja, na ile różnica między rzeczywistym rozkładem liczebności tabeli, a rozkładem postulowanym przez model jest znacząca statystycznie. Aby otrzymać parametry określające, z jaką siłą poszczególne zmienne różnicują hipo­tetyczny rozkład należy do ,,$disp m" dodać po spacji literę e (ang. estimations). Jeszcze jednym standardowym elementem diagnostyki modelu są wielkości

,,reszt" dla poszczególnych pól tabeli, czyli różnic między wielkościami rzeczywisty­mi, a otrzymanymi w wyniku estymacji. GLIM podaje wielkości reszt po otrzymanie polecenia „r" (ang. residua/s). Komenda zawierająca wszystkie trzy polecenia ma postać: ,,$disp me r".

Hipotetyczny model niezależności ewidentnie nie odpowiada rzeczywistej stru­kturze rozkładu, o czym przekonamy się na etapie analiz. Uprzedzając ten moment

Page 11: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘOlY ZMIENNYMI KATEGORIALNYMI 113

podam wynik testu dla tego modelu - otrzymana dlań wielkość G2=9667 przy 131 stopniach swobody oznacza, że hipotezę o niezależności należy odrzucić. Z pew­nością, wzory mobilności są nie tylko funkcją brzegowych rozkładów tabeli. ale i faktu, że struktura zawodowa ulega zmianom w czasie, jak również jest niejedna­kowa dla mężczyzn i kobiet. Przewidujemy więc występowanie interakcji. które uwzględniamy w kolejnym modelu, jako komendę: Zł *czas*płec i Z2*czas*plec. W notacji GUM symbolem interakcji jest operator *.

Do wyjściowego modelu dodaliśmy więc dwa parametry interakcyjne. Hipote­za - zapiszemy ją jako: Z l Z2 P C Zł CP Z2CP - głosi teraz. iż liczebności rozkładu

w tabeli wyznaczone są przez rzeczywiste, tj. ulegające de facto. zmianom w cza­sie. podziały zawodowe i. że (jak w rzeczywistości) są one dla mężczyzn i kobiet niejednakowe, a równocześnie zakłada się, że podział związany z płcią również mógł ulec zmianie w latach 1983-1988 i 1988-1994. Zarazem w modelu tym nie uwzględnia się interakcji pomiędzy przynależnością zawodową: ani dla okresu 1983-1988, ani dla lat 1988-1994. Innymi słowy, zakłada się doskonałą otwartość struktury społeczno-zawodowej w obydwu okresach - nie było żadnych różnic w natężeniu przemieszczeń między kategoriami. a przypadki przechodzenia z jed­nej kategorii do drugiej były tak samo częste jak pozostawanie w nich w latach 1983-1988 i 1988-1994 - w tym sensie, hipoteza ta implikuje brak zależności mię­dzy przynależnością zawodową na początku i końcu każdego z tych okresów.

Oczywiście, jest to założenie nierealistyczne. co znajdzie wyraz w wielkości

G2=8247. Przy l OO stopniach swobody hipotezę tę trzeba będzie odrzucić. Ponow­nie. podając wynik testu już teraz, przeskakujemy etap przygotowania komend. Wielkości te. których nie ma na wydruku w załączniku A. podaję z góry, aby poka­zać logikę rozumowania przy testowaniu hipotez.

Występowanie interakcji pomiędzy przynależnością zawodową (Zł *Z2) dopusz­cza trzeci z kolei model. Odpowiada mu hipoteza. że miejsce w podziale zawodo­wym w 1988 r. zależało od kategorii z 1983 r. i analogiczna zależność występowała pomiędzy kategoriami w latach 1988-1994, ale zarazem wielkości przemieszczeń i stabilność zawodowa były niezróżnicowane ze względu na płeć i upływ czasu. Nie zakłada się tu istnienia interakcji Zł *Z2 ze względu na trzecią zmienną. czyli po­stuluje się warunkową niezależność dwuwymiarowych rozkładów Zł x Z2. Inaczej mówiąc, weryfikujemy hipotezę o niezmienności wzorów mobilności społeczno-·za­wodowej w czasie i. że są one jednakowe dla mężczyzn i kobiet: Zł Z2 PC ZlCP Z2CP ZlZ2. GUM otrzymuje polecenie „Sdisp mer". Wielkość G2 dla tego modelu wyniesie 131, co przy 75 stopniach swobody wskazuje na brak znaczących odchy­leń rozkładu teoretycznego od empirycznych liczebności. Oznacza to. że postulo­wany model dobrze odtwarza faktyczne wzory zależności. Hipotezę o braku zmian w natężeniu mobilności pomiędzy 1983 i 1988 a 1988 i 1994 r„ przy braku różnic między mężczyznami i kobietami można więc uznać za prawdziwą. Następuje dy­rektywa .. $stop", oznajmiająca koniec obliczeń i wyjście z programu.

URUCHOMIENIE PROGRAMU I WYNIK ANALIZY

Przed nami etap obliczeń. Plik z danymi, instrukcjami i parametryzacją hipotez jest przygotowany. Nazwijmy go „test". Wchodzimy do GUM przez „glim.exe" -jest to jeden ze standardowych plików oprogramowania zainstalowanego na

Page 12: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

114 HENRYK DOMAŃSKI

twardym dysku. Pojawia się znak?, na który należy odpowiedzieć komendą wpro­wadzającą plik „test", przez wpisanie z klawiatury ,,$input 11" (dwucyfrowa liczba po „input" jest standardowym elementem komendy, który wskazuje tzw. kanał sesji obliczeniowej - GLIM przyjmuje najczęściej 11 lub 10). Na „input 11" GLIM reaguje pytaniem „File name?" o nazwę pliku. Podajemy nazwę „test" (bez poprzedzania go$). Następnie GLIM ponawia pytanie „INP" - trzeba w tym miejscu odpowie­dzieć ,,$out 10" (znów standardowy kod wskazujący numer kanału). Pierwsze trzy wiersze mają więc, w sumie, następującą postać:

? Sinput 11 File Name? test INP? $out 10

Po odebraniu tych instrukcji, GLIM dokonuje obliczeń, co dla rozpatrywanego przykładu trwa do 7-8 sekund. Po zakończeniu sesji obliczeniowej następuje samo­czynne wyjście do DOS. Wyniki analiz, poprzedzone pełnym zapisem macierzy da­nych i instrukcjami zostają zapisane w pliku „glim.log" w katalogu GLIM. W załącz­niku B, przedstawiam tylko część „glim.log", obejmującą skróconą postać wydruku z rezultatami analiz. Po instrukcjach, które przeniosłem z końcówki załącznika A. w wierszu „scaled deviance" podana jest wielkość G2 (scaled deviance=9667), a poniżej liczba stopni swobody dla pierwszego z testowanych modeli. Kolejny wiersz, ,,Current model" przypomina, że jest to model niezależności 4 zmiennych. Po podaniu wielkości G2 i df. za każdym razem wypisywana jest formula definiują­ca postać aktualnego modelu, zawierająca równanie z parametrami. Tak wyglą­da standardowy zestaw informacji dostarczanych przez GLIM po otrzymaniu dyre­ktywy ,,$disp m".

Testując model Zł Z2 PC ZlCP Z2CP ZlZ2 rozszerzyliśmy instrukcję poleceń doty­czących wyników, żądając dodatkowo wartości dla uwzględnionych w nim para­metrów i wielkości reszt dla poszczególnych pól czterowymiarowej tabeli. Wielkości parametrów informują, jaki jest „ wkład" wartości zmiennych i interakcji, czyli z jaką silą różnicują one liczebności teoretycznego rozkładu. GLIM podaje je w takim po­rządku, w jakim zostały one zapisane w równaniu definiującym model. W kolej­nych wierszach figuruje najpierw numer porządkowy parametru, następnie jego wartość (,,estimate"), błąd standardowy (,,s.e. ") i identyfikator (,,parameter"). Pierwszym parametrem jest zawsze uśredniona wielkość dla wszystkich pól tabeli. Logarytm tej wielkości dla rozpatrywanego modelu wynosi 5,268, błąd stan­dardowy 0,07046. Dalej wyszczególnione są wielkości parametrów dla kategorii analizowanych zmiennych i parametry dla interakcji.

Jednak GLIM nie estymuje wartości wszystkich parametrów, co wynika z formal­nych ograniczeń, które muszą być spełnione, aby dokonać estymacji modelu (Holt 1979). Właśnie w stosunku do parametrów pominiętych w modelu zostają zdefinowane wartości parametrów estymowanych. GLIM przypisuje tym pierwszym wartość O. Jest to zawsze pierwsza kategoria określonej zmiennej. Tak więc, na wy­druku „glim.log", nie ma wartości dla kategorii inteligencji (w ramach podziału na 6 kategorii), ani dla okresu 1983-1988 (wyodrębnionego jako pierwszy dla zmiennej CZAS), ani też dla mężczyzn w przypadku pici. Tak więc, o tym, jaki jest wpływ każ­dego z estymowanych parametrów na kształt rozkładu teoretycznych wielkości dowiadujemy się jakby pośrednio, z różnic względem kategorii referencyjnej. Jeżeli efekt jest interakcją między dwiema zmiennymi, to O otrzymują parametry dla

Page 13: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDlY ZMIENNYMI KATEGORIALNYMI 115

pierwszego wiersza i pierwszej kolumny tabeli. I odpowiednio - wartości pozosta­łych parametrów interakcyjnych trzeba interpretować w stosunku do pominiętych interakcji.

Ograniczenia te powodują, że wielkości parametrów nie mają przejrzystej, bez­pośredniej interpretacji. Dlatego też stosuje się inne mierniki określające siłę zależ­ności między zmiennymi (zob. Hout 1982; Alba 1988; Clogg i Eliason 1988). Najbar­dziej rozpowszechnionym miernikiem są tzw. stosunki względnych szans (ang. odds ratio). W najprostszym z możliwych przypadków, dwóch zmiennych Zł i Z2, wielkość odds ratio, np. dla inteligencji i pozostałych pracowników umysłowych w latach 1983-1988, określona jest dla czteropolowej tabeli w postaci następującej formuły:

f11 /f12

f2i/f22,

gdzie f11 odnosi się do liczebności kategorii, do której należą osoby będące inteli­gentami w 1983 i 1988 r., podobnie f22 identyfikuje pracowników umysłowych niż­szego szczebla, nie zmieniających w latach 1983-1988 przynależności społeczno­zawodowej, f12 - to pracownicy umysłowi w 1988 r„ którzy byli inteligentami w 1983 r. i wreszcie f12 identyfikuje przypadek przemieszczeń w przeciwnym kierun­ku, tj. do inteligencji z kategorii umysłowych niższego szczebla. W sytuacji niezależ­ności, wielkość odds jest równa l. Ich wartość w sytuacji zależności zawiera się

w przedziale od O do l i od 1 do plus nieskończoności. Sięgając, przykładowo, do danych z tabeli l, możemy wyznaczyć wielkość stosunku względnych szans dla ka­tegorii inteligencji i pozostałych pracowników umysłowych wśród mężczyzn. Jest ona stosunkiem dwóch ilorazów: 190/3 i 2/30, co daje 90,4. Wynika stąd, że osoba należąca do inteligencji w 1983 r. miała 90,4 więcej szans na pozostanie w niej rów­nież w 1988 r., niż na przejście do niższej kategorii pracowników umysłowych w sto­sunku do szans przejścia pracownika umysłowego niższego szczebla do kategorii in­teligentów, względem szans pozostania w swojej dotychczasowej kategorii z 1983 r.

Taka jest interpretacja odds ratios. Ich maksymalna liczba w symetrycznej tabeli wyznaczonej przez k x k wierszy i kolumn wynosi (k2 - k)2/4, czyli 225 dla tabeli l, choć - jak pokazał Goodman (1979) - ,,podstawowy zestaw" odds wyraża się for­mułą (k - 1)2 - wystarczy znać ich wartości, aby wyznaczyć wartości pozostałych. O użyteczności odds ratios przesądza to, że są one przekładalne na wielkości para­metrów interakcji i vice versa. Na przykład, dla tabeli 2 x 2 wielkość UiVj, wynosi:

uivj = 1 /41og odds,

czyli - wracając do rozpatrywanego przed chwilą przykładu - parametr określa­jący siłę interakcji w zakresie mobilności pomiędzy inteligencją a pracownikami umysłowymi niższego szczebla równy jest 1/4 logarytmu z 90,4.

OGRANICZENIA ANALIZ LOG-LINIOWYCH

Zwrócę uwagę na dwa aspekty. Wykorzystując technikę log-liniowego modelo­wania zależności między zmiennymi trzeba mieć przede wszystkim na uwadze, że przedmiotem analizy są zmienne kategorialne, zaś zależności ujmowane są w ta-

Page 14: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ll6 HENRYK DOMAŃSKI

belach, w postaci warunkowych rozkładów. Istnieje, w związku z tym, prawdo­podobieństwo, że część pól wielowymiarowej tabeli, pozostanie pusta. Kombina­cje niektórych wartości analizowanych zmiennych bądź to nie występują, bądź też, ze względu na zbyt małą liczebność analizowanej próby i wahania rozkładu, znajdzie się w nich zero przypadków. Konsekwencją pozostawienia pól o zerowych liczebnościach może być naruszenie założeń przyjmowanych w modelowaniu log­liniowym. Dodatkowy problem wiąże się z wyznaczaniem wartości odds, z których część, mając O w mianowniku musi być niezdefiniowana.

Problem występowania zerowych pól wielowymiarowej tabeli podsuwa trzy roz­wiązania. Pierwsze z nich jest zaleceniem ograniczania liczby analizowanych zmiennych. Jest to mankament modelowania log-liniowego, mniej odczuwalny w analizach korelacji i regresji. Badacze posługujący się tą techniką rzadko kiedy są w stanie objąć analizą więcej niż 4-5 zmiennych, co w porównaniu z typowym modelem regresji, np. zarobków, gdzie liczba predyktorów dochodzi czasem do 40, stanowi istotne zawężenie obszaru analiz. Drugie rozwiązanie polega na posłu­giwaniu się zmiennymi, zawierającymi stosunkowo mało kategorii. W analizach opierających się na standardowej próbie 1500-2000 przypadków, zastosowanie modeli log-liniowych dla 4-5 zmiennych dostarczy rzetelnych estymacji, jeśli ograni­czymy się do zmiennych dychotomicznych, trójkategorialnych, nie przekraczając wszakże liczby czterech kategorii. W praktyce, oznacza to najczęściej konieczność pogrupowania bardziej szczegółowych podziałów w szersze jednostki klasyfikacyj­ne, co dokonuje się kosztem zmniejszenia precyzji pomiaru siły związków. Oprócz dwóch wymienionych istnieje jeszcze trzecia możliwość, jaką oferują pakiety pro­gramów komputerowych, a mianowicie dodanie pewnej małej wartości, np. 0,5 do każdego zerowego pola tabeli. Grizzle i in. (1969) rekomendują inną opcję -wyeliminowanie zerowych pól przez dodanie wartości l /r, gdzie r jest liczbą kate­gorii wyróżnionych w ramach analizowanych zmiennych. Jeśli chodzi o GLIM, to przypisuje on automatycznie wielkość 0,5 polom tabeli o liczebności zerowej.

Drugi problem związany jest z immanentną cechą analiz log-liniowych, z tym mianowicie, że jest to narzędzie testowania hipotez. Przy stosowaniu technik testu­jących określoną hipotezę (model) zawsze pojawia się pytanie, jak silna jest moc odrzucania hipotez alternatywnych. Analizy log-liniowe były swego czasu ostro kry­tykowane za to, że opierając się na jednoznacznych kryteriach pozwalających za­kwalifikować weryfikowaną hipotezę po stronie „prawda - fałsz", nie dostarczają zarazem odpowiedzi na pytanie, czy nie jest tak, że jakaś inna hipoteza lepiej od­twarza rozpatrywane zależności (Pontinen 1982). Inaczej mówiąc, technikom mo­delowania log-liniowego zarzucano stosunkowo małą moc odrzucania alterna­tywnych możliwości. Mamy więc pewien pogląd co do tego, jak „jest naprawdę" i jesteśmy go w stanie potwierdzić lub sfalsyfikować, jednakże często testowany model jest jednym z wielu równie prawdopodobnych i aspirujących do miana prawdziwego. Łatwo to unaocznić empirycznie w sytuacji, gdy zależności między tymi samymi zmiennymi wyspecyfikujemy w ramach różnych modeli - modyfikując

np. parametry interakcyjne - i za każdym razem wielkości statystyk G2 i df będą wskazywały, że niejednakowe modele dopasowane są do danych w akceptowal­nym stopniu. Który wybrać?

Praktyka analiz empirycznych dostarcza pewnych możliwości rozwiązania tego problemu. Otóż, przechodząc od modeli słabiej odtwarzających strukturę danych

Page 15: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDlY ZMIENNYMI KATEGORIALNYMI 117

do modeli lepszych, można się odwoływać do wielkości G2• interpretujqc ich spa­dek (świadczqcy o wzrastajqcym „dopasowaniu" modelu) w terminach wzrostu si­ły „wyjaśniajqcej" - analogicznie jak w analizach korelacji i regresji. W jednym ze swych wcześniejszych artykułów poświęconych tej problematyce. Goodman (1972) zaproponował formułę miernika. będqcego odpowiednikiem współczynni­ka korelacji wielorakiej (R2) w analizie regresji:

Gy-G~

Gy

gdzie Gy odnosi się do wielkości otrzymanej w modelu wyjściowym (bazowym), który jest punktem odniesienia przy wyznaczaniu siły eksplanacyjnej kolejnych mo­deli, zaś G~ jest wartościq statystyki określajqcej prawdziwość hipotezy zawartej w jakimś bardziej złożonym modelu. Wartości tego miernika (Goodman nazwał go coefficient of multiple determination). stosowanego obecnie w większości analiz zawierajq się w granicach od O do l . Identycznie jak w przypadku R2, można go interpretować w terminach wyjaśnionego przez model G~ odsetka zróżnicowania analizowanego rozkładu.

O \ł,./yborze modelu bazowego decyduje autor kierujqc się przesłankami teo­retycznymi. Za punkt wyjścia zwykło się na ogół przyjmować prosty model niezależ­ności warunkowej zmiennych - w rozpatrywanym uprzednio przykładzie najlep­szym punktem odniesienia byłby model bazowy Zł 22 P C. Przy takiej relatywizacji, wielkość współczynnika Goodmana dla modelu Zł 22 PC ZlCP Z2CP (który głosił. że struktura zawodowa mężczyzn i kobiet ulega zmianie i jest niejednakowa w obydwu zbiorowościach) wynosi 14, 7%. Ostatni zaś z testowanych modeli (Z l Z2 PC ZlCP Z2CP ZlZ2)- mówiqcy o tym, że przynależność zawodowa w końcowym punkcie każdego z rozpatrywanych okresów zależała od pozycji zajmowanej na poczqtku - ,,wyjaśnia" prawie wszystko, 98,6%. Wielkości te zestawiłem w ostatniej kolumnie tabeli 5.

Tabela 5. Zależności pomiędzy kategoriq zawodowq w 1983, 1988 i 1994 r„ plciq i okresem (w podziale

na lata 1983-1988 i 1988-1994). Wielkości statystyk informujqcych o tym, na ile dany model odtwarza rzeczywiste zależności

G2 Stopnie Odsetek wariancji Model swobody p wyjaśnionej przez

model (w%)

21 22 PC 9667 131 0,00

21 22 P C ZICP Z2CP 8247 100 0,00 14,7

21 22 P C ZICP Z2CP 2122 131 75 0,20 98,6

21 22 P C ZICP Z2CP ST AB 401 99 0,09 95,8

21 22 PC ZICP Z2CP POZIOM 183 96 0,12 98,1

Znaczenie symboli: Zł- kategoria zawodowa na początku każdego okresu. n. - kategoria za­wodowa na końcu każdego okresu, P - pleć (l = mężczyźni. 2 = kobiety), C - okres (l = 1983-1988, 2 = 1988-1994), STAB - stabilność zawodowa (l = stabilni. 2 = mobilni), POZIOM - natężenie stabilności lub przemieszczeń w tabeli w podziale na 5 poziomów.

Page 16: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

118 HENRYK DOMAŃSKI

Posługiwanie się współczynnikiem Goodmana daje więc pewne podstawy do porównań wartości eksplanacyjnej analizowanych hipotez. W szczególności zaś, mając zaś do wyboru kilka alternatyw, z których każda spełnia kryteria statystycz­nej istotności, jesteśmy w stanie wybrać tę najlepszą, kierując się wielkością odset­ka wyjaśnionej przez dany model wariancji rozkładu. Nie rozwiązuje to oczywiście do końca problemu wyboru, ponieważ są sytuacje, gdy co najmniej dwa modele, mające równie dobre wsparcie w określonej teorii, mogą „wyjaśniać" tyle samo. W takich przypadkach, pozostaje jeszcze jedno, bardziej formalne kryterium wybo­ru, jakim jest liczba parametrów definiujących model. Obowiązuje zasada „osz­czędności", która głosi, że najlepsze są rozwiązania najprostsze, czyli z dwóch mo­deli ten jest lepszy, który odtwarza zależności przy uwzględnieniu mniejszej liczby parametrów. Regułę „oszczędności" przy ocenie trafności modelu uwzględnia sto­sowana przez niektórych autorów statystyka BIC (zob. Raftery 1987).

MODELOWANIE TABEL

Dotychczas w polu naszego zainteresowania były zależności pomiędzy cztere­ma zmiennymi, która to liczba bliska jest granicy efektywnego prowadzenia analiz wykorzystujących techniki log-liniowe. GLIM daje możliwość wniknięcie w strukturę zależności, drogą testowania rozmaitych hipotez, w których specyfikuje się, w ja­kich to regionach wielowymiarowej tabeli występuje stosunkowo większa „gę­stość" (jest więcej przypadków - osób), gdzie zaś raczej „rozrzedzenie" jest aspe­ktem dominującym. Większa gęstość znamionuje obecność odpowiednio silniej­szych interakcji.

Modele te nazywa się „topologicznymi" (zob. Hout 1982; Goodman 1984; Eri­kson i Goldthorpe 1992). Przestrzenna metafora ma zdawać sprawę z faktu, że tkankę społeczną rozpatruje się tu jakby w postaci układu bryi różnej wielkości, odpowiadających kategoriom społecznym różniącym się bliskością i intensywno­ścią stosunków, tak wewnątrz, jak i pomiędzy członkami tych kategorii. Zadaniem badaczy jest ich identyfikacja. Posługując się modelami topologicznymi formułuje­my hipotezy określające poziomy interakcji, po czym hipotezy są weryfikowane, zgodnie z rutynową procedurą testu G2 (obok nazwy „topologiczne", modele te określa się też jako Jevels models, ponieważ „poziomy" są ich charakterystyczną właściwością). Zabieg wyspecyfikowania poziomów interakcji sprowadza się, w istocie, do uwzględnienia w modelu kolejnych zmiennych. Zaletą topologicznego modelowania wielowymiarowych tabel jest to, że wprowadzenie zmiennych iden­tyfikujących poziomy nie ma żadnych konsekwencji dla zwiększenia liczby zero­wych pól tabeli czy też pól o zbyt malej liczebności.

Podam teraz dwa przykłady zastosowania modeli topologicznych w analizie rozmiarów mobilności w latach 1983-1988 i 1988-1994. Cel jest taki sam jak we wszystkich analizach tego typu - chodzi o zarysowanie konfiguracji barier i dys­tansów między 6 warstwami społeczno-zawodowymi, poczynając od inteligencji, a kończąc na rolnikach - barier definiowanych w terminach wzorów mobilności. W najogólniejszym przypadku, modele topologiczne dostarczają odpowiedzi na podobne pytania, a mianowicie - jaki jest kształt rozkładu liczebności w wielowy­miarowej tabeli? Pytania te można zadawać badając wzory dobierania się par

Page 17: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDZV ZMIENNYMI KATEGORIALNYMI 119

małżeńskich wywodzących się z określonych kategorii społecznych, wzory wyboru przyjaciół i znajomych - krótko mówiąc w analizie wszelkich problemów dotyczą­cych struktury rozpatrywanych związków.

Pierwszy przykład związany jest z problemem stabilności zawodowej w latach 1983-1988 i 1988-1994, co do której można sądzić, że znacznie przewyższała swym natężeniem rozmiary przemieszczeń między sześciu kategoriami - zbyt krótkie okre­sy dzielą bowiem rozpatrywane tu punkty czasowe, aby można było oczekiwać większych zmian. Sformułujmy hipotezę o występowaniu zasadniczej różnicy pomię­dzy natężeniem stabilności i mobilności zawodowej: zarówno w latach 1983-1988, jak i 1988-1994. Konkretnie to hipoteza ta głosi, że wszystkie wielkości w tabelach 1-4 dzielą się na dwa rodzaje - mobilność i stabilność - i, że dychotomia ta determinu­je całość wzorów. W języku parametrów można tę hipotezę wyrazić przez dodanie do modelu Zł Z2 PC ZlCP Z2CP parametru STAB identyfikującego nową zmienną -tak ją nazwijmy. Przybiera ona dwie wartości: 2 dla wszystkich pól w tabelach 1-4, znajdujących się poza główną przekątną (czyli dla przemieszczeń między kategoria­mi) i wartość 1 - dla pól na głównej przekątnej, są w nich osoby nie zmieniające przynależności zawodowej w porównywanych okresach.

W instrukcji pliku „test", w miejscu, gdzie podaje się zestaw zmiennych, dodaje­my „stab 2", w związku z czym wygląda ona teraz następująco: ,,$fac Zł 6 Z2 6 czas 2 piec 2 stab 2" (por. różnicę z załącznikiem A). Natomiast wcześniej, do ko­mend, które specyfikują wartości zmiennych, trzeba dołączyć parametryzację zmiennej „stab" w takiej oto postaci.

$DATA STAB SREAD 122222 212222 221222 222122 222212 222221 122222 2 1 2 2 2 2 221222 222122 2 2 2 2 1 2 222221 122222 212222 221222 222122 222212 222221 122222 212222 221222 222122 222212 222221

Page 18: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

120 HENRYK DOMAŃSKI

GLIM dokonuje estymacji modelu po otrzymaniu komend:

$fit Zł +Z2+plec+czas+Zl *czas*plec+Z2*czas*plec+stab Sdisp m

Informację o dopasowaniu tego modelu do danych zamieściłem w czwartym wierszu tabeli 5. Przy G2=40l i 99 stopniach swobody nie odtwarza on wzorów mo­bilności na tyle dokładnie, aby odchylenia od empirycznego rozkładu można było uznać za przypadkowe. W sensie statystycznym są one znaczące. Zwróćmy jednak uwagę, że ten diagonalny model (nazywa się go diagonalnym, ze względu na charakterystyczny dlań wzór interakcji na przekątnej), wyjaśnia aż 95,8% zróżnico­wania między polami wielowymiarowej tabeli w stosunku do bazowego modelu niezależności. Z jednej strony nie jest więc tak, aby dychotomiczny podział na sta­bilnych zawodowo i zmieniających w tym okresie pozycje jednoznacznie kształto­wa/ bariery mobilności, jednakże z drugiej strony - stanowi on jedną z central­nych osi podziału. Eksplanacyjna si/a diagonalnego modelu jest bardzo wysoka -stąd ten wniosek.

Przechodzę do drugiego przykładu. Wynik świadczący o tym, że dychotomia „stabilni-mobilni" nie odtwarza dokładnie wzorów ruchliwości oznacza, że są one de facto bardziej złożone. Odwołując się do diagonalnej wizji, nie chwytamy z wy­starczającą precyzją konfiguracji tych wzorów. Istnieją więc jeszcze inne podziały, które można odtworzyć poprzez wyodrębnienie kolejnych poziomów interakcji, le­piej - w sumie - odzwierciedlających strukturę „gęstości" przemieszczeń pomię­

dzy kategoriami. W modelu topologicznym sensu stricto, wyróżnia się zazwyczaj kil­ka poziomów, przypisując je do określonych pól tabeli. Oczywiście podstawowym problemem jest kwestia, ile poziomów wyróżnić i, do jakich pól je przypisać.

Do rozstrzygnięcia tego problemu badacz przystępuje z określonym poglądem na temat układu dystansów społecznych i struktury interakcji, które odpowiadają tym dystansom. Czyli musi mieć określoną teorię. Jeśli chodzi o wzory mobilności, to z wcześniejszych badań wiadomo, że stosunkowo najrzadziej zmieniają przyna­leżność społeczno-zawodową rolnicy. Rzut oka na rozkłady w tabelach l -4 zdaje się to potwierdzać. Warto więc sprawdzić za pomocą ścisłego testu, czy rzeczywi­ście w polu tabeli identyfikującym stabilnych zawodowo rolników poziom interakcji by/ stosunkowo najwyższy - konstruując zmienną POZIOM przypiszemy tej inter­akcji wartość l, ale tylko dla stabilności rolników w latach 1983-1988, kiedy to wy­daje się być ona większa niż w późniejszym okresie. Na przeciwległym krańcu znaj­dują się pola o najniższej „gęstości" - których liczebność nie przekracza kilkunastu przypadków. Łatwo zauważyć, że przeprowadzanie rozgraniczeń na poziomy, gdyby dokonywać tego jedynie przez poszukiwanie zagęszczeń i rozrzedzeń roz­kładu, bywa zabiegiem arbitralnym w sytuacji, gdy różnice między liczebnościami sąsiadujących ze sobą pól tabeli nie są zarysowane ostro. Arbitralna, do pewnego stopnia, jest także decyzja odnośnie liczby poziomów, która to liczba wyznacza spektrum zróżnicowania interakcji. W większości analiz liczba ta nie przekracza 5 -taką też topologię przyjmiemy dla wzorów mobilności w Jatach 1983-1994. Najniż­szy poziom - 5 - będą reprezentować te pola tabeli, których liczebność waha się od O do 12-14 przypadków.

Wracając zaś do obszarów struktury społecznej, w których bariery mobilności rysują się silnie, to przyjmiemy, iż drugi z kolei obszar - po stabilności rolników w la-

Page 19: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI 121

tach 1983-1988 - tworzą wszystkie przypadki pozostawania w tej samej kategorii społeczno-zawodowej - zaliczymy je do poziomu 2. Pozostał jeszcze 3 i 4 poziom interakcji. które będą identyfikować przemieszczenia o stosunkowo wysokiej (3) i bezpośrednio niższej (4) intensywności. W tabelach 1-4 odpowiadają im obszary wyznaczające jakby pośredni szczebel ostrości barier definiowanych przez wzory przemieszczeń.

Możemy przystąpić do sprawdzenia słuszności naszych przewidywań, odnośnie kształtu barier mobilności na rynku pracy w tatach 1983-1994. Parametryzacja zmiennej „poziom" jest następująca.

$data POZIOM $read 253555 525555 542555 455235 555324 555551 253555 425555 552555 553235 553425 555552 245555 325555 552555 555255 555525 555551 255555 325555 552555 555255 555525 555552

Testujemy model: $fit Zł +Z2+plec+czas+Zl *czas*ptec+Z2*czas*plec+poziom Wynik, zamieszczony w ostatnim wierszu tabeli 5 wskazuje, że postać układu

barier mobilności społeczno-zawodowej, którą implikuje ten model jest trafnym odzwierciedleniem rzeczywiście występującego układu. Można powiedzieć, że odtwarza go o 98, 1% lepiej niż prosty model niezależności. Taki może być kształt struktury społecznej wyznaczonej przez wzory przepływów w rozpatrywanym tu przedziale czasu. Może, ale jako jeden z kilku alternatywnych wzorów. Zauważmy bowiem, że konfiguracja 5 poziomów interakcji nie jest dopasowana lepiej do rze­czywistego rozkładu, niż zależności w modelu 3, gdzie stwierdza się tytko, że istnie­je interakcja między przynależnością zawodową na początku i na końcu każdego okresu, bez specyfikowania, gdzie występuje ona silniej, a gdzie słabiej. Siła eks­planacyjna obydwu modeli jest prawie identyczna, co można interpretować jako

Page 20: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

122 HENRYK DOMAŃSKI

świadectwo tego, iż interakcje są faktem, ale nie układają się według określone­go wzoru.

UWAGI KOŃCOWE

Postępującemu od lat 70. rozwojowi technik modelowania log-liniowego, towa­rzyszył rzadko spotykany wzrost ich popularności na gruncie empirycznych studiów, aczkolwiek ograniczał się on głównie do problematyki stratyfikacji i mobilności -te jednak w analizach ilościowych dominują. W odniesieniu do lat osiemdziesią­tych można wręcz mówić o hegemonii analiz log-liniowych, czego wymiernym wskaźnikiem stała się liczba artykułów publikowanych w dwóch najbardziej presti­żowych czasopismach socjologicznych American Sociological Review i American Journal of Sociology. Jest to właściwie wątek z zakresu socjologii wiedzy, ale warto napomknąć, że był okres kiedy posługiwanie się modelowaniem log-liniowym za­częto traktować jako kryterium kompetencji badaczy, a oceniający teksty recen­zenci uzależniali ich wartość od tego, czy autor posługuje się analizami log-liniowy­mi, które uznawano za metodę dostarczającą wyników zasługujących na najwię­kszą wiarygodność.

Przypadki te ilustrują niebezpieczeństwo zapanowania metody nad teorią -czy też raczej problemem, który powinien sterować przebiegiem procesu badaw­czego. Sytuacja, w której autor dostosowuje swoje zamierzenia badawcze do schematu analiz, zamiast postępować na odwrót sprzyja nastawieniom określa­nym jako „płytki empiryzm". Wspominam o tym na zakończenie, bo potrzebę wyj­ścia od dobrze wyeksplikowanych przesłanek teoretycznych na temat charakteru zależności warto jeszcze raz pokreślić. Nie było na to dość miejsca w tym sprawo­zdawczym tekście, opisującym zastosowanie programu. Właściwym polem zasto­sowania modeli log-liniowych są zależności między zmiennymi kategorialnymi, co wyznacza zakres problemów badawczych, które jest sens przy pomocy tych tech­nik podejmować. Z natury rzeczy, problemy te koncentrują się wokół kwestii po­działów społecznych, dystansów i barier. Do tej pory wykorzystywano je najczę­ściej w studiach nad mobilnością społeczną. Jak powiedziano zdominowały one krąg zainteresowań tą problematyką, jednakże obszar ich zastosowań znacznie wykracza poza zagadnienia związane z identyfikacją barier mobilności. Na przy­kład, Breiger, w często cytowanym artykule z 1981 r., przetestował przy pomocy modeli log-liniowych kilka najbardziej znanych schematów struktury klasowo-war­stwowej, próbując w ten sposób odpowiedzieć na pytanie, który z nich najlepiej odwzworowuje układ stratyfikacyjny społeczeństwa amerykańskiego (Breiger 1981). Techniki log-liniowe stosuje się do uchwycenia podziałów społecznych wy­znaczonych przez wybór małżonków o określonym pochodzeniu, poziomie wy­kształcenia i przynależności zawodowej - również przy wyborze przyjaciół i znajo­mych, o czym także już była mowa.

Starałem się tu pokazać, że stosując GLIM w analizie związków między zjawiska­mi zoperacjonalizowanymi w terminach zmiennych kategorialnych można: (i) do­kładniej określić ich silę, niż przy wykorzystaniu tradycyjnie stosowanych do tego celu współczynników korelacji, (ii) odtworzyć strukturę rozpatrywanych zależności - poprzez wyspecyfikowanie wzorów interakcji dla rozmaitych kombinacji warto-

Page 21: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDlY ZMIENNYMI KATEGORIALNYMI 123

ści (kategorii) zmiennych. Najbardziej efektywnym sposobem postępowania ba­dawczego na gruncie tych analiz jest przechodzenie od weryfikacji mniej do bar­dziej złożonych hipotez. Porównuje się ze sobą wyniki różnych testów, odsłaniając jakby z różnych stron fragmenty struktury analizowanych związków. Testując kolej­ny model uzyskujemy odpowiedź na pytanie o jego „wkład", a ściślej wkład opisy­wanego przezeń fragmentu do całej struktury: czy wnosi on coś istotnie nowego dla zrozumienia struktury całości i w jakim stopniu?

Przedstawiłem tu tylko próbkę z bardzo rozległego wachlarza możliwości anali­tycznych GLIM. W zakresie testowania hipotez zaproponowano dotychczas wiele konkretnych modeli, z których można robić użytek do celów własnych analiz. Na przykład poza modelami topologicznymi. z których zaprezentowałem tu tylko dwa, sformułowano wiele wariantów tzw. cross-parameters models. Są one stoso­wane do testowania wielkości dystansów między kategoriami - do modelu wpro­wadza się parametry, pozwalające określić „odległość" np. między kategoriami społeczno-zawodowymi czy poziomami wykształcenia ze względu na rozmiary mo­bilności, albo ze względu na dystanse wynikające ze społecznej selekcji małżon­ków, lub w jakiś inny sposób (zob. Hout 1982; Pontinen 1982). Jeszcze jeden typ, to tzw. modele porządkowe. Można przy ich pomocy rozstrzygać, na ile określone konfiguracje dystansów są układem hierarchicznym, tzn. spełniają pewne, przyj­mowane w modelu, formalne kryteria gradacji między kategoriami (lshii-Kuntz 1995).

Page 22: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

124

$units 144 $data count $read 190320443 2 30 O O 7 l l l 32 4 2 O 13 5 8 308 19 3 5452521411 02075155 149 4 24 3 4 l 10 26 4 3 2 l 1061022 4 8 25 277 30 8 4331161755 2 O 4 4 5 153 192 16 2 2 l l 26 222 l 2 5 3 2 O 11 Ol O 3 3 2 92 6 6 2 7 O 8 152 3 Ol O 3 2 165 184 12 11 3 l l 21 202 12 2 l l 1013002 O 2 7 70 7 2 l 8 5 6 121 8 l 3 2 O 5 142 $data Zł $read l l 1 l 1 l 222222 333333 444444 555555 666666 l l l l l l 222222 333333 444444 555555 666666 l l l l l l 222222 333333 444444 555555 666666 l 1 l 1 l l

HENRYK DOMAŃSKI

ZAŁĄCZNIK A Wydruk komend

Page 23: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

222222 333333 444444 555555 666666 $data Z2 Sread 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 123456 $data CZAS Sread l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l 222222 222222 222222 222222 222222 222222 l l l l l l l l l l l l l l l l l l l l l

ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI 125

Page 24: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

126

ł ł ł ł ł ł

ł ł ł ł ł ł

222222 222222 222222 222222 222222 222222 $data PLEC Sread ł ł ł ł ł ł

ł ł ł ł ł ł

ł ł ł ł ł ł

ł ł ł ł ł ł

ł ł ł ł ł ł

ł ł ł ł ł ł

l ł ł ł ł ł

ł 1 ł ł ł ł

1 1 ł ł ł ł

1 ł ł ł ł ł

ł ł ł ł ł ł

ł ł 1 ł 1 ł

222222 222222 222222 222222 222222 222222 222222 222222 222222 222222 222222 222222 $yvar count $fac Zł 6 Z2 6 czas 2 piec 2 $link I Serr p $fit Zł +Z2+plec+czas $disp m

HENRYK DOMAŃSKI

$fit Zł +Z2+plec+czas+Zł *czas*plec+Z2*czas*plec $disp m $fit Zł +Z2+plec+czas+Zł *czas*plec+Z2*czas*plec+Z ł *Z2 $disp mer $stop

Page 25: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDZV ZMIENNYMI KATEGORIALNYMI 127

ZAŁĄCZNIK B. Wydruk obliczeń (i) Syvar count (i) $fac Zł 6 Z2 6 czas 2 piec 2 (i) $link I (i) Serr p (i) $fit Zł +Z2+plec+czas (i) $disp m (o) scaled deviance = 9667. at cycle 6 (o) d.f.=131 (o)

(o) (o) (o) (o) (o) (o) (o) (o) (o) (o) (o) (o) (o) (o) (i) (i) (o) (o)

(o)

(o)

Current model:

number of units is 144

y-variate COUN weight * offset *

probability distribution is POISSON link function is LOGARITHM scale parameter is 1 .OOO

terms = 1 + Zł + Z2 + PLEC + CZAS

$fit Zł +Z2+plec+czas+Zl *czas*plec+Z2*czas*plec $disp m scaled deviance = 8247. at cycle 6

d.f. = 100 terms= 1 + Zł + Z2 + PLEC +CZAS+ Zł .PLEC+ Z2.PLEC (o)+ Zł.CZAS+ Z2.CZAS + PLEC.CZAS +Zł.PLEC.CZAS (o) + Z2.PLEC.CZAS

(i) $fit Zł +Z2+plec+czas+Zl *czas*plec+Z2*czas*plec+Zl *Z2 (i) $disp m e r (o) scaled deviance = 130.78 at cycle 4 (o) d.f. = 75 (o) terms= 1 + Zł + Z2 + PLEC + CZAS + Zł .Z2 + Zł .PLEC (o) + Z2.PLEC + Zł .CZAS

+ Z2.CZAS + PLEC.CZAS (o) + Zł .PLEC.CZAS + Z2.PLEC.CZAS (o) (o) (o) (o) (o) (o) (o) (o) (o)

1 2 3 4 5 6 7

estimate 5.268

-3.502 -4.794 -3.537 -4.105 -5.607 -3.371

s.e. parameter 0.07046 1 0.2650 Zł (2) 0.4932 Zł (3) 0.2764 Zł (4) 0.3335 Zł (5) 0.6174 Zl(6) 0.2660 Z2(2)

Page 26: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

128 HENRYK DOMAŃSKI

(o) 8 -2.694 0.2243 Z2(3) (o) 9 -3.631 0.3197 Z2(4) (o) 10 -4.052 0.3532 Z2(5) (o) 11 -4.727 0.4583 Z2(6) (o) 12 -0.01028 0.09916 PLEC(2) (o) 13 -0.2639 0.1056 CZAS(2) (o) 14 4.953 0.2238 Zł (2).Z2(2) (o) 15 1.486 0.3210 Zł (2).Z2(3) (o) 16 2.147 0.5006 Zl(2).Z2(4) (o) 17 2.979 0.4348 Zł (2).Z2(5) (o) 18 2.489 0.5968 Zł (2).Z2(6) (o) 19 1.464 1.104 Z l (3) .Z2(2) (o) 20 5.716 0.4912 Zł (3).Z2(3) (o) 21 3.809 0.7334 Zł (3).Z2(4) (o) 22 4.238 0.7089 Zł (3).Z2(5) (o) 23 4.549 0.7846 Zł (3).Z2(6) (o) 24 3.091 0.3744 Zł (4).Z2(2) (o) 25 3.003 0.3110 Zł (4).Z2(3) (o) 26 7.642 0.3718 Zł (4).Z2(4) (o) 27 5.367 0.4117 Zł (4).Z2(5) (o) 28 4.755 0.5239 Z l (4).Z2(6) (o) 29 3.675 0.4009 Zł (5).Z2(2) (o) 30 3.659 0.3616 Zł (5).Z2(3) (o) 31 5.594 0.4332 Zł (5).Z2(4) (o) 32 8.272 0.4320 Zł (5).Z2(5) (o) 33 5.601 0.5375 Zł (5).Z2(6) (o) 34 3.749 0.7298 Zł (6).Z2(2) (o) 35 3.114 0.7252 Zl(6).Z2(3) (o) 36 5.636 0.7012 Zł (6).Z2(4) (o) 37 6.006 0.7029 Zł (6).Z2(5) (o) 38 10.12 0.7097 Zl(6).Z2(6) (o) 39 1.432 0.2826 Z l (2).PLEC(2) (o) 40 0.04713 0.4232 Zł (3).PLEC(2) (o) 41 -0.4693 0.2908 Zł (4).PLEC(2) (o) 42 -0.09743 0.2861 Zł (5).PLEC(2) (o) 43 0.03716 0.3564 Zł (6).PLEC(2) (o) 44 0.6320 0.2785 Z2(2). PLEC(2) (o) 45 -1.445 0.3784 Z2(3). PLEC (2) (o) 46 -0.7710 0.2949 Z2(4).PLEC(2) (o) 47 -0.3079 0.2894 Z2(5).PLEC(2) (o) 48 0.009913 0.3539 Z2(6).PLEC(2) (o) 49 0.5434 0.3211 Zł (2).CZAS(2) (o) 50 -0.07038 0.3067 Zł (3).CZAS(2) (o) 51 0.6109 0.2548 Z l (4).CZAS(2) (o) 52 0.2914 0.2628 Zł (5).CZAS(2) (o) 53 0.4339 0.3400 Zł (6).CZAS(2) (o) 54 -0.2873 0.3240 Z2(2). CZAS(2)

Page 27: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI 129

(o) 55 0.9647 0.2551 Z2(3).CZAS(2) (o) 56 -0.4550 0.2628 Z2(4).CZAS(2) (o) 57 -0.1992 0.2703 Z2(5).CZAS(2) (o) 58 -0.1820 0.3412 Z2( 6). CZAS(2) (o) 59 0.1994 0.1456 PLEC(2). CZAS(2) (o) 60 -0.6131 0.3860 Zł (2).PLEC(2).CZAS(2) (o) 61 -0.9209 0.5501 Zł (3).PLEC(2).CZAS(2) (o) 62 -0.7438 0.3972 Zł (4).PLEC(2).CZAS(2) (o) 63 -0.3118 0.3855 Zł (5).PLEC(2).CZAS(2) (o) 64 -0.3968 0.4940 Zł (6).PLEC(2).CZAS(2) (o) 65 0.3253 0.3901 Z2(2).PLEC(2).CZAS(2) (o) 66 0.6465 0.4504 Z2(3). PLEC(2). CZAS(2) (o) 67 0.3595 0.4084 Z2(4).PLEC(2).CZAS(2) (o) 68 0.08308 0.3946 Z2(5).PLEC(2).CZAS(2) (o) 69 0.08978 0.4928 Z2(6).PLEC(2).CZAS(2) (o) scale parameter token as 1 .OOO (o) (o) unit observed fitted residua I (o) l 190 93.989 -0.286 (o) 2 3 6.664 -1.419 (o) 3 20 13.118 1.900 (o) 4 4 5.139 -0.502

(o) 19 13 5.646 3.095 (o) 20 5 4.266 0.355 (o) 21 8 7.694 0.110

(o) 144 142 143.467 -0.122 (i) $stop

LITERATURA

Alba, R.D. 1988. lnterpreting the parameters of log-linear modeis, s. 258-287. W: J.S. Long (red.), Common Problems/Proper Solutions. Newbury Park, CA: Sage.

Bishop, V„ S.M. Fieneberg i P. Holland. 1975. Discrete Multivariate Analysis. Theory and Pra­ctice. Cambridge: University Press.

Breiger, R. 1981. The social class structure of occupational mobility. American Journal of Sociology 87: 578-611.

Clogg, C.C. i S.R. Eliason. 1988. Same common problems in log-/inear analysis, s. 226-257. W: J.S. Long (red.), Common Problems/Proper Solutions. Newbury Park, CA: Sage.

Domański. H. 1995. Social Stratification in Eastern Europe after 7989. Charakterystyka pro­jektu. Ask, nr l: 110-118.

Erikson, R. i J.H. Goldthorpe. 1992. The Constant Flux. Oxford: Clarendon Press. Goldthorpe, J. 1987. Social Mobility and Class Structure in Modern Britain. Oxford: Claren­

don Press.

Page 28: ANALIZA ZALEŻNOŚCI MIĘDZY ZMIENNYMI KATEGORIALNYMI. › dspace › bitstream › handle › 1811 › 69480 › ASK_… · Tablice dystrybuanty rozkładu chi-kwadrat oraz odpowiadających

130 HENRYK DOMAŃSKI

Goodman, L. 1972. A general model for the analysis of surveys. American Journal of So­ciology 77: 1035-1086.

Goodman, L. 1979. Simple models for the analysis of association in cross-ciassifications having ordered categories. Journal of the American Statistical Association 74: 537-552.

Goodman, L. 1984. The Analysis of Cross-Classified Data Having Ordered Categories. Cambridge Mass.: Harvard University Press.

Griule, J.E., C.F. Starmer i G.C. Koch. 1969. Analysis of categoricai data by log-linear mo­dels. Biometrics 30: 589-600.

Holt, D. 1979. Log-/inear models for contingency table analysis: on the interpretation of parameters. Sociological Methods and Research 7.

Hout, M. 1982. Mobility Tables. London: Sage. lshida, H„ W. Muller i J.M. Ridge. 1995. Class, origin and education: a cross-national study

in ten industrial nations. American Journal of Sociology l Ol: 145-193. lshii-Kuntz, M. 1994. Ordinal Log-lnear Models. London: Sage. Kennedy, J.J. 1983. Analyzing Qualitative Data. New York: Praeger. Knoke, D. i P.J. Burke. 1980. Log-linear Models. London: Sage. Lissowski, G. 1984. Zastosowanie modeli logarytmiczno-liniowych do analizy zwiqzków

między wieloma zmiennymi jakościowymi. Studia Socjologiczne, nr 2: 239-264. Menard, S. 1995. Applied Logistic Regression. London: Sage. Pontinen, S. 1982. Models and social mobility research. Quality and Quantity 16. Raftery, AE. 1987. Chosing models for cross-classification. American Sociological Review

51. Wickens, T.D. 1989. Multiway Contingency Tables Analysis for the Social Sciences. Hills­

dale, New Jersey: Lawrence Erblaum.