58
Tadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna * * Niniejszy artyku l jest rozszerzon , a wersj , a wykladu wyg loszonego na XXXVIII Konferencji Statystyka Matematyczna Wis la 2012. Streszczenie. W niniejszym artykule przedstawiony jest zarys teorii informa- cji z probabilistycznego i statystycznego punktu widzenia. Ten nurt teorii informa- cji rozwija l si , e intensywnie w ostatnich dziesi , ecioleciach. Wp lyn , a l te˙ z w znacz , acy spos´ ob na rozw´ oj metod statystycznych. Celem artyku lu jest wprowadzenie czytel- nika w przyst , epny spos´ ob w podan , a powy˙ zej tematyk , e, dostarczenie mu pewnych intuicji i przybli˙ zenie specyfiki podej´ scia teorio-informacyjnego w statystyce ma- tematycznej. Abstract. In the paper we present an outline of the information theory from the probabilistic and statistical point of view. Such a direction of the information theory has been intensively developed in recent decades and significantly influen- ced a progress in the statistical methodology. The aim of the article is to introduce the reader into these problems, provide some intuitions and acquaint with a spe- cific information-theoretic approach to the mathematical statistics. 2010 Mathematics Subject Classification: Primary 62B10; Secondary 94A15, 94A17, 60F, 62F, 62G. Key words and phrases: Entropy, Kullback-Leibler distance, Fisher informa- tion, entropy convergence, statistical model and source coding, Stein’s Lemma, density estimation. 1. Wst , ep Rozw´ oj teorii informacji zapocz , atkowa la s lynna praca Shannona z 1948 roku A mathematical theory of communication. Jej podsta- wowym celem by ly zastosowania techniczne zwi , azane z kodowaniem i przesy laniem informacji. Wkr´ otce dostrze˙ zono znaczenie wynik´ow Shannona dla teorii prawdopodobie´ nstwa i statystyki matematycznej 1

Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Tadeusz Inglot (Wroc law)

Teoria informacji a statystykamatematyczna∗

∗ Niniejszy artyku l jest rozszerzon ↪a wersj ↪a wyk ladu wyg loszonego na XXXVIII

Konferencji Statystyka Matematyczna Wis la 2012.

Streszczenie. W niniejszym artykule przedstawiony jest zarys teorii informa-cji z probabilistycznego i statystycznego punktu widzenia. Ten nurt teorii informa-cji rozwija l si ↪e intensywnie w ostatnich dziesi ↪ecioleciach. Wp lyn ↪a l tez w znacz ↪acysposob na rozwoj metod statystycznych. Celem artyku lu jest wprowadzenie czytel-nika w przyst ↪epny sposob w podan ↪a powyzej tematyk ↪e, dostarczenie mu pewnychintuicji i przyblizenie specyfiki podejscia teorio-informacyjnego w statystyce ma-tematycznej.

Abstract. In the paper we present an outline of the information theory fromthe probabilistic and statistical point of view. Such a direction of the informationtheory has been intensively developed in recent decades and significantly influen-ced a progress in the statistical methodology. The aim of the article is to introducethe reader into these problems, provide some intuitions and acquaint with a spe-cific information-theoretic approach to the mathematical statistics.

2010 Mathematics Subject Classification: Primary 62B10; Secondary 94A15,94A17, 60F, 62F, 62G.

Key words and phrases: Entropy, Kullback-Leibler distance, Fisher informa-

tion, entropy convergence, statistical model and source coding, Stein’s Lemma,

density estimation.

1. Wst ↪ep

Rozwoj teorii informacji zapocz ↪atkowa la s lynna praca Shannonaz 1948 roku A mathematical theory of communication. Jej podsta-wowym celem by ly zastosowania techniczne zwi ↪azane z kodowaniemi przesy laniem informacji. Wkrotce dostrzezono znaczenie wynikowShannona dla teorii prawdopodobienstwa i statystyki matematycznej

1

Page 2: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

i podj ↪eto badania w tym kierunku. Wystarczy wspomniec chocbymonografi ↪e Kullbacka (1959), podr ↪ecznik Renyiego (1962) czy ksi ↪azk ↪eChinczyna i in. (1957). Jednak dopiero w ostatnich dziesi ↪ecioleciachnast ↪api l burzliwy rozwoj probabilistycznej i statystycznej ga l ↪ezi teoriiinformacji. Znaczny udzia l mieli w nim mi ↪edzy innymi A. Barron iJ. Rissanen. Niewiele jest publikacji w j ↪ezyku polskim poswi ↪econymtym zagadnieniom. St ↪ad proba wype lnienia istniej ↪acej luki i przed-stwienia ukierunkowanego przegl ↪adu wspo lczesnej teorii informacji wzwartej i przyst ↪epnej formie, co daje tez okazj ↪e do zaproponowania pol-skich terminow dla niektorych poj ↪ec, gdyz w dost ↪epnej literaturze nieby ly dot ↪ad uzywane. W krotkim szkicu nie jest mozliwe uwzgl ↪ednieniewszystkich waznych wynikow tak obszernego dzia lu matematyki. Dla-tego zdecydowa lem si ↪e na pewien wybor materia lu, podyktowany ce-lem wyk ladu i osobistymi zainteresowaniami, jednakze przedstawionyna mozliwie ogolnym tle.

Ostatnio ukaza la si ↪e monografia D ↪ebowskiego (2013) adresowanag lownie do informatykow, w ktorej skupiono si ↪e na problemach kodo-wania, z lozonosci obliczeniowej i analizie ci ↪agow stacjonarnych w kon-tekscie teorii informacji. Tak wi ↪ec znaczna jej cz ↪esc dotyczy innychzagadnien niz przedstawione w niniejszym opracowaniu. Uzupe lniaj ↪acsi ↪e wzajemnie, daj ↪a czytelnikowi mozliwosc zapoznania si ↪e z szerokimwachlarzem wynikow wspo lczesnej teorii informacji.

Rozdzia l drugi poswi ↪econy jest wprowadzeniu podstawowych poj ↪ecteorii informacji, omowieniu ich w lasnosci i wzajemnych zwi ↪azkow.Dalsze dwa dotycz ↪a kolejno zastosowan w teorii prawdopodobienstwa istatystyce. Literatura zwiera jedynie prace cytowane w toku wyk ladu.Wyczerpuj ↪acy przegl ↪ad literatury mozna znalezc np. w podr ↪ecznikuCovera i Thomasa (2006).

2. Podstawy teorii informacji

2.1. Entropia, entropia wzgl ↪edna. Niech A b ↪edzie zdarzeniemlosowym. Zapytajmy, ile informacji jest zawartej w zdaniu zasz lo zda-rzenie A. Jesli prawdopodobienstwo P (A) jest duze, to informacjijest niewiele, a jesli P (A) jest mniejsze, to informacji jest wi ↪ecej. Po-nadto, gdy P (A) = 1, to nie ma zadnej informacji. Natomiast, gdyP (A) jest coraz blizsze 0, to ilosc informacji powinna wzrastac nie-ograniczenie. Te naturalne postulaty realizuje wyrazenie − log2 P (A).Wybor funkcji logarytmicznej oraz podstawy 2 ma g l ↪ebsze uzasadnie-nie, o czym powiemy nieco dalej. W dalszym ci ↪agu b ↪edziemy opusz-czac podstaw ↪e logarytmu i pisac logP (A) (dla odroznienia, logarytm

2

Page 3: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

naturalny b ↪edziemy oznaczac przez ln, a innych podstaw nie b ↪edziemyuzywac).

Rozwazmy zmienn ↪a losow ↪a X o skonczonym nosniku i rozk ladzieµ danym rownosciami

P (X = xi) = pi, i = 1, ..., r. (2.1)

Zapytajmy teraz, ile informacji zawiera podanie wartosci X. PoniewazX wyznacza uk lad zdarzen Ai = {X = xi}, i = 1, ..., r, rozs ↪adnie jestokreslic t ↪e wielkosc jako sredni ↪a ilosc informacji zawartej w zdarze-niach A1, ..., Ar.

Definicja 2.1. Entropi ↪a (entropi ↪a Shannona) zmiennej losowejX o rozk ladzie (2.1) nazywamy liczb ↪e

H(X) = H(µ) = −r∑i=1

pi log pi. (2.2)

Dodatkowo w (2.2) przyjmujemy konwencj ↪e 0 log 0 = 0. Taka definicjazosta la przyj ↪eta przez Shannona w pionierskiej pracy z 1948 roku.

Rozumowanie prowadz ↪ace do powyzszej definicji pozwala j ↪a na-tychmiast rozszerzyc na zmienne losowe dwuwymiarowe (X, Y ). Mia-nowicie, jesli

P (X = xi, Y = yj) = pij, i = 1, ..., r, j = 1, ..., s, (2.3)

to

H(X, Y ) = −∑i,j

pij log pij.

Analogicznie okresla si ↪e entropi ↪e H(X1, ..., Xk) zmiennej wielowymia-rowej X = (X1, ..., Xk).

Jesli zmienna losowa ε ma rozk lad dwupunktowy

P (ε = 1) = p = 1− P (ε = 0), (2.4)

to entropi ↪e ε oznaczamy przez h(p) i nazywamy funkcj ↪a entropijn ↪a(ang. binary entropy function). Mamy wi ↪ec

h(p) = −p log p− (1− p) log(1− p), p ∈ [0, 1].

Funkcja entropijna jest ci ↪ag la, wkl ↪es la, symetryczna wzgl ↪edem 1/2oraz h(1/2) = 1. Wybor podstawy logarytmu 2 jest wyborem jed-nostki miary ilosci informacji. Zatem podanie wyniku pojedynczegorzutu monet ↪a daje 1 bit informacji. Standardowe rozumowanie pro-wadzi do nierownosci

4p(1− p) 6 h(p) 6 2√p(1− p), p ∈ [0, 1].

3

Page 4: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Entropia ma nast ↪epuj ↪ace proste i posiadaj ↪ace naturaln ↪a interpre-tacj ↪e w lasnosci:

(A1) 0 6 H(X) 6 r, przy czym rownosc H(X) = r zacho-dzi wtedy i tylko wtedy, gdy X ma rozk lad jednostajny na zbiorzeX = {x1, ..., xr};

(A2) H(X, Y ) 6 H(X) + H(Y ) dla dowolnych zmiennych loso-wych X, Y , przy czym rownosc zachodzi wtedy i tylko wtedy, gdy X, Ys ↪a niezalezne;

(A3) H(pµ+ (1− p)ν) = h(p) + pH(µ) + (1− p)H(ν) dla dowol-nych miar µ, ν o skonczonych, roz l ↪acznych nosnikach oraz dowolnegop ∈ [0, 1].

Dowody (A1) i (A2) wykorzystuj ↪a jedynie scis l ↪a wypuk losc funk-cji C(y) = y log y i s ↪a charakterystycznym, cz ↪esto powtarzaj ↪acymsi ↪e rozumowaniem w teorii informacji. Przytoczymy dowod pierwszejz tych w lasnosci.

Dowod (A1). Z wypuk losci funkcji C(y) wynika nierownosc

y log y > y−1ln 2, y > 0,

gdyz jej prawa strona jest rownaniem stycznej do wykresu C(y) wpunkcie y = 1. Rownosc ma miejsce tylko dla y = 1. Z powyzszejnierownosci mamy natychmiast

log r −H(X) = log r +∑r

i=1 pi log pi =∑r

i=1 pi log r +∑r

i=1 pi log pi

= 1r

∑ri=1(rpi) log(rpi) > 1

r

∑ri=1

rpi−1ln 2

= 0,

przy czym rownosc ma miejsce wtedy i tylko wtedy, gdy rpi = 1 dlawszystkich i. To konczy dowod. 2

Interpretacja w lasnosci (A3) wydaje si ↪e mniej oczywista. Aby j ↪aprzedstawic przyjmijmy, ze X, Y s ↪a zmiennymi losowymi o rozk ladachµ, ν, a ε zmienn ↪a losow ↪a niezalezn ↪a od X, Y o rozk ladzie dwupunkto-wym (2.4). Wowczas zmienna losowa

V =

{X, gdy ε = 1,Y, gdy ε = 0,

ma rozk lad pµ + (1 − p)ν. Aby podac wartosc V trzeba najpierwpodac wartosc ε, a nast ↪epnie wartosc X, gdy ε = 1 lub Y , gdy ε = 0.Odpowiednie ilosci informacji nalezy zsumowac, co daje praw ↪a stron ↪erownosci (A3) zwanej w lasnosci ↪a dekompozycji lub grupowania.

4

Page 5: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Okazuje si ↪e, ze w lasnosci (A1)–(A3) charakteryzuj ↪a entropi ↪e Shan-nona i w ten sposob uzasadniaj ↪a wybor funkcji logarytmicznej jakomiary ilosci informacji.

Twierdzenie 2.1. Niech G(X) = G(µ) b ↪edzie funkcj ↪a okreslon ↪ana rozk ladach o skonczonych nosnikach spe lniaj ↪ac ↪a (A1)–(A3). Po-nadto za lozmy, ze G(X) jest niezmiennicza na bijekcje (tzn. dla do-wolnej bijekcji f mamy G(f(X)) = G(X)) oraz funkcja g(p) = G(ε),p ∈ [0, 1], dla zmiennej ε o rozk ladzie dwupunktowym (2.4), jest ci ↪ag lana [0, 1]. Wowczas

G(X) = −r∑i=1

pi logc pi

dla pewnego c > 1. Przyjmuj ↪ac dodatkowo g(1/2) = 1, otrzymujemyc = 2 czyli G(X) = H(X).

Faddejew (1956) poda l minimalny zbior za lozen gwarantuj ↪acych t ↪esam ↪a tez ↪e. Renyi (1961) uogolni l powyzsze twierdzenie. Zast ↪epuj ↪ac(A3) przez

(A3’) ψ(G(pµ+ (1− p)ν)) = pαψ(G(µ)) + (1− p)αψ(G(ν)),

gdzie α > 0, α 6= 1, ψ(y) = 2(1−α)y, i zachowuj ↪ac wszystkie pozosta lew lasnosci, udowodni l, ze jedyn ↪a funkcj ↪a spe lniaj ↪ac ↪a te za lozenia jesttzw. α-entropia Renyiego

Hα(X) =1

1− αlog

(r∑i=1

pαi

).

Wartosc parametru α = 1 odpowiada entropii okreslonej przez (2.2).W ostatnich dekadach α-entropia, α 6= 1, znalaz la liczne zastosowa-nia m.in. w lingwistyce matematycznej, teorii fraktali i informatycekwantowej. Pewn ↪a wersj ↪a α-entropii Renyiego jest tzw. α-entropiaTsallisa (1988)

1

1− α

(r∑i=1

pαi − 1

).

Wi ↪ecej wiadomosci o α-entropii mozna znalezc np. w pracy Jizby iArimitsu (2004).

W dalszym ci ↪agu naszych rozwazan pozostaniemy przy definicjientropii (2.2) przyj ↪etej przez Shannona, ktora dobrze odpowiada za-gadnieniom kodowania i przesy lania informacji, a co za tym idzie,takze zagadnieniom statystyki matematycznej.

Interpretacja poj ↪ec teorii informacji w j ↪ezyku kodow binarnych jest

5

Page 6: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

cz ↪esto bardziej przekonywuj ↪aca niz w j ↪ezyku mierzenia ilosci informa-cji. Dotyczy to przede wszystkim samego poj ↪ecia entropii.

Niech X = {x1, ..., xr} b ↪edzie ustalonym zbiorem (alfabetem). Wcelu przesy lania tekstow zapisanych w alfabecie X kazd ↪a liter ↪e kodu-jemy w postaci ci ↪agu binarnego (s lowa kodowego) xi −→ α1α2...αki .Liczby k1, ..., kr s ↪a d lugosciami s low kodowych. Ograniczamy si ↪e dokodow jednoznacznie dekodowalnych tzn. takich, ktore pozwalaj ↪a jed-noznacznie podzielic przes lany bez zak locen ci ↪ag binarny na s lowa ko-dowe (litery). Wsrod tych kodow szczegoln ↪a rol ↪e odgrywaj ↪a kodyprzedrostkowe (lub inaczej prefiksowe), w ktorych zadne s lowo kodowenie jest pocz ↪atkiem innego.

Przyk ladem kodu przedrostkowego dla X = {x1, x2, x3, x4} mozebyc: x1 → 0, x2 → 10, x3 → 110, x4 → 111. Ci ↪ag 1100101110010dekodujemy wi ↪ec jako 110|0|10|111|0|0|10 −→ x3x1x2x4x1x1x2.

Dla kodow jednoznacznie dekodowalnych prawdziwa jest nierow-nosc Krafta.

Twierdzenie 2.2 (nierownosc Krafta, 1949). Kod jest jedno-

znacznie dekodowalny wtedy i tylko wtedy, gdyr∑i=1

2−ki 6 1.

Nierownosc t ↪e nazywa si ↪e takze twierdzeniem Krafta-McMillana(McMillan, 1956).

Zmienn ↪a losow ↪a X o rozk ladzie (2.1) nazywamy zrod lem (ang. so-urce). Rozwazmy jednoznacznie dekodowalny kod binarny o s lowachd lugosci k1, ..., kr. Wowczas

∑ri=1 kipi jest sredni ↪a d lugosci ↪a s lowa ko-

dowego dla zrod la X. Z nierownosci Krafta wynika, ze optymalnym(realizuj ↪acym rownosc) wyborem d lugosci s low jest ki = − log pi. Po-niewaz ki musz ↪a byc liczbami naturalnymi, konieczne jest zaokr ↪agleniew gor ↪e tj. przyj ↪ecie ki = d− log pie. Wtedy srednia d lugosc s lowa opty-malnego kodu binarnego lezy w przedziale [H(X), H(X) + 1). Zatementropi ↪e mozemy interpretowac jako sredni ↪a d lugosc s lowa optymal-nego kodu binarnego (z dok ladnosci ↪a do 1 bitu) dla zrod la X. Opty-malnym kodem przedrostkowym jest kod Huffmana (1952).

Powrocmy do naszego przyk ladu. Jesli, p1 = 0.5, p2 = 0.25,p3 = p4 = 0.125, to poprzednio okreslony kod jest optymalny, sredniad lugosc s lowa kodowego wynosi 1.75 = H(X) i jest to kod Huff-mana. Natomiast, jesli p1 = p2 = 0.0625, p3 = 0.375, p4 = 0.5, toten kod jest daleki od optymalnego i srednia d lugosc s lowa kodowegowynosi ok. 2.81 i jest wi ↪eksza niz H(X) + 1 ≈ 2.53. W tym przy-padku kod Huffmana jest okreslony przez x1 −→ 110, x2 −→ 111,

6

Page 7: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

x3 −→ 10, x4 −→ 0, ze sredni ↪a d lugosci ↪a s lowa kodowego rown ↪a1.625.

Niech (X, Y ) b ↪edzie dwuwymiarow ↪a zmienn ↪a losow ↪a o rozk ladzie(2.3). Zapytajmy znow, ile informacji zawiera podanie wartosci Y ,gdy znamy X. Jesli wiemy, ze zasz lo zdarzenie {X = xi}, to zdarzenia{Y = yj} maj ↪a prawdopodobienstwa (warunkowe) pij/pi·, gdzie pi· =∑s

j=1 pij, i ilosc informacji potrzebnej wtedy do podania wartosci Y

wynosi H(Y |X = xi) = −∑s

j=1pijpi·

logpijpi·

. Zatem entropia warunkowaY przy znanym X wynosi

H(Y |X) =r∑i=1

H(Y |X = xi) pi· = −∑i,j

pij logpijpi·.

Powtarzaj ↪ac rozumowanie z dowodu w lasnosci (A1), otrzymujemy

H(Y |X) 6 H(Y ),

przy czym rownosc ma miejsce wtedy i tylko wtedy, gdy X, Y s ↪aniezalezne. Ostatnia nierownosc zgadza si ↪e z intuicj ↪a, ze dla X, Yzaleznych podanie wartosci Y przy znanym X wymaga mniejszej ilosciinformacji niz H(Y ).

Przez bezposrednie sprawdzenie mozna udowodnic nast ↪epuj ↪acetwierdzenie, ktorego interpretacja jest oczywista.

Twierdzenie 2.3 (regu la lancuchowa).

H(X, Y ) = H(X) +H(Y |X).

Ogolniej

H(X1, ..., Xn) = H(X1) +H(X2|X1) + ...+H(Xn|X1, ..., Xn−1).

Dodajmy, ze dla α-entropii Renyiego regu la lancuchowa w powyzszejpostaci nie jest prawdziwa. Uzywaj ↪ac poj ↪ecia entropii warunkowej,mozna przyj ↪ac, ze ilosc informacji o Y zawartej w X wynosi I(Y,X) =H(Y ) − H(Y |X). Z regu ly lancuchowej wynika rownosc I(Y,X) =H(X) + H(Y ) − H(X, Y ) = I(X, Y ) czyli I(Y,X) jest takze rownailosci informacji o X zawartej w Y .

Definicja 2.2. Ilosc informacji wzajemnej zmiennych losowychX, Y wynosi

I(X, Y ) = H(X) +H(Y )−H(X, Y ). (2.5)

Dotychczas rozwazalismy zmienne losowe, ktorych rozk lad by l zna-ny. Jesli jednak p1, ..., pr nie s ↪a znane, to mozna je przyblizyc prawdo-

7

Page 8: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

podobienstwami q1, ..., qr czyli przez pewien rozk lad ν na tym samymzbiorze (alfabecie) X . Wtedy ilosc informacji potrzebnej do podaniawartosci X wynosi −

∑ri=1 pi log qi i rozni si ↪e od ilosci informacji, gdy

znamy pi o wielkosc

−r∑i=1

pi log qi +r∑i=1

pi log pi =r∑i=1

pi logpiqi

ozn= D(µ||ν).

Powtarzaj ↪ac jeszcze raz rozumowanie analogiczne do dowodu w lasnosci(A1), otrzymujemy twierdzenie.

Twierdzenie 2.4. Dla dowolnych rozk ladow µ, ν o wspolnymskonczonym nosniku X mamy

D(µ||ν) > 0

i rownosc zachodzi wtedy i tylko wtedy, gdy µ = ν tzn. pi = qi dlawszystkich i.

A wi ↪ec zast ↪apienie nieznanych pi przez ich przyblizenia qi powodujewzrost entropii o D(µ||ν). Wielkosc D(µ||ν) nazywamy entropi ↪awzgl ↪edn ↪a, odleg losci ↪a Kullbacka-Leiblera lub odleg losci ↪a entropijn ↪aµ od ν. Przyjmuj ↪ac nadal konwencj ↪e 0 log 0 = 0, definicj ↪e D(µ||ν)mozemy rozszerzyc na przypadek, gdy nosnik ν zawiera nosnik µ(rozk lad przyblizaj ↪acy ν jest bardziej ‘rozmyty’). Uogolnienie poj ↪eciaentropii wzgl ↪ednej na szersz ↪a klas ↪e rozk ladow omowimy w rozdziale2.2.

Rozumowanie prowadz ↪ace do okreslenia entropii wzgl ↪ednej wygod-nie jest zinterpretowac w j ↪ezyku kodow binarnych. Jesli konstruujemyoptymalny kod binarny dla zrod la X w oparciu o przyblizenia qinieznanych prawdopodobienstw pi, to srednia d lugosc s lowa kodo-wego (z dok ladnosci ↪a do zaokr ↪aglenia w gor ↪e) wynosi −

∑i pi log qi.

W stosunku do kodu optymalnego opartego na dok ladnych prawdopo-dobienstwach pi srednie wyd luzenie (inny polski termin redundancja,ang. redundancy) s low kodowych wynosi D(µ||ν).

Odleg losc entropijna ma nast ↪epuj ↪ace w lasnosci, ktore latwo spraw-dzic bezposrednim rachunkiem.

Twierdzenie 2.5.

(i) D(µ||ν) nie jest symetryczn ↪a funkcj ↪a µ, ν, czyli na ogo lD(µ||ν) 6= D(ν||µ);

(ii) D(µ||λ) = log r−H(µ) = H(λ)−H(µ), gdzie λ jest rozk la-dem jednostajnym na nosniku µ;

8

Page 9: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

(iii) D(µ||µ1×µ2) = I(X, Y ), gdzie µ jest rozk ladem dwuwymia-rowej zmiennej losowej (X, Y ), a µ1, µ2 rozk ladami brzegowymi;

(iv) D(αµ1 + (1− α)µ2||αν1 + (1− α)ν2)6 αD(µ1||ν1) + (1− α)D(µ2||ν2)

dla dowolnych rozk ladow µ1, ν1 o tym samym nosniku, dowolnych µ2, ν2

o tym samym nosniku i α ∈ [0, 1].

W lasnosc (iii) wi ↪aze ilosc informacji wzajemnej X, Y z odleg losci ↪aentropijn ↪a rozk ladu (X, Y ) od produktu rozk ladow brzegowych. W las-nosc (iv) nazywamy wypuk losci ↪a odleg losci entropijnej. W dowodzie(iv) korzysta si ↪e z tzw. nierownosci logarytmiczno-sumacyjnej (ang.log–sum inequality)

(x1 + x2) logx1 + x2

y1 + y2

6 x1 logx1

y1

+ x2 logx2

y2

, x1, x2, y1, y2 > 0,

ktora jest bezposredni ↪a konsekwencj ↪a wypuk losci funkcji C(y).

2.2. Entropia rozniczkowa, odleg losc Kullbacka-Leiblera.W modelowaniu zjawisk losowych w naturalny sposob pojawiaj ↪a si ↪erozk lady o nieskonczonym, a nawet nieprzeliczalnym nosniku. Dla-tego poj ↪ecia wprowadzone w poprzednim paragrafie przeniesiemy naprzypadek nieskonczonych nosnikow.

Niech X b ↪edzie dyskretn ↪a zmienn ↪a losow ↪a o rozk ladzie µ danymrownosciami

P (X = xi) = pi, i = 1, 2, ...

Rozumowanie prowadz ↪ace do definicji entropii (por. (2.2)) stosuje si ↪etakze w tym przypadku i entropi ↪e X okreslamy wzorem

H(X) = −∞∑i=1

pi log pi. (2.6)

Entropia pozostaje wielkosci ↪a dodatni ↪a, ale moze przyjmowac wartosc+∞ (szereg moze byc rozbiezny). Dla rozk ladow µ, ν o tych samychnosnikach (lub ewentualnie nosniku ν zawieraj ↪acym nosnik µ) analo-gicznie okreslamy entropi ↪e wzgl ↪edn ↪a D(µ||ν) =

∑∞i=1 pi log(pi/qi) i

analogicznie wykazujemy, ze jest ona nieujemna i rowna zeru wtedy itylko wtedy, gdy µ = ν.

Jako przyk lad rozwazmy zmienn ↪a losow ↪a X o rozk ladzie geome-trycznym γm z parametrem 1/m, m > 1, tzn.

P (X = i) =1

m

(1− 1

m

)i−1

, i = 1, 2, ...

9

Page 10: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Bezposredni rachunek daje H(X) = mh(1/m). Latwo sprawdzic, zelimm→∞mh(1/m) = ∞. Oznacza to, ze jesli prawdopodobienstwosukcesu 1/m maleje do 0, to ilosc informacji potrzebnej do poda-nia wartosci X rosnie nieograniczenie. A wi ↪ec w lasnosc (A1) entropiimowi ↪aca, ze na zbiorze skonczonym X istnieje rozk lad o maksymal-nej entropii nie ma odpowiednika w klasie wszystkich rozk ladow onosniku przeliczalnym i skonczonej entropii. Mozna jednak wykazac,ze w klasie rozk ladow na zbiorze liczb naturalnych o ustalonej wartoscioczekiwanej m istnieje rozk lad o maksymalnej entropii.

Twierdzenie 2.6. W klasieMm rozk ladow na zbiorze liczb natu-ralnych o ustalonej wartosci oczekiwanej m > 1, maksymaln ↪a entropi ↪eosi ↪aga rozk lad geometryczny γm z parametrem 1/m. Mamy wi ↪ec

supµ∈Mm

H(µ) = H(γm) = mh(1/m),

przy czym rownosc ma miejsce wtedy i tylko wtedy, gdy µ = γm.

Dowod. Dla dowolnego rozk ladu µ ∈ Mm czyli takiego, ze∑∞i=1 ipi = m mamy

D(µ||γm) =∑∞

i=1 pi log pimi

(m−1)i−1

=∑∞

i=1 pi log pi− (∑∞

i=1 ipi) log m−1m

+ log(m− 1) = −H(µ) +H(γm).

Poniewaz D(µ||γm) > 0 i rownosc zachodzi tylko gdy µ = γm, toH(µ) 6 H(γm), co konczy dowod. 2

Entropia okreslona wzorem (2.6) zachowuje wszystkie w lasnoscientropii rozk ladow o skonczonym nosniku.

Niech teraz X b ↪edzie rzeczywist ↪a zmienn ↪a losow ↪a o g ↪estosci p(x).Na chwil ↪e za lozmy dodatkowo, ze p jest ci ↪ag la na R. Podanie dok ladnejwartosci X wymaga nieskonczonej ilosci informacji. Podanie wartosciX z dok ladnosci ↪a δ > 0 prowadzi do dyskretyzacji X. Mianowicie,niech Xδ oznacza zmienn ↪a losow ↪a okreslon ↪a wzorem

Xδ = iδ, gdy X ∈ [iδ, (i+ 1)δ), i ∈ Z.

Wtedy jej rozk lad okreslaj ↪a prawdopodobienstwa

P (Xδ = iδ) =

∫[iδ,(i+1)δ)

p(x) dx = δp(x∗i ), i ∈ Z,

dla pewnych x∗i ∈ [iδ, (i + 1)δ) z twierdzenia o wartosci sredniej dlaca lki i ci ↪ag losci p. Entropia dyskretyzacji Xδ wynosi zatem

10

Page 11: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

H(Xδ) = −∑

i∈Z δp(x∗i ) log(δp(x∗i ))

= −∑

i∈Z(p(x∗i ) log p(x∗i )) δ − log δ. (2.7)

Pierwszy sk ladnik po prawej stronie wzoru (2.7) jest sum ↪a ca lkow ↪aca lki Riemanna −

∫R p(x) log p(x) dx. Z ci ↪ag losci p wynika nast ↪epuj ↪aca

rownosc

limδ→0

(H(Xδ) + log δ) = −∫Rp(x) log p(x) dx. (2.8)

Wyrazenie po prawej stronie wzoru (2.8) nazywamy entropi ↪a roznicz-kow ↪a zmiennej losowej X (krotko entropi ↪a X) i oznaczamy tak jakpoprzednio przez H(X). W dalszym ci ↪agu praw ↪a stron ↪e (2.8) przyj-mujemy jako definicj ↪e entropii dowolnej zmiennej losowej o rozk ladzieabsolutnie ci ↪ag lym i g ↪estosci p(x), dla ktorej ta ca lka (jako ca lka Lebes-gue’a) istnieje, z dopuszczeniem wartosci +∞ oraz −∞. InterpretacjaH(X) wynika z (2.8) i jest nieco inna niz poprzednio. Ilosc infor-macji potrzebna do podania wartosci X z dok ladnosci ↪a do m miejscbinarnych po przecinku wynosi H(X) + m. Bezposrednio z definicjidostajemy

(i) H(X + c) = H(X), H(cX) = H(X) + log |c|, c ∈ R;

(ii) H(Y |X) = −∫ ∫

R×Rp(x, y) log p(y|x)dx dy, gdzie p(x, y) jest

g ↪estosci ↪a dwuwymiarowej zmiennej losowej (X, Y ), a p(y|x) g ↪estosci ↪awarunkow ↪a Y przy warunku X = x;

(iii) I(X, Y ) = H(X) +H(Y )−H(X, Y );

(iv) H(X + Y ) > max{H(X), H(Y )}, gdy X, Y niezalezne. (2.9)

W lasnosc (i) odroznia entropi ↪e rozniczkow ↪a od entropii zmiennejlosowej dyskretnej, gdyz niezmienniczosc na bijekcje przestaje obowi ↪a-zywac. Ilosc informacji wzajemnej I(X, Y ) zachowuje tak ↪a sam ↪a in-terpretacj ↪e jak w przypadku dyskretnym. W lasnosc (iv) jest konse-kwencj ↪a relacji H(X, Y ) = H(X,X+Y ) oraz (A2). Definicja entropiirozniczkowej (2.8) przenosi si ↪e natychmiast na przypadek wielowymia-rowy X = (X1, ..., Xk) wzorem

H(X) = H(X1, ..., Xk) = −∫Rk p(x1, ..., xk) log p(x1, ..., xk)dx1...dxk.

Analogia mi ↪edzy entropi ↪a rozniczkow ↪a i entropi ↪a zmiennych dys-kretnych prowadzi do pytania o istnienie rozk ladu ci ↪ag lego o maksy-malnej entropii. Odpowiedz jest nieco bardziej z lozona niz w przy-padku zmiennych dyskretnych. Najpierw rozwazmy zmienn ↪a losow ↪ao nosniku zwartym [a, b]. Wowczas mamy nast ↪epuj ↪ace twierdzenie,

11

Page 12: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

ktore jest odpowiednikiem w lasnosci (A1).

Twierdzenie 2.7. Jesli X ma rozk lad absolutnie ci ↪ag ly o nosniku[a, b], to

H(X) 6 log(b− a) = H(U[a,b]),

gdzie U[a,b] oznacza zmienn ↪a losow ↪a o rozk ladzie jednostajnym na od-

cinku [a, b]. Rownosc ma miejsce wtedy i tylko wtedy, gdy XD= U[a,b].

Dowod. Rozumowanie jest analogiczne do dowodu w lasnosci (A1).Niech p(x) b ↪edzie g ↪estosci ↪a X. Wtedy z wypuk losci funkcji C(y)mamy

log(b− a)−H(X) =∫ bap(x) log[(b− a)p(x)]dx

= 1b−a

∫ ba[(b− a)p(x)] log[(b− a)p(x)]dx

> 1b−a

∫ ba

(b−a)p(x)−1ln 2

dx = 0,

przy czym rownosc zachodzi wtedy i tylko wtedy, gdy (b− a)p(x) = 1prawie wsz ↪edzie. To konczy dowod. 2

Tak samo dowodzi si ↪e nast ↪epuj ↪ace twierdzenie.

Twierdzenie 2.8.

(1) Jesli X ma rozk lad absolutnie ci ↪ag ly o nosniku [0,∞) orazEX = m, to

H(X) 6 log(em) = H(Wm),

gdzie Wm oznacza zmienn ↪a losow ↪a o rozk ladzie wyk ladniczym z para-

metrem 1/m. Rownosc ma miejsce wtedy i tylko wtedy, gdy XD= Wm;

(2) jesli X ma rozk lad absolutnie ci ↪ag ly o nosniku R oraz EX = 0i VarX = t, to

H(X) 61

2log(2π e t) = H(Zt), (2.10)

gdzie Zt oznacza zmienn ↪a losow ↪a o rozk ladzie normalnym, sredniej 0

i wariancji t. Rownosc ma miejsce wtedy i tylko wtedy, gdy XD= Zt;

(3) jesli X ma rozk lad absolutnie ci ↪ag ly o nosniku Rk, sredniej 0i macierzy kowariancji K, to

H(X) 61

2log((2π e)k detK

)= H(ZK), (2.11)

gdzie ZK oznacza zmienn ↪a losow ↪a o rozk ladzie normalnym N(0, K).

Rownosc ma miejsce wtedy i tylko wtedy, gdy XD= ZK.

12

Page 13: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Cz ↪esc (1) twierdzenia 2.8 jest odpowiednikiem twierdzenia 2.6,a (2) i (3) nie maj ↪a odpowiednika w klasie rozk ladow dyskretnych i za-wieraj ↪a ciekawe i wazne spostrzezenie, iz rozk lad normalny maksyma-lizuje entropi ↪e i pe lni rol ↪e rozk ladu jednostajnego w klasie rozk ladowo nosniku Rk. Ustalenie wartosci wariancji jest konieczne, gdyzlimt→∞H(Zt) = limt→∞ log(2π e t) =∞.

Definicja entropii rozniczkowej (2.8) sugeruje sposob przeniesie-nia poj ↪ecia entropii wzgl ↪ednej na przypadek rozk ladow absolutnieci ↪ag lych.

Definicja 2.3. Niech µ, ν b ↪ed ↪a rozk ladami absolutnie ci ↪ag lymi wRk o g ↪estosciach, odpowiednio, p i q. Wielkosc

D(µ||ν) = D(p||q) =

∫Rkp(x) log

p(x)

q(x)dx, gdy µ ≺≺ ν,

+∞, poza tym,(2.12)

nazywamy odleg losci ↪a Kullbacka-Leilblera, entropi ↪a wzgl ↪edn ↪a lub od-leg losci ↪a entropijn ↪a µ od ν.

Interpretacja odleg losci entropijnej podana w poprzednim paragra-fie pozostaje s luszna w przypadku rozk ladow absolutnie ci ↪ag lych. Jeslinieznana g ↪estosc p zmiennej losowej X jest przyblizana przez g ↪estosc q(byc moze o wi ↪ekszym nosniku), to ilosc informacji potrzebna do poda-nia X (z ustalon ↪a dok ladnosci ↪a) zwi ↪eksza si ↪e o D(p||q) w stosunku dosytuacji, gdy p jest znana. Podobnie, optymalny kod binarny opartyna przyblizeniu q nieznanej g ↪estosci p zrod la powoduje wyd luzenie(redundancj ↪e) sredniej d lugosci s lowa kodowego o D(p||q).

W lasnosci odleg losci entropijnej omowione w poprzednim rozdzialeobowi ↪azuj ↪a takze w obecnej sytuacji. Dla kompletnosci powtorzymyje i uzupe lnimy dalszymi, waznymi dla rozwazan teoretycznych.

Twierdzenie 2.9.

(i) D(p||q) > 0 i rownosc zachodzi wtedy i tylko wtedy, gdy p = qprawie wsz ↪edzie;

(ii) D(p||q) nie jest funkcj ↪a symetryczn ↪a p, q, czyli na ogo lD(p||q) 6= D(q||p);

(iii) I(X, Y ) = D(µ||µ1×µ2), gdzie µ jest rozk ladem dwuwymia-rowej zmiennej losowej ci ↪ag lej (X, Y ), a µ1, µ2 rozk ladami brzegowymi;

13

Page 14: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

(iv) D(αµ1 + (1− α)µ2||αν1 + (1− α)ν2)6 αD(µ1||ν1) + (1− α)D(µ2||ν2)

dla dowolnych rozk ladow absolutnie ci ↪ag lych µ1 ≺≺ ν1 i µ2 ≺≺ ν2

oraz α ∈ [0, 1];

(v) jesli pnλ→ p oraz qn

λ→ q, to lim infn→∞

D(pn||qn) > D(p||q),

gdzie λ oznacza miar ↪e Lebesgue’a;

(vi) (log e) d2H(p, q) 6 D(p||q);

(vii)log e

2||p− q||2L1

6 D(p||q). (2.13)

W lasnosc (i) nazywa si ↪e nierownosci ↪a Gibbsa, w lasnosc (v) oznaczadoln ↪a po lci ↪ag losc odleg losci entropijnej, dH jest odleg losci ↪a Hellingera(d2H(p, q) =

∫R(√p−√q)2dλ), a w lasnosc (vii) nazywa si ↪e nierownosci ↪a

Pinskera (Csiszar, 1967, Kullback, 1967). Nierownosci (vi) i (vii) po-kazuj ↪a, ze odleg losc Kullbacka-Leiblera ma charakter kwadratu ‘od-leg losci’ rozk ladow. W lasnosc (ii) z twierdzenia 2.5, pomini ↪eta wtwierdzeniu 2.9 stanowi tresc twierdzen 2.7 i 2.8. Dowod trzech ostat-nich w lasnosci szkicujemy ponizej.

Dowod. W lasnosc (v) wynika bezposrednio z Lematu Fatou ifaktu, ze funkcja C(y) = y log y jest ograniczona z do lu. Dla dowodu(vi) wystarczy zauwazyc, ze funkcja ψ(y) = y ln y + 2

√y − 2y jest

nieujemna na (0,∞) oraz ze∫Rk ψ(p(x)

q(x))q(x)dx = 1

log eD(p||q)−d2

H(p, q).

Zamiast (vii) udowodnimy tutaj nieco s labsz ↪a nierownosc tj. ze sta l ↪a4 zamiast 2. Z nierownosci Schwarza, w lasnosci (vi) oraz faktu, zed2H(p, q) = 2− 2

∫R√pq dλ mamy(∫

Rk |p(x)− q(x)|dx)2

6∫Rk(√p(x)−

√q(x))2dx

∫Rk(√p(x) +

√q(x))2dx

= (4− d2H(p, q))d2

H(p, q) 6 4d2H(p, q) 6 4

log eD(p||q)

co dowodzi (2.13) z gorsz ↪a sta l ↪a. 2

Na koniec zauwazmy, ze poj ↪ecia entropii i odleg losci Kullbacka-Leiblera mozna przeniesc natychmiast na przypadek zmiennych lo-sowych o wartosciach w dowolnej przestrzeni miarowej σ-skonczonej(X ,B, λ), przepisuj ↪ac definicje (2.8) i (2.12). Prawie wszystkie omowio-ne przez nas w lasnosci entropii oraz odleg losci entropijnej przenosz ↪asi ↪e na przypadek ogolny wraz z dowodami. Do l ↪aczymy do nich jeszcze

14

Page 15: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

jedn ↪a, ktor ↪a mozna nazwac w lasnosci ↪a kontrakcji odleg losci Kullbacka-Leiblera.

Twierdzenie 2.10 (Kullback, 1959). Niech µ1, µ2 b ↪ed ↪a rozk lada-

mi na (X ,B, λ) o g ↪estosciach p1 =dµ1

dλ, p2 =

dµ2

dλi niech T : (X ,B)→

(Y , C) b ↪edzie odwzorowaniem mierzalnym. Wowczas

D(µ1T−1||µ2T

−1) 6 D(µ1||µ2)

i rownosc ma miejsce wtedy i tylko wtedy, gdyp1(x)

p2(x)=

q1(T (x))

q2(T (x))λ−p.w., gdzie q1, q2 s ↪a g ↪estosciami rozk ladow µ1T

−1, µ2T−1 wzgl ↪edem

miary indukowanej λT−1 na Y.

Dowod. Stosuj ↪ac zamian ↪e zmiennych w ca lce, otrzymujemy

D(µ1T−1||µ2T

−1) =∫X p1(x) log q1(T (x))

q2(T (x))λ(dx).

St ↪ad

D(µ1||µ2)−D(µ1T−1||µ2T

−1) =∫X p1(x) log p1(x)q2(T (x))

p2(x)q1(T (x))λ(dx).

Poniewaz∫ q1(T (x))

q2(T (x))p2(x)λ(dx) = 1, to powtarzaj ↪ac rozumowanie z do-

wodu w lasnosci (A1), pokazujemy, ze ca lka po prawej stronie jest nie-

ujemna i rowna 0 wtedy i tylko wtedy, gdy p1(x)q2(T (x))p2(x)q1(T (x))

= 1 prawiewsz ↪edzie wzgl ↪edem miary λ, co konczy dowod. 2

2.3. Rzut informacyjny. Rozwazania przeprowadzimy w ogol-nym przypadku tj. dla zmiennych losowych o wartosciach w dowolnejprzestrzeni miarowej σ-skonczonej X . Niech P b ↪edzie pewn ↪a rodzin ↪arozk ladow absolutnie ci ↪ag lych na X i niech µ ∈ Pc b ↪edzie ustalonymrozk ladem absolutnie ci ↪ag lym takim, ze D(ν||µ) < ∞ dla pewnegoν ∈ P .

Definicja 2.4. Rozk lad µ∗ ∈ P nazywa si ↪e rzutem informacyj-nym (ang. information projection) rozk ladu µ na P, jesli

D(µ∗||µ) = minν∈P

D(ν||µ).

Piszemy µ∗ = IprojP(µ).

Warunki wystarczaj ↪ace istnienia rzutu informacyjnego podaje na-st ↪epuj ↪ace twierdzenie.

15

Page 16: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Twierdzenie 2.11 (Csiszar, 1975). Jesli rodzina P jest wypuk lai domkni ↪eta w normie ca lkowitego wahania, to dla dowolnego rozk laduabsolutnie ci ↪ag lego µ ∈ Pc takiego, ze D(ν||µ) < ∞ dla pewnegoν ∈ P, rzut informacyjny IprojP(µ) istnieje.

Dowod. Wybierzmy ci ↪ag rozk ladow νn o g ↪estosciach qn = dνndλ

,dla ktorego limn→∞D(νn||µ) = infν∈P D(ν||µ). Z wypuk losci P oraznierownosci Pinskera (2.13) mamy

log e4||qn − qm||2L1

6 log e2

(||qn − qn+qm2||2L1

+ ||qm − qn+qm2||2L1

)

6 D(qn|| qn+qm2

) +D(qm|| qn+qm2

)

= D(qn||p) +D(qm||p)− 2D( qn+qm2||p)→ 0,

gdzie p jest g ↪estosci ↪a µ. To oznacza, ze ci ↪ag (qn) jest podstawowy wL1, czyli z domkni ↪etosci P zbiezny w normie L1 do pewnej g ↪estoscip∗ miary µ∗ ∈ P . Z dolnej po lci ↪ag losci odleg losci Kullbacka-Leiblerawynika, ze µ∗ jest rzutem informacyjnym. 2

Csiszar pokaza l rowniez wazn ↪a w lasnosc geometryczn ↪a rzutu infor-macyjnego.

Twierdzenie 2.12 (Csiszar, 1975). Przy za lozeniach twierdze-nia 2.11 mamy µ∗ = IprojP(µ) wtedy i tylko wtedy, gdy dla kazdegorozk ladu ν ∈ P zachodzi nierownosc

D(ν||µ) > D(ν||µ∗) +D(µ∗||µ). (2.14)

W konsekwencji µ∗ jest wyznaczona jednoznacznie.

Kwadrat normy euklidesowej w Rk ma analogiczn ↪a w lasnosc do(2.14), gdyz rzut ortogonalny x∗ punktu x ∈ W c na zbior wypuk lyW , punkt x oraz dowolny punkt y ∈ W tworz ↪a trojk ↪at rozwartok ↪atny,co skutkuje nierownosci ↪a ||y − x||2 > ||y − x∗||2 + ||x∗ − x||2. Jednakodleg losc Kullbacka-Leiblera ma inn ↪a geometri ↪e niz norma euklide-sowa. Wiadomo, ze jesli x∗ jest rzutem ortogonalnym punktu x ∈ Rk

na podprzestrzen afiniczn ↪a A, to A jest zawarta w hiperp laszczyzniestycznej do kuli o srodku x i promieniu ||x∗ − x|| tj. zbiorze wszyst-kich punktow y, dla ktorych spe lnione jest twierdzenie Pitagorasa||y − x||2 = ||y − x∗||2 + ||x∗ − x||2. Csiszar (1975, str. 152) poda lprzyk lad rodziny ‘afinicznej’ rozk ladow, ktory nie jest zawarty w ‘hi-perp laszczyznie stycznej’ T do D-kuli o srodku µ i ‘promieniu’√D(µ∗||µ) tj. zbiorze wszystkich ν, dla ktorych w (2.14) zachodzi

16

Page 17: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

rownosc. Pokaza l natomiast, ze jesli P = {αν1 +(1−α)ν2 : α ∈ [0, 1]}i µ∗ = IprojP(µ) lezy wewn ↪atrz odcinka P (ogolniej, µ∗ jest punk-tem algebraicznie wewn ↪etrznym zbioru wypuk lego P), to P ⊂ T .Podobnie rodzina P wyznaczona przez skonczon ↪a liczb ↪e warunkowca lkowych (liniowych) jest zawarta w T .

Dualne poj ↪ecie zwane odwrotnym rzutem informacyjnym (ang. re-versed information projection) wprowadzi l Czencow (1972). Csiszar iMatus (2003) uogolnili poj ↪ecia rzutu i odwrotnego rzutu informacyj-nego i wszechstronnie je przebadali. Niech P i µ b ↪ed ↪a jak poprzednioi takie, ze D(µ||ν) <∞ dla pewnego ν ∈ P .

Definicja 2.5. Rozk lad µ∗ ∈ P nazywamy odwrotnym rzuteminformacyjnym µ na P, jesli D(µ||µ∗) = minν∈P D(µ||ν). Piszemyµ∗ = RIprojP(µ).

Dla odwrotnego rzutu informacyjnego prawdziwe s ↪a analogicznefakty do zawartych w twierdzeniach 2.11 i 2.12. Mowimy, ze rodzina Pjest logarytmicznie wypuk la, jesli dla dowolnych µ, ν ∈ P o g ↪estosciachp, q, p·q 6= 0, i dowolnego α ∈ (0, 1) rozk lad o g ↪estosci cαp

αq1−α nalezydo P , gdzie cα jest sta l ↪a normuj ↪ac ↪a. Oczywiscie, wyk ladnicza rodzinarozk ladow jest logarytmicznie wypuk la.

Twierdzenie 2.13 (Csiszar, Matus, 2003). Jesli rodzina P jestlogarytmicznie wypuk la i domkni ↪eta w normie ca lkowitego wahaniaoraz D(µ||ν) < ∞ dla pewnego ν ∈ P, to istnieje jednoznacznie wy-znaczony odwrotny rzut informacyjny µ na P i µ∗ = RIprojPµ wtedyi tylko wtedy, gdy

D(µ||ν) > D(µ||µ∗) +D(µ∗||ν)

dla wszystkich ν ∈ P.

Czytelnika zainteresowanego problematyk ↪a rzutow informacyjnych,wyk ladniczych rodzin rozk ladow i uogolnionych rodzin wyk ladniczychodsy lamy do, wspomnianej juz, obszernej pracy Csiszara i Matusa(2003) oraz monografii Barndorffa-Nielsena (1978).

2.4. Macierz informacji Fishera. Rozwazmy parametryczn ↪arodzin ↪e P = {pϑ : ϑ ∈ Θ, Θ ⊂ Rk otwarty} g ↪estosci rozk ladowna przestrzeni σ-skonczonej (X ,B, λ). Zapytajmy, jak zmienia si ↪eodleg losc entropijna pϑ′ od pϑ, gdy ϑ′ przebiega ma le otoczenie ϑ.Za lozmy, ze P jest dostatecznie regularna, w szczegolnosci pϑ maj ↪a

17

Page 18: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

ci ↪ag le pochodne cz ↪astkowe rz ↪edu 2 wzgl ↪edem ϑ w otoczeniu ϑ (pre-cyzyjne sformu lowanie za lozen pomijamy). Wtedy ze wzoru Tayloramamy

− logpϑpϑ′

= log pϑ′ − log pϑ = (∇ log pϑ)T (ϑ′ − ϑ) (2.15)

+1

2(ϑ′ − ϑ)T

∂2 log pϑ∂ϑ∂ϑT

(ϑ′ − ϑ) + o(||ϑ′ − ϑ||2),

gdzie ∇ψϑ = ∂ψϑ∂ϑ

dla funkcji ψϑ, ϑ ∈ Rk. Poniewaz∫X pϑ∇ log pϑdλ =

log e∫X ∇pϑdλ = 0, to, mnoz ↪ac (2.15) przez pϑ i ca lkuj ↪ac stronami,

dostajemy

D(pϑ||pϑ′) =log e

2(ϑ′ − ϑ)TJ(ϑ)(ϑ′ − ϑ) + o(||ϑ′ − ϑ||2),

gdzie

J(ϑ) = −∫X

∂2 ln pϑ∂ϑ∂ϑT

pϑdλ =

∫X

(∇ ln pϑ)(∇ ln pϑ)Tpϑdλ (2.16)

nazywamy macierz ↪a informacji Fishera. Jak widac odpowiada onaza lokaln ↪a pr ↪edkosc zmian odleg losci entropijnej rozk ladow wzgl ↪edemkwadratu odleg losci euklidesowej parametrow. Analogicznie dowodzisi ↪e relacji

D(pϑ′||pϑ) =log e

2(ϑ′ − ϑ)TJ(ϑ)(ϑ′ − ϑ) + o(||ϑ′ − ϑ||2).

Praw ↪a stron ↪e wzoru (2.16) przyjmujemy za definicj ↪e macierzy infor-macji Fishera J(ϑ) bez wymagania poprawnosci wyprowadzenia roz-wini ↪ecia (2.15) i rownosci w (2.16), a tylko istnienia ca lki. J(ϑ) jestwi ↪ec macierz ↪a kowariancji wektora `ϑ = ∇ ln pϑ, ktory nazywamy wek-torem wynikowym (ang. score vector) i ktory wyst ↪epuje w rozwin ↪eciu(2.15).

Macierz informacji Fishera mozna tez interpretowac nieco inaczej.Jesli ϑ′ jest oszacowaniem nieznanego (prawdziwego) ϑ, to przy tejsamej ma lej odleg losci entropijnej D(pϑ||pϑ′) oszacowanie jest tymdok ladniejsze (w sensie odleg losci euklidesowej) im J(ϑ) wi ↪eksza.

Dla dwoch macierzy symetrycznych A,B relacje A > B i A > Boznaczaj ↪a, zeA−B jest, odpowiednio, dodatnio i nieujemnie okreslona.

Podstawow ↪a w lasnosci ↪a macierzy informacji Fishera jest nierow-nosc Rao-Cramera.

Twierdzenie 2.14 (nierownosc Rao-Cramera). Niech X b ↪edziezmienn ↪a losow ↪a o wartosciach w X i g ↪estosci pϑ ∈ P, gdzie P jest ro-dzin ↪a g ↪estosci o ci ↪ag lych pochodnych cz ↪astkowych wzgl ↪edem ϑ tak ↪a, ze

18

Page 19: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

macierz informacji Fishera okreslona przez praw ↪a stron ↪e wzoru (2.16)istnieje i jest ci ↪ag l ↪a funkcj ↪a ϑ. Niech T (x) ∈ Rk b ↪edzie funkcj ↪a mie-rzaln ↪a na X tak ↪a, ze E T (X) = ϑ oraz Cov T (X) = E(T (X) −ϑ)(T (X)− ϑ)T = Kϑ > 0. Wowczas

J(ϑ) > K−1ϑ

lub w rownowaznej postaci, cz ↪esciej uzywanej w statystyce matema-tycznej, Kϑ > J(ϑ)−1. Rownosc ma miejsce wtedy i tylko wtedy, gdyT = J(ϑ)−1∇ ln pϑ + ϑ.

W literaturze statystycznej (np. Lehmann, Casella, 1998) nierow-nosc Rao-Cramera jest nazywana takze nierownosci ↪a informacyjn ↪a.

Dowod. Z za lozenia E T (X) = ϑ i rozniczkowalnosci rodziny Pmamy∫

X (∇ ln pϑ)T Tpϑdλ =∫X (∇pϑ)T Tdλ = ∇

∫X pϑT

Tdλ = ∇ϑT = I,

gdzie I oznacza macierz jednostkow ↪a. W konsekwencji z (2.16)

0 6 E(∇ ln pϑ(X)−K−1ϑ (T (X)−ϑ))(∇ ln pϑ(X)−K−1

ϑ (T (X)−ϑ))T

= J(ϑ)− 2K−1ϑ +K−1

ϑ E(T (X)− ϑ)(T (X)− ϑ)TK−1ϑ = J(ϑ)−K−1

ϑ

co konczy dowod. 2

W twierdzeniu 2.14 oraz w definicji macierzy informacji Fisheraza lozenia o rozniczkowalnosci punktowej mozna zast ↪apic przez wy-godniejsze za lozenie rozniczkowalnosci sredniokwadratowej (ang. dif-ferentiability in quadratic mean) rodziny P (por. van der Vaart, 1998,str. 93-97).

2.5. Nieparametryczna informacja Fishera. Wazne znacze-nie w teorii informacji ma nieparametryczna macierz informacji Fi-shera. S lowo ‘nieparametryczna’ jest tutaj uzyte dla odroznienia odmacierzy informacji Fishera w rodzinie parametrycznej omowionej wrozdziale 2.4. Niech X b ↪edzie zmienn ↪a losow ↪a w Rk z absolutnie ci ↪ag l ↪ag ↪estosci ↪a p oraz P = {pϑ : pϑ(x) = p(x−ϑ), ϑ ∈ Rk} rodzin ↪a z parame-trem przesuni ↪ecia. Wektor wynikowy `ϑ zdefiniowany w poprzednimrozdziale ma teraz postac `ϑ = −∂ ln p

∂x(· − ϑ). To sugeruje, aby wektor

` = −`0 =∂ ln p

∂x= ∇ ln p (2.17)

takze nazywac wektorem wynikowym (teraz∇ oznacza rozniczkowaniewzgl ↪edem zmiennej x). Z niezmienniczosci miary Lebesgue’a na prze-

19

Page 20: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

suni ↪ecia wynika, ze macierz informacji Fishera J(ϑ) (o ile istnieje) niezalezy od ϑ, tylko od p i z (2.16) otrzymujemy

J = J(p) = J(X) =

∫X``Tp dλ. (2.18)

Ponadto liczb ↪e J(X) = tr J(X) = E||∇ ln p(X)||2 nazywamy infor-macj ↪a Fishera. W przypadku jednowymiarowym macierz informacji

Fishera jest liczb ↪a, J(X) = J(X) =∫R

(p′(x)p(x)

)2

p(x) dx i s lowo macierz

opuszczamy. Bezposrednio z definicji (2.17) wynikaj ↪a nast ↪epuj ↪acew lasnosci macierzy J:

(i) J(X + c) = J(X), J(cX) =1

c2J(X);

(ii) J(AX) = (A−1)TJ(X)A−1 dla dowolnej macierzy nieosobli-wej A;

(iii) jesli K jest macierz ↪a dodatnio okreslon ↪a i ZK jest zmienn ↪alosow ↪a o rozk ladzie normalnym N(0, K) w Rk, to J(ZK) = K−1;

(iv) dla dowolnej zmiennej losowej X w Rk o wartosci oczekiwa-nej 0 i dodatnio okreslonej macierzy kowariancji K mamy J(X) >K−1 oraz J(X) > trK−1, przy czym rownosc zachodzi wtedy i tylkowtedy, gdy X ma rozk lad normalny N(0, K).

W lasnosc (iv) jest szczegolnym przypadkiem nierownosci Rao-Cra-mera. Mozemy z niej wyprowadzic interpretacj ↪e J(X). Zauwazmy, zedla dowolnej nieosobliwej, symetrycznej macierzy K stopnia k mamytrK−1 > k/t, gdzie t jest najwi ↪eksz ↪a wartosci ↪a w lasn ↪a macierzy K irownosc zachodzi wtedy i tylko wtedy, gdy K = t I. Zatem dostajemynierownosc J(X) > k/t i rownosc zachodzi wtedy i tylko wtedy, gdy Xma rozk lad normalny N(0, t I). Oznacza to, ze wyrazenie k/J(X) jestwariancj ↪a k-wymiarowego szumu bia lego o zadanej informacji FisheraJ(X).

Przez analogi ↪e do okreslenia odleg losci Kullbacka-Leiblera moznawprowadzic poj ↪ecie odleg losci Fishera (ang. Fisher information di-stance).

Definicja 2.6. Niech X, Y b ↪ed ↪a zmiennymi losowymi w Rk orozk ladach µ, ν, µ ≺≺ ν, i absolutnie ci ↪ag lych g ↪estosciach p, q. Wow-czas

J(X||Y ) = J(µ||ν) = J(p||q) =

∫Rk

(∇ ln

p

q

)(∇ ln

p

q

)Tp dλ,

20

Page 21: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

nazywamy odleg losci ↪a Fishera µ od ν, o ile ca lka jest skonczona.

Oczywiscie, J(µ||ν) > 0 i rowna zeru wtedy i tylko wtedy, gdyµ = ν. Podobnie jak dla odleg losci entropijnej, J(µ||ν) nie jest sy-metryczna i na ogo l J(µ||ν) 6= J(ν||µ). W przypadku k = 1 i nie-skonczonej ca lki przyjmujemy, ze J(X||Y ) = +∞. Dla przyk ladu,jesli βpq oznacza g ↪estosc rozk ladu beta na odcinku (0, 1) z parametramip, q, to bezposredni rachunek daje J(β21||β31) = +∞, J(β31||β21) = 3,J(β31||β51) = 12, a J(β51||β31) = 20/3.

Z nierownosci Rao-Cramera (iv) wynika, ze rozk lad normalny maminimaln ↪a macierz informacji Fishera w klasie rozk ladow o tej sa-mej macierzy kowariancji. Dlatego odleg losc Fishera od rozk ladu nor-malnego odgrywa wazn ↪a rol ↪e. Powtarzaj ↪ac dowod nierownosci Rao-Cramera, otrzymujemy nast ↪epuj ↪ace twierdzenie.

Twierdzenie 2.15. Jesli K jest macierz ↪a nieosobliw ↪a i ZK marozk lad N(0, K) w Rk, to dla dowolnej zmiennej losowej X w Rk osredniej 0, macierzy kowariancji K i absolutnie ci ↪ag lej g ↪estosci mamy

J(X||ZK) = J(X)−K−1 = J(X)− J(ZK). (2.19)

Przypomnijmy, ze z (2.11)

D(X||ZK) =

∫Rkp(x) log p(x) dx+

1

2log[(2π)k detK]

+log e

2

∫RkxTK−1x p(x)dx = H(ZK)−H(X) (2.20)

co jest widocznym odpowiednikiem (2.19).W dalszym ci ↪agu przez ϕt b ↪edziemy oznaczac g ↪estosc rozk ladu nor-

malnego o sredniej 0 i wariancji t. Zwi ↪azek odleg losci Fishera z innymiodleg losciami rozk ladow podajemy w kolejnym twierdzeniu.

Twierdzenie 2.16. Jesli X jest rzeczywist ↪a zmienn ↪a losow ↪a(k=1) o sredniej 0, wariancji 1 i absolutnie ci ↪ag lej g ↪estosci p, to

(i) D(p||ϕ1) 6log e

2J(p||ϕ1);

(ii) supx∈R|p(x)− ϕ1(x)| 6

(1 +

√6

π

)√J(p||ϕ1).

Dowod (i) podamy w rozdziale 2.6. Nierownosc (ii) udowodni l Shi-mizu (1975). Obie nierownosci pokazuj ↪a, ze odleg losc Fishera, o ile

21

Page 22: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

jest skonczona, majoryzuje inne odleg losci rozk ladow, l ↪acznie z od-leg losci ↪a Kullbacka-Leiblera.

2.6. Tozsamosc de Bruijna. Maksymalizacja entropii i mini-malizacja informacji Fishera przez rozk lad normalny l ↪acznie z (2.19)i (2.20) sugeruj ↪a, ze istnieje zwi ↪azek pomi ↪edzy odleg losci ↪a Fishera iodleg losci ↪a entropijn ↪a. Mowi o tym kolejne twierdzenie.

Twierdzenie 2.17 (tozsamosc de Bruijna). Niech X b ↪edzie rze-czywist ↪a zmienn ↪a losow ↪a o sredniej 0, wariancji 1 i g ↪estosci p i niechZ b ↪edzie zmienn ↪a losow ↪a niezalezn ↪a od X o rozk ladzie standardowymnormalnym. Wowczas dla kazdego t > 0

d

dtH(X +

√tZ) =

log e

2J(X +

√tZ). (2.21)

Ponadto

D(p||ϕ1) =log e

2

∫ ∞0

[J(X +

√tZ)− 1

1 + t

]dt. (2.22)

Dowod postaci rozniczkowej (2.21) tozsamosci de Bruijna poda lStam (1959). Opiera si ↪e on na fakcie, ze ϕt spe lnia rownanie przewod-nictwa cieplnego, z czego wynika, ze g ↪estosc X +

√tZ takze spe lnia

to rownanie. Dalsze rozumowanie sprowadza si ↪e do rozniczkowaniapod znakiem ca lki okreslaj ↪acej H(X+

√tZ) i ca lkowaniu przez cz ↪esci.

Szczego ly pomijamy. Postac ca lkowa (2.22) zosta la udowodniona przezBarrona (1986). Zauwazmy, ze funkcja podca lkowa w (2.22) jest od-leg losci ↪a Fishera J(X +

√tZ)||

√1 + tZ).

Szkic dowodu (2.22). Oznaczmy przez gt g ↪estosc zmiennej lo-sowej X +

√tZ. Poniewaz rozk lad normalny maksymalizuje entropi ↪e,

a entropia sumy niezaleznych sk ladnikow jest nie mniejsza od entro-pii sk ladnikow (por. (2.9)), to z (2.10) mamy 1

2log 2πet = H(ϕt) 6

H(gt) 6 H(ϕ1+t) = 12

log 2πe(t+ 1), sk ↪ad dostajemy

limt→∞[H(gt)− 12

log 2πe(1 + t)] −→ 0.

W konsekwencji z (2.21) dla 0 < a < b

log e2

∫ ba(J(gt)− 1

1+t)dt = H(gb)− log(1+b)

2−H(ga) + log(1+a)

2

= H(gb)− log(2πe(1+b))2

+D(ga||ϕ1+a). (2.23)

Przechodz ↪ac w (2.23) z b do nieskonczonosci dostajemy

D(ga||ϕ1+a) = log e2

∫∞a

(J(gt)− 1

1+t

)dt

22

Page 23: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

dla kazdego a > 0. Bior ↪ac granic ↪e z obu stron wzgl ↪edem a → 0+

(mozliwosc przejscia do granicy pod znakiem ca lki wymaga jeszczenietrywialnego uzasadnienia) dostajemy (2.22). 2

W celu podania jeszcze jednej interpretacji informacji Fishera przyj-mijmy, ze X jest sygna lem, a

√tZ niezaleznym od niego szumem

gaussowskim o wariancji t, ktor ↪a interpretujemy jako moc (lub po-ziom) szumu

√tZ. Z niezaleznosci X i Z wynika, ze ilosc informacji

wzajemnej X +√tZ i Z ma postac (por. (2.5))

I(X +√tZ, Z) = H(X +

√tZ) +H(Z)−H(X +

√tZ, Z)

= H(X +√tZ) +H(Z)−H(X)−H(Z) = H(X +

√tZ)−H(X).

Zatem z (2.21) otrzymujemy

d

dtI(X +

√tZ, Z) =

log e

2J(X +

√tZ) (2.24)

dla wszystkich t > 0. Riuol (2011) pokaza l, ze rownosc (2.24) jestprawdziwa dla t = 0 i w konsekwencji mamy

I(X +√tZ, Z) =

log e

2J(X)t+ o(t)

gdy t → 0+. Ostatnia rownosc oznacza, ze dla ma lego poziomuszumu ilosc informacji wzajemnej sygna lu zak loconego addytywnymszumem gaussowskim i szumu zalezy liniowo od mocy szumu t, a J(X)jest wspo lczynnikiem proporcjonalnosci. Tak wi ↪ec informacj ↪e FisheraJ(X) mozna interpretowac jako czu losc sygna lu X na zak locenie szu-mem gaussowskim. Najmniejsza czu losc jest dla sygna lu gaussow-skiego, co jest oczywiste.

Tozsamosci (2.21) i (2.22) mozna przeniesc na przypadek wielowy-miarowy. Przytoczymy t ↪e drug ↪a w postaci udowodnionej przez John-sona i Suchowa (2001).

Twierdzenie 2.18 (wielowymiarowa tozsamosc de Bruijna).Niech X,ZK b ↪ed ↪a niezaleznymi zmiennymi losowymi w Rk o srednich0, macierzach kowariancji odpowiednio, B i K, K > 0, przy czym ZKma rozk lad normalny N(0, K). Jesli p jest g ↪estosci ↪a X, to

D(p||ϕK) =log e

2

∫ ∞0

[tr (K J(X +

√tZK))− k

1 + t

]dt

+log e

2[tr (K−1B)− k].

Gdy B = K, drugi cz lon po prawej stronie znika.

23

Page 24: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Tozsamosc de Bruijna ma liczne, wazne zastosowania oraz s luzyjako narz ↪edzie w rozwazaniach teoretycznych. Na przyk lad, dowodcentralnego twierdzenia granicznego w wersji entropijnej, podany przezBarrona (1986), wykorzystuje t ↪e tozsamosc. Omowimy go w rozdziale3.4.

2.7. Nierownosci dla informacji Fishera. Sumowanie nie-zaleznych zmiennych losowych ma fundamentalne znaczenie w rachun-ku prawdopodobienstwa i statystyce matematycznej. Dlatego waznejest ustalenie zwi ↪azkow entropii sumy niezaleznych zmiennych loso-wych z entropi ↪a sk ladnikow i uzyskanie podobnych zwi ↪azkow dla in-formacji Fishera. W tym rozdziale przyjrzymy si ↪e temu drugiemu za-gadnieniu, ktore prowadzi do nierownosci dla informacji Fishera (ang.Fisher information inequalities). Rozpoczniemy od pomocniczego le-matu Barrona i Johnsona (2004).

Lemat 2.2. Jesli X, Y s ↪a niezaleznymi, rzeczywistymi (k = 1)zmiennymi losowymi o g ↪estosciach p, q, skonczonych informacjach Fi-shera i funkcjach wynikowych (por. (2.17)) `X = p′/p, `Y = q′/q, todla kazdego α ∈ [0, 1]

E(`X+Y (X + Y )− α`X(X)− (1− α)`Y (Y ))2

= α2J(X) + (1− α)2J(Y )− J(X + Y ).

Szkic dowodu. Najpierw nalezy pokazac, ze

`X+Y (u) = E(`X(X)|X + Y = u) = E(`Y (Y )|X + Y = u) p.w.,

co nie jest ca lkiem oczywiste. Nast ↪epnie mnoz ↪ac odpowiednio przez αi 1− α i dodaj ↪ac stronami, dostajemy

`X+Y (X + Y ) = E([α`X(X) + (1− α)`Y (Y )]|X + Y )

prawie na pewno. Poniewaz warunkowa wartosc oczekiwana jest rzu-tem ortogonalnym, to

E (α`X(X) + (1− α)`Y (Y ))2 = E(`X+Y (X + Y ))2

+E(`X+Y (X + Y )− α`X(X)− (1− α)`Y (Y ))2,

co daje praw ↪a stron ↪e dzi ↪eki niezaleznosci X, Y i w lasnosci E`X(X) =∫R `Xp dλ = 0 funkcji wynikowej. 2

Bezposrednim wnioskiem z lematu 2.2 jest nierownosc dla infor-macji Fishera.

24

Page 25: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Twierdzenie 2.19. Przy za lozeniach lematu 2.2 dla kazdegoα ∈ [0, 1]

J(X + Y ) 6 α2J(X) + (1− α)2J(Y ). (2.25)

Rownosc ma miejsce wtedy i tylko wtedy, gdy X, Y maj ↪a taki samrozk lad normalny.

Indukcja matematyczna pozwala przeniesc nierownosc (2.25) nadowoln ↪a liczb ↪e sk ladnikow:

J(X1 + ...+Xn) 6 α21J(X1) + ...+ α2

nJ(Xn), (2.26)

gdzieX1, ..., Xn s ↪a niezalezne oraz αi ∈ [0, 1],∑n

i=1 αi = 1. Nierownosc(2.26) udowodnili Stam (1959) oraz Blachman (1965), nie korzystaj ↪acz lematu 2.2. Nierownosc (2.26) mozna zapisac w kilku rownowaznychpostaciach:

(i) J(√α1X1 + ...+

√αnXn) 6 α1J(X1) + ...+ αnJ(Xn); (2.27)

(ii)1

J(X1 + ...+Xn)>

1

J(X1)+ ...+

1

J(Xn); (2.28)

(iii)1

J(α1X1 + ...+ αnXn)>

α21

J(X1)+ ...+

α2n

J(Xn).

Rownowaznosc (2.26) i (2.27) oraz (ii) i (iii) otrzymuje si ↪e przez pod-stawienieXi =

√αiX

′i oraz skorzystanie z w lasnosci J(cX) = J(X)/c2.

Rownowaznosc (2.26) z (ii) wystarczy udowodnic dla n = 2 i nast ↪epniezastosowac indukcj ↪e matematyczn ↪a. W tym celu podstawiamy w(2.26) α1 = J(X2)/(J(X1) + J(X2)) i α2 = J(X1)/(J(X1) + J(X2)) idostajemy (ii). Natomiast dowod w przeciwn ↪a stron ↪e wynika z elemen-tarnej nierownosci arytmetycznej uv

u+v6 α2u + (1 − α)2v prawdziwej

dla dowolnych dodatnich u, v oraz α ∈ [0, 1].Nierownosci dla informacji Fishera maj ↪a wazne zastosowania w

teorii informacji i by ly intensywnie badane w ostatnich latach m.in.przez Barrona i Johnsona (2004), Barrona i Madimana (2007) czyRioula (2011). W szczegolnosci wi ↪az ↪a si ↪e z problematyk ↪a central-nego twierdzenia granicznego w wersji entropijnej. Podstawiaj ↪ac wnierownosci (2.27) α1 = ... = αn = 1/

√n oraz rozwazaj ↪ac zmienne o

tym samym rozk ladzie, dostajemy prost ↪a nierownosc

J

(X1 + ...+Xn√

n

)6 J(X1),

ktora oznacza, ze sumowanie niezaleznych sk ladnikow prowadzi dozmniejszania si ↪e informacji Fishera.

25

Page 26: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Jako przyk lad zastosowania nierownosci dla informacji Fishera po-dajemy dowod nierownosci (i) z twierdzenia 2.16.

Dowod (i) z twierdzenia 2.16. Z ca lkowej tozsamosci de Bru-ijna, (2.27) i faktu, ze J(Z) = 1 mamy

2log e

D(p||ϕ1) =∫∞

0(J(X +

√tZ)− 1

1+t)dt

=∫∞

01

1+t

[J(√

11+tX +

√t

1+tZ)− 1

]dt

6∫∞

01

1+t

[1

1+tJ(X) + t

1+t− 1]dt

=∫∞

01

(1+t)2dt (J(X)− 1) = J(p||ϕ1)

co konczy dowod. 2

2.8. Nierownosci dla mocy entropijnej. W tym rozdzialeprzyjrzymy si ↪e nierownosciom dla entropii sum niezaleznych zmien-nych losowych zwanym nierownosciami dla mocy entropijnej (ang.entropy power inequalities).

Ze wzoru (2.11) otrzymujemy entropi ↪e bia lego szumu gaussow-skiego Zt = (Zt1, ..., Ztk) w Rk o wariancji (mocy) t jako

H(Zt) =k

2log 2πet.

St ↪ad dostajemy t = 12πe

22H(Zt)/k = N(Zt) czyli wyrazenie okreslaj ↪acewariancj ↪e (moc) bia lego szumu gaussowskiego w Rk o danej entropiiH(Zt). Rownosc powyzsz ↪a przyjmujemy jako definicj ↪e w przypadkuogolnym.

Definicja 2.7. Moc ↪a entropijn ↪a zmiennej losowej X w Rk o ma-cierzy kowariancji K nazywamy liczb ↪e

N(X) =1

2πe22H(X)/k.

Poniewaz H(X) 6 H(ZK) = k2

log 2πe+ 12

log detK, to

N(X) 6 (detK)1/k 6 κ,

gdzie κ jest najwi ↪eksz ↪a wartosci ↪a w lasn ↪a K. Rownosc zachodzi wtedyi tylko wtedy, gdy X jest bia lym szumem o wariancji (mocy) t = κ.

Nierownosc dla mocy entropijnej sformu lowa l Shannon (1948) wnast ↪epuj ↪acej wersji.

26

Page 27: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Twierdzenie 2.20 (Shannon, 1948). Jesli X, Y s ↪a niezaleznymizmiennymi losowymi w Rk o rozk ladach absolutnie ci ↪ag lych, to

22H(X+Y )/k > 22H(X)/k + 22H(Y )/k

to znaczy

N(X + Y ) > N(X) +N(Y ),

przy czym rownosc ma miejsce wtedy i tylko wtedy, gdy X ma rozk ladnormalny N(0, K), a Y rozk lad normalny N(0, cK) dla pewnego c > 0.

Przez indukcj ↪e dostajemy

N(X1 + ...+Xn) > N(X1) + ...+N(Xn) (2.29)

i rownosc zachodzi tylko dla zmiennych normalnych o proporcjonal-nych macierzach kowariancji. Dowod (2.29) podali Stam (1959) iBlachman (1965) we wspomnianych juz pracach. Nierownosc (2.29)nie jest prawdziwa dla zmiennych losowych dyskretnych. Z w lasnoscientropii wynika, ze dla dowolnego c > 0 jest N(cX) = c2N(X). Ko-rzystaj ↪ac z tej w lasnosci i podstawiaj ↪ac w (2.29) Xi =

√αiX

′i, gdzie

αi > 0,∑n

i=1 αi = 1, otrzymujemy natychmiast nierownosc

N(√α1X1 + ...+

√αnXn) > α1N(X1) + ...+ αnN(Xn),

ktora jest odpowiednikiem (2.27) dla mocy entropijnej, a st ↪ad i zwkl ↪es losci logarytmu

H(√α1X1 + ...+

√αnXn) > α1H(X1) + ...+ αnH(Xn),

przy czym rownosc w obu ostatnich nierownosciach zachodzi tylko dlazmiennych losowych normalnych o proporcjonalnych macierzach kowa-riancji. Mozna wykazac, ze dwie ostatnie nierownosci s ↪a rownowazne.Ponadto s ↪a one prawdziwe takze dla zmiennych dyskretnych.

Nierownosci dla mocy entropijnej i dla samej entropii oraz ichuogolnienia by ly badane w wielu pracach, ostatnio m.in. przez Bar-rona i Madimana (2007) czy Rioula (2011). W szczegolnosci Barroni Madiman (2007) pokazali, ze dla zmiennych niezaleznych o jednako-wym rozk ladzie ci ↪ag entropii

H(X1 + ...+Xn)√n

jest niemalej ↪acy, co oznacza, ze sumowanie niezaleznych sk ladnikowprowadzi do wzrostu entropii, odwrotnie niz dla informacji Fishera.

2.9. Przetwarzanie danych. Na koniec krotko wspomnimy obardzo waznym, np. w informatyce czy telekomunikacji, zagadnieniu

27

Page 28: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

przetwarzania danych i kompresji danych. Czynimy to dlatego, zema ono takze odniesienia do statystyki matematycznej i b ↪edziemy zpodanych ponizej wynikow korzystac w rozdzia lach 3.1 i 4.3.

Najpierw rozszerzymy poj ↪ecie entropii, zdefiniowane w rozdzia lach2.1 i 2.2, na przypadek niektorych rozk ladow osobliwych. Niech Xb ↪edzie zmienn ↪a losow ↪a o wartosciach w dowolnej przestrzeni (X ,B, λ),a T odwzorowaniem mierzalnym na X . Wowczas przyjmujemyH(X,T (X)) = H(X) i w konsekwencji H(T (X)|X) = 0. Podob-nie przyjmujemy H(X, Y, T (X)) = H(X, Y ).

Definicja 2.8 (warunkowa ilosc informacji). Wyrazenie

I(Z,X|Y ) = H(Z|Y )−H(Z|X, Y )

nazywamy warunkow ↪a ilosci ↪a informacji wzajemnej X,Z przy wa-runku Y , gdzie X, Y, Z s ↪a dowolnymi zmiennymi losowymi, dla ktorychprawa strona jest zdefiniowana.

Bezposrednie sprawdzenie daje I(Z,X|Y ) = H(Z|Y ) +H(X|Y )−H(Z,X|Y ). Analogiczne rozumowanie jak w dowodzie w lasnosci (A1)z rozdzia lu 2.1 pokazuje, ze I(Z,X|Y ) > 0. Gdy p jest g ↪estosci ↪a laczn ↪aX, Y, Z, to rownosc ma miejsce wtedy i tylko wtedy, gdyp(z, x|y) = p(z|y)p(x|y) p.w. tzn. gdy X,Z s ↪a warunkowo niezalezneprzy warunku Y . Ponadto mamy nast ↪epuj ↪ac ↪a w lasnosc.

Twierdzenie 2.21 (regu la lancuchowa). Dla dowolnych X, Y, Z,jak w definicji 2.8, mamy

I((Y, Z), X) = I(Z,X) + I(Y,X|Z). (2.30)

Mowimy, ze zmienne losowe X, Y, Z tworz ↪a lancuch Markowa, jesli

I(Z,X|Y ) = 0. (2.31)

Fakt ten notujemy w postaci X → Y → Z. Oczywiscie X →Y → Z wtedy i tylko wtedy, gdy Z → Y → X. Ponadto, jesliX, Y, Z maj ↪a g ↪estosc l ↪aczn ↪a p, to definicja (2.31) oznacza, ze przy da-nej ‘terazniejszosci’ Y , ‘przesz losc’ X nie zalezy od ‘przysz losci’ Z. Zdrugiej strony, jesli Z = T (Y ), to dla dowolnej zmiennej X mamyX → Y → Z.

Lemat 2.3. Jesli X → Y → Z, to I(X, Y |Z) = I(X, Y ) −I(X,Z). W konsekwencji I(X, Y |Z) 6 I(X, Y ).

28

Page 29: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Dowod. Z (2.30) i za lozenia (2.31) mamy

I(X, Y |Z) = I((Y, Z), X)− I(X,Z)

= I(Z,X|Y ) + I(X, Y )− I(X,Z) = I(X, Y )− I(X,Z)

co konczy dowod. 2

Zauwazmy, ze nierownosc z lematu 2.3 nie musi zachodzic, gdyzmienne nie tworz ↪a lancucha Markowa (por. przyk lad w monografiiCovera i Thomasa, 2006, str. 35). Bezposrednim wnioskiem z lematu2.3 jest nast ↪epuj ↪aca wazna i pozyteczna nierownosc.

Twierdzenie 2.22 (nierownosc dla danych przetworzonych). JesliX → Y → Z, to

I(X,Z) 6 I(X, Y ). (2.32)

Rownosc ma miejsce wtedy i tylko wtedy, gdy I(X, Y |Z) = 0.

Nierownosc (2.32) oznacza, ze dane przetworzone Z nie zawieraj ↪awi ↪ecej informacji o X niz dane wyjsciowe Y . W literaturze angielskiejnierownosc (2.32) nazywana jest ‘data processing inequality’.

3. Twierdzenia graniczne

Druga zasada termodynamiki mowi, ze uk lad odizolowany od oto-czenia ewoluuje w kierunku stanow o wi ↪ekszej entropii i w nieskonczo-nym horyzoncie czasowym osi ↪aga stan o maksymalnej entropii. Ma-tematycznym odpowiednikiem tego prawa s ↪a twierdzenia mowi ↪ace ozbieznosci entropii. W tym rozdziale przedstawimy kilka najwazniej-szych twierdzen tego typu oraz twierdzenia graniczne, ktore maj ↪a od-niesienia do poj ↪ec teorii informacji.

3.1. Asymptotyczna zasada ekwipartycji. Podstawow ↪a w las-nosci ↪a sredniej z proby jest jej zbieznosc do wartosci oczekiwanej po-jedynczej obserwacji. Stanowi ona tresc prawa wielkich liczb, ktoremozna formu lowac w roznych wersjach. Asymptotyczna zasada ekwi-partycji (ang. asymptotic equipartition property) s ↪a uogolnieniamipraw wielkich liczb, ale wypowiedzianymi w szczegolnej sytuacji zwi ↪a-zanej z ewolucj ↪a procesu stochastycznego i jego entropii. Ograniczymysi ↪e do standardowej wersji tego twierdzenia, udowodnionej przez Bar-rona (1985) i niezaleznie Oreya (1985) (por. takze Cover i Thomas,2006, str. 644). Dla prostoty podamy wynik Barrona w szczegolnym

29

Page 30: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

przypadku.Rozwazmy stacjonarny i ergodyczny ci ↪ag X1, X2, ... wektorow lo-

sowych w Rk lub dyskretnych zmiennych losowych o wartosciach wustalonym zbiorze przeliczalnym X , o g ↪estosciach skonczenie wymia-rowych p(x1, ..., xn) (wzgl ↪edem miary Lebesgue’a lub miary licz ↪acej).Wowczas przyrost entropii w n+ 1-szym kroku wynosi

Dn = E log p(Xn+1|X1, ..., Xn) = −H(Xn+1|X1, ..., Xn).

Za lozmy, ze dla pewnego n0 > 1 jest Dn0 > −∞. Wowczas ci ↪agDn, n > n0, jest niemalej ↪acy. Istotnie, ze stacjonarnosci i definicji 2.8mamy

Dn+1 −Dn = −H(Xn+2|X1, ..., Xn+1) +H(Xn+1|X1, ..., Xn)

= −H(Xn+2|X1, ..., Xn+1) +H(Xn+2|X2, ..., Xn+1)

= I(Xn+2, X1|X2, ..., Xn+1) > 0.

Zatem istnieje granica D = limn→∞Dn zwana tempem wzrostu entro-pii (ang. relative entropy rate lub entropy rate).

Twierdzenie 3.1 (Barron, 1985, Orey, 1985) Przy powyzszychza lozeniach

1

nlog p(X1, ..., Xn) −→ D (3.1)

prawie na pewno (p.n.) i w L1.

Twierdzenie powyzsze jest uogolnieniem s lynnego twierdzenia Shan-nona-McMillana-Breimana dla procesow dyskretnych na skonczonymalfabecie. Shannon (1948) rozwaza l ci ↪ag niezaleznych zmiennych ojednakowym rozk ladzie. McMillan (1953) udowodni l zbieznosc w L1, aBreiman (1957) zbieznosc prawie na pewno dla ci ↪agow ergodycznych.Znacznie ogolniejsze, niz podana przez nas, wersje tego twierdzeniamozna znalezc w monografii Graya (1990). Zauwazmy, ze lew ↪a stron ↪e(3.1) mozemy napisac w postaci sredniej

1

n

n∑i=2

log p(Xi|X1, ..., Xi−1) +1

nlog p(X1),

ktora w przypadku jednorodnego lancucha Markowa jest sredni ↪a (naogo l zaleznych) zmiennych o jednakowym rozk ladzie i D = Dn =−H(X2|X1), o ile H(X2|X1) < ∞. W przypadku ci ↪agu niezaleznychzmiennych o jednakowym rozk ladzie, g ↪estosci p i H(X1) < ∞, otrzy-mujemy mocne prawo wielkich liczb w postaci

30

Page 31: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

1

n

n∑i=1

log p(Xi) −→ −H(X1) = E log p(X1) p.n.

W tym przypadku przyrosty entropii w kazdym kroku s ↪a takie samei wynosz ↪a −H(X1) czyli tempo wzrostu entropii takze jest rowne−H(X1).

Asymptotyczna zasada ekwipartycji ma prost ↪a interpretacj ↪e. Ci ↪ag(x1, ..., xn) nazywamy typowym, jesli

p(x1, ..., xn) ∈(enD−nε, enD+nε

)dla kazdego ε > 0. Definicja oznacza wi ↪ec, ze dla ci ↪agow typowychg ↪estosc p(x1, ..., xn) jest asymptotycznie sta la. Natomiast twierdzeniemowi, ze prawie na pewno dla dostatecznie duzych n ci ↪ag (X1, ..., Xn)jest typowy. To spostrzezenie wykorzystuje si ↪e do kompresji danych(por. Cover i Thomas, 2006, str. 78).

3.2. Rozk lad empiryczny i zasada wielkich odchylen. NiechX = {x1, ..., xr} zbiorem skonczonym, a X = (X1, ..., Xn) b ↪edzieprob ↪a prost ↪a z rozk ladu µ na X zadanego przez wektor prawdopo-dobienstw p = (p1, ..., pr), gdzie pi = P (X1 = xi), i = 1, ..., r.Oznaczmy przez µn rozk lad empiryczny proby X, a przez Υn zbiorwszystkich mozliwych rozk ladow empirycznych proby n-elementowej.Zatem ν ∈ Υn, gdy nν({xi}) jest liczb ↪a ca lkowit ↪a. Oczywiscie, mamyP (µn ∈ Υn) = 1.

Lemat 3.1. Dla dowolnego n i dowolnego zbioru Γn rozk ladow naX prawdziwe s ↪a oszacowania

P (µn ∈ Γn) > c1(r)n−r/2 2−nM , (3.2)

P (µn ∈ Γn) 6 c2(r)(n+ r)r−1 2−nM , (3.3)

gdzie M = min{D(ν||µ) : ν ∈ Γn ∩Υn}.

Dowod. Niech ν ∈ Υn b ↪edzie dowolnym rozk ladem empirycznymz wektorem prawdopodobienstw q = (q1, ..., qr). Wtedy

P (µn = ν) = Nν

∏ri=1 p

nqii = Nν2

∑nqi log pi

= Nν2∑nqi log qi−

∑nqi log(qi/pi) = Nν2

−nH(ν)−nD(ν||µ),

gdzie Nν jest liczb ↪a realizacji proby X, daj ↪acych ten sam rozk lad em-piryczny ν. Zatem Nν = n!/((nq1)!...(nqr)!). Ze wzoru Stirlinga poprostych przekszta lceniach otrzymujemy

c1(r)n−r/22nH(ν) 6 Nν 6 c2(r)2nH(ν).

31

Page 32: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Wstawiaj ↪ac oszacowanie do poprzedniego wyrazenia, dostajemy

c1(r)n−r/22−nD(ν||µ) 6 P (µn = ν) 6 c2(r)2−nD(ν||µ)

dla dowolnego ν ∈ Υn. Zatem

P (µn ∈ Γn) = P (µn ∈ Γn ∩Υn) > c1(r)n−r/2 2−nM ,

co daje (3.2). Z drugiej strony

P (µn ∈ Γn) 6 c2(r)(Γn ∩Υn) 2−nM ,

gdzie A oznacza moc zbioru skonczonego A. Poniewaz Γn ∩Υn 6

Υn =

(n+ r − 1r − 1

)< (n+ r)r−1, to (3.3) zachodzi. 2

Bezposrednim wnioskiem z lematu 3.1 jest nast ↪epuj ↪ace twierdzenieo zbieznosci entropijnej rozk ladow empirycznych do rozk ladu µ.

Twierdzenie 3.2. Przy powyzszych oznaczeniach i za lozeniachn

(log n)(log log n)D(µn||µ)→ 0 p.n.

W szczegolnosci D(µn||µ)→ 0 p.n.

Dowod. Dla dowolnego ε > 0 po lozmy w lemacie 3.1 Γn = Γ ={ν : D(ν||µ) > ε}. Wtedy z (3.3) dostajemy

P (D(µn||µ) > ε) 6 c2(r)(n+ r)r−12−nε.

St ↪ad∑∞n=1 P

(n

(logn)(log logn)D(µn||µ) > ε

)6∑∞

n=1 c2(r) (n+r)r−1

nε log logn <∞.

Z dowolnosci ε i z lematu Borela-Cantellego wynika teza. 2

Kolejnym wnioskiem z lematu 3.1 jest twierdzenie Sanowa dlarozk ladow na zbiorze skonczonym.

Twierdzenie 3.3 (twierdzenie Sanowa dla zrode l o skonczonymalfabecie). Jesli Γ jest zbiorem rozk ladow na X o niepustym wn ↪etrzui Γ ⊂ cl(int Γ), to

1

nlogP (µn ∈ Γ) −→ − inf

ν∈ΓD(ν||µ). (3.4)

Dowod. Logarytmuj ↪ac obustronnie (3.2) i (3.3), dostajemy

1n

logP (µn ∈ Γ) > −minν∈Γ∩Υn D(ν||µ) + log c1(r)−(r/2) lognn

oraz

32

Page 33: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

1n

logP (µn ∈ Γ) 6 −minν∈Γ∩Υn D(ν||µ) + log c2(r)+(r−1) lognn

.

St ↪ad natychmiast wynika (3.4). 2

Twierdzenie Sanowa (1957) jest prawdziwe w znacznie ogolniejszej sy-tuacji. Przytoczymy tutaj standardow ↪a wersj ↪e tego twierdzenia.

Twierdzenie 3.4. Niech X1, X2, ... b ↪edzie ci ↪agiem niezaleznychzmiennych losowych o jednakowym rozk ladzie µ na przestrzeni pol-skiej X i niech µn b ↪edzie rozk ladem empirycznym proby prostej X =(X1, ..., Xn). Wowczas dla dowolnego zbioru Γ rozk ladow na X mamy

lim infn

1

nlogP (µn ∈ Γ) > − inf

ν∈int ΓD(ν||µ),

lim supn

1

nlogP (µn ∈ Γ) 6 − inf

ν∈cl ΓD(ν||µ),

gdzie wn ↪etrze i domkni ↪ecie Γ jest w topologii s labej zbieznosci miar.

Twierdzenie Sanowa jest szczegolnym przypadkiem zasady wiel-kich odchylen (ang. large deviation principle) zastosowanej do rozk la-dow empirycznych. Wynika z twierdzenia Cramera o wielkich od-chyleniach, gdyz rozk lad empiryczny jest sredni ↪a niezaleznych loso-wych miar punktowych o jednakowym rozk ladzie µn = 1

n

∑ni=1 δXi .

Przy dosc s labych za lozeniach twierdzenie Cramera orzeka, ze dlaci ↪agu X1, X2, ... niezaleznych zmiennych losowych o jednakowym roz-k ladzie, o wartosciach w lokalnie wypuk lej przestrzeni liniowo-topolo-gicznej Y i maj ↪acych skonczon ↪a funkcj ↪e tworz ↪ac ↪a momenty, zachodz ↪arelacje

lim infn

1

nlnP

(X1 + ...+Xn

n∈ A

)> − inf

y∈intAΛ∗(y),

lim supn

1

nlnP

(X1 + ...+Xn

n∈ A

)6 − inf

y∈clAΛ∗(y)

dla dowolnego zbioru borelowskiegoA ⊂ Y , gdzie Λ∗(y) = supy∗(y∗(y)−

Λ(y∗)) jest transformat ↪a Legendre’a-Fenchela logarytmu funkcji two-rz ↪acej momenty Λ(y∗) = ln

∫ey∗dµ, a y∗ jest funkcjona lem liniowym

ci ↪ag lym na Y . Funkcja Λ∗ nazywa si ↪e funkcj ↪a tempa wielkich odchylen(ang. rate function). Precyzyjne sformu lowanie twierdzenia Crameramozna znalezc np. w artykule Dembo i Zeitouni (2002), str. 399. Myograniczymy si ↪e tutaj do identyfikacji funkcji Λ∗ w warunkach twier-dzenia 3.4. Wtedy Y jest przestrzeni ↪a miar skonczonych znakowanychna X z topologi ↪a s labej zbieznosci, a Λ(f) = logE 2f(X1), gdzie f

33

Page 34: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

jest funkcj ↪a ci ↪ag l ↪a ograniczon ↪a na X . Jesli µ ma g ↪estosc p, to dladowolnego rozk ladu ν o g ↪estosci q z nierownosci Jensena wynika∫

fdν − Λ(f) =∫f q dλ− log

∫2f p

qqdλ

6∫f q dλ−

∫(f − log q

p)q dλ = D(ν||µ)

co dowodzi nierownosci Λ∗(ν) 6 D(ν||µ). Z drugiej strony wartoscD(ν||µ) jest osi ↪agana na ci ↪agu funkcji ci ↪ag lych i ograniczonych, zbiez-nym do funkcji log q

p. To pokazuje, ze istotnie D(ν||µ) jest funkcj ↪a

tempa wielkich odchylen w przypadku miar empirycznych.

3.3. Lancuchy Markowa. W tym rozdziale przedstawimy kla-syczne twierdzenie Renyiego (1961) o zbieznosci entropijnej rozk ladow lancucha Markowa do rozk ladu ergodycznego. Niech wi ↪ec P b ↪edziemacierz ↪a przejscia jednorodnego lancucha Markowa o skonczonymzbiorze stanow X = {x1, ..., xr}, p rozk ladem pocz ↪atkowym lancucha,a p∗ rozk ladem stacjonarnym tzn. spe lniaj ↪acym rownanie p∗P = p∗,gdzie p i p∗ oznaczaj ↪a macierze wierszowe, a p∗P jest iloczynem ma-cierzy.

Twierdzenie 3.6 (Renyi, 1961). Przy powyzszych oznaczeniachi za lozeniach mamy

D(pP n||p∗) −→ 0. (3.5)

Dowod. Podstawowym krokiem dowodu jest wykazanie mono-tonicznosci ci ↪agu odleg losci entropijnych tzn. relacji D(pP ||p∗) 6D(p||p∗), w ktorej rownosc zachodzi wtedy i tylko wtedy, gdy p = p∗.Istotnie, oznaczmy qj =

∑i pipij. Nasladuj ↪ac dowod w lasnosci (A1) i

korzystaj ↪ac ze stacjonarnosci p∗ tzn. relacji∑

i p∗i pij = p∗j dla wszyst-

kich j oraz z relacji∑

j qj = 1, mamy

D(p||p∗)−D(pP ||p∗) =∑

ij pipij log pip∗i−∑

ij pipij logqjp∗j

=∑

ijp∗i pijqjp∗j

pip∗j

p∗i qjlog

pip∗j

p∗i qj> 1

ln 2

∑ijp∗i pijqjp∗j

(pip∗j

p∗i qj− 1) = 0,

przy czym rownosc zachodzi wtedy i tylko wtedy, gdy pip∗j = p∗i qj dla

wszystkich i, j. Sumuj ↪ac t ↪e rownosc obustronnie wzgl ↪edem j dosta-jemy pi = p∗i dla wszystkich i.

Z monotonicznosci wynika, ze ci ↪ag D(pP n||p∗) jest zbiezny do pew-nej granicy nieujemnej Dp. Poniewaz zbior stanow jest skonczony, toistnieje podci ↪ag pot ↪eg macierzy przejscia P n′ zbiezny do pewnej ma-cierzy P0, co oznacza, ze Dp = D(pP0||p∗). Korzystaj ↪ac jeszcze raz z

34

Page 35: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

monotonicznosci, dostajemy D(pP n′+1||p∗) −→ D(pP0P ||p∗) = Dp =D(pP0||p∗). Ale rownosc ma miejsce tylko wtedy, gdy pP0 = p∗, codaje Dp = 0 i konczy dowod (3.5). 2

Powyzsze elemntarne twierdzenie zosta lo rozszerzone na przypa-dek przeliczalnej liczby stanow i czasu ci ↪ag lego przez Kendalla (1963).Zauwazmy jeszcze, ze pP n jest rozk ladem lancucha w chwili n. Twier-dzenie mowi wi ↪ec, ze rozk lad lancucha w chwili n d ↪azy monotoniczniew sensie odleg losci entropijnej do rozk ladu stacjonarnego (ergodycz-nego). Mozna potraktowac ten fakt jako odpowiednik drugiej zasadytermodynamiki dla przypadku lancuchow Markowa. Jest to bardziejwidoczne, gdy macierz przejscia P jest podwojnie stochastyczna tzn.p∗ jest jednostajny i wtedy D(pP n||p∗) = H(p∗)−H(pP n)↘ 0.

3.4. Centralne twierdzenie graniczne. Niech X1, X2, ... b ↪edzieci ↪agiem niezaleznych rzeczywistych zmiennych losowych o tym samymrozk ladzie, wartosci oczekiwanej 0 i wariancji 1. Oznaczmy przezSn = (X1 + ... + Xn)/

√n ci ↪ag unormowanych sum cz ↪esciowych. Jak

wspomnielismy w rozdziale 2.8, Barron i Madiman (2007) pokazali mo-notonicznosc ci ↪agu H(Sn), co odpowiada monotonicznosci odleg loscientropijnej rozk ladow lancucha Markowa od rozk ladu stacjonarnego.Mozna wi ↪ec spodziewac si ↪e podobnego twierdzenia, mowi ↪acego o zbiez-nosci monotonicznej entropii H(Sn) do maksymalnej entropii (czylientropii rozk ladu normalnego). Istotnie, zbieznosc odleg losci entropij-nej jest prostym wnioskiem z nierownosci dla informacji Fishera i jesttresci ↪a dwoch kolejnych twierdzen.

Twierdzenie 3.7 (zbieznosc informacji Fishera). Jesli J(Sn0) <∞ dla pewnego n0 > 1, to

J(Sn) −→ J > 1. (3.6)

Dowod. Niech J0 = infn J(Sn). Dla dowolnego ustalonego ε > 0wybierzmy liczb ↪e kε = k > n0 tak, aby J(Sk) < J0 + ε. Wowczas dlan = ik+m, gdzie m jest reszt ↪a z dzielenia n przez k, sum ↪e Sn mozemypodzielic na bloki d lugosci k i otrzymujemy

Sn =√

knX1+...+Xk√

k+√

kn

Xk+1+...+X2k√k

+ ...+

+√

kn

X(i−2)k+1+...+X(i−1)k√k

+√

k+mn

X(i−1)k+1+...+Xn√k+m

.

Z nierownosci dla informacji Fishera dostajemy

35

Page 36: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

J(Sn) 6 knJ(Sk) (i− 1) + k+m

nJ(Sk+m) 6 J0 + ε+ k+m

nJ(Sk+m),

co poci ↪aga lim supn→∞ J(Sn) 6 J0 + ε i z dowolnosci ε tez ↪e (3.6)z J = J0. 2

Natychmiastowym wnioskiem z twierdzenia 3.7 jest zbieznosc en-tropijna sum Sn.

Twierdzenie 3.8 (zbieznosc entropijna Sn). Jesli D(Sn0||Z) <∞ dla pewnego n0 > 1, gdzie Z jest zmienn ↪a losow ↪a o rozk ladziestandardowym normalnym, to

D(Sn||Z) −→ D > 0. (3.7)

Dowod. Z tozsamosci de Bruijna mamy dla n > n0

D(Sn||Z) =∫∞

0

[J(Sn +

√tZ)− 1

1+t

]dt

=∫∞

0

[J(

(X1+√tZ1)+...+(Xn+

√tZn)√

n√

1+t

)− 1]

dt1+t

, (3.8)

gdzie Z1, ..., Zn s ↪a niezaleznymi kopiami Z. Z twierdzenia 3.7 wynika,ze funkcja podca lkowa w (3.8) jest zbiezna dla kazdego t. Z drugiejstrony nierownosc (2.28) daje J(Sn +

√tZ) 6 J(

√tZ) = 1/t co ozna-

cza, ze w przedziale [1,∞) funkcja podca lkowa jest majoryzowanaprzez funkcj ↪e ca lkowaln ↪a 1/t−1/(t+1). Podobnie, nierownosci (2.27)i (2.28) pozwalaj ↪a oszacowac z gory funkcj ↪e podca lkow ↪a w (3.8) przezJ(X1 +

√tZ1) − 1

1+t6 J(X1) − 1

1+t, ktora jest ca lkowaln ↪a na [0, 1].

Zatem twierdzenie Lebesgue’a o zbieznosci ograniczonej zastosowanedo ca lki (3.8) daje (3.7). 2

Pozostaje jednak trudny problem wykazania, ze w istocie mamy zbiez-nosc do rozk ladu standardowego normalnego tzn. w (3.7) jest D = 0,a w (3.6) jest J = 1. Ponizsze twierdzenia podaj ↪a pozytywne roz-wi ↪azanie tego problemu.

Twierdzenie 3.9 (Barron, 1986). Przy za lozeniach twierdzenia3.8 mamy

J(Sn +√tZ) −→ 1

1 + t

dla kazdego t > 0 i w konsekwencji z tozsamosci de Bruijna

D(Sn||Z) = H(Z)−H(Sn) −→ 0. (3.9)

Zbieznosc (3.9) oznacza, ze entropia Sn osi ↪aga w granicy maksymaln ↪a

36

Page 37: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

wartosc H(Z). Stanowi wi ↪ec kolejny odpowiednik drugiej zasady ter-modynamiki.

Twierdzenie 3.10 (Barron i Johnson, 2004). Przy za lozeniachtwierdzenia 3.7 mamy

J(Sn) −→ 1 (3.10)

czyli rownowaznie J(Sn||Z) = J(Sn)− J(Z)→ 0.

Barron i Johnson (2004) otrzymali nie tylko zbieznosc informacjiFishera (3.10), ale, przy dosc silnych za lozeniach wykazali, ze szybkosczbieznosci w (3.10) jest rz ↪edu O(1/n). Bobkov i in. (2013) przebadaliszczego lowo szybkosc zbieznosci entropijnej w (3.9). W najprostszejpostaci ich wynik jest nast ↪epuj ↪acy.

Twierdzenie 3.11 (Bobkov i in., 2013). Jesli D(Sn0 ||Z) < ∞dla pewnego n0 > 1 oraz EX4

1 <∞, to

D(Sn||Z) =1

12n(EX3

1 )2 + o

(1

n log n

).

Johnson (2004) rozszerzy l twierdzenie 3.10 m.in. na przypadekzmiennych losowych o niejednakowych rozk ladach, zmiennych loso-wych wielowymiarowych oraz ci ↪agow mieszaj ↪acych.

4. Wnioskowanie statystyczne

Ten g lowny rozdzia l niniejszego opracowania poswi ↪ecimy wybra-nym, ale, w odczuciu autora, waznym, zagadnieniom statystyki mate-matycznej, ktore wi ↪az ↪a si ↪e z poj ↪eciami i twierdzeniami teorii informacjioraz ktore mozna badac metodami teorii informacji.

Niech X = (X1, ..., Xn) ∈ X n b ↪edzie prob ↪a (niekoniecznie prost ↪a) owartosciach w n-krotnym produkcie przestrzeni miarowej σ-skonczonej(X ,B, λ) i niech

P = {pnϑ : ϑ ∈ Θ} (4.1)

b ↪edzie pewn ↪a rodzin ↪a g ↪estosci rozk ladow na X n, gdzie Θ jest dowol-nym zbiorem parametrow. Rozk lad proby X moze byc elementem P(model prawdziwy) lub nie.

4.1. Estymatory najwi ↪ekszej wiarogodnosci. Estymatoremnajwi ↪ekszej wiarogodnosci parametru ϑ w rodzinie P danej przez (4.1)

37

Page 38: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

opartym na probie X nazywamy statystyk ↪e ϑ okreslon ↪a przez relacj ↪e

ϑ = ϑ(X) = argmaxϑ∈Θ pnϑ(X)

(o ile maksimum jest osi ↪agane na Θ).Wydaje si ↪e intuicyjnie oczywiste, ze estymator najwi ↪ekszej wia-

rogodnosci powinien odpowiadac najlepszemu wyborowi ϑ, w sensieilosci informacji, czy tez wyborowi rozk ladu z P najblizszego, w sensieodleg losci entropijnej, od prawdziwego rozk ladu proby. Dla potwier-dzenia tych intuicji przytoczymy dwa rezultaty.

Niech X = {x1, ..., xr} b ↪edzie skonczonym alfabetem, X =(X1, ..., Xn) prob ↪a prost ↪a z pewnego rozk ladu µ na X , µn rozk lademempirycznym tej proby (b ↪ed ↪acym takze rozk ladem na X ), a

F = {pϑ : pϑ = (pϑ1, ..., pϑr), ϑ ∈ Θ ⊂ Rk}rodzin ↪a parametryczn ↪a rozk ladow (pojedynczych obserwacji) na X .

Okazuje si ↪e, ze estymator najwi ↪ekszej wiarogodnosci ϑ odpowiada od-wrotnemu rzutowi informacyjnemu (por. definicja 2.5) rozk ladu em-pirycznego na rodzin ↪e F .

Twierdzenie 4.1. Dla skonczonego alfabetu X i przy powyzszychoznaczeniach estymator najwi ↪ekszej wiarogodnosci ϑ ∈ Θ istnieje wtedyi tylko wtedy, gdy istnieje odwrotny rzut informacyjny µn na F . Po-nadto

pϑ = RIprojFµn.

Dowod. Mamy

argmaxϑ log∏n

i=1 pϑXi = argminϑ∑n

i=1 log 1pϑXi

= argminϑ∑r

j=1 nµn({xj}) log 1pϑj

= argminϑ∑r

j=1 µn({xj}) logµn({xj})pϑj

= argminϑD(µn||pϑ),

co konczy dowod. 2

Csiszar poda l inny zwi ↪azek estymatora najwi ↪ekszej wiarogodnosciz rzutem informacyjnym. Niech µ b ↪edzie pewnym rozk ladem na dowol-nej (niekoniecznie skonczonej) przestrzeni (X ,B, λ), T = (T1, ..., Tk)wektorem liniowo niezaleznych funkcji mierzalnych i a ∈ Rk ustalonymwektorem. Rozwazmy rodzin ↪e rozk ladow na X , dla ktorych wartoscoczekiwana T wynosi a. Dok ladniej

La = {ν : ν ≺≺ µ,∫T dν =

∫T dνdµdµ = a}.

38

Page 39: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Oczywiscie, La jest wypuk la i domkni ↪eta w normie ca lkowitego wa-hania (por. twierdzenie 2.11). Ponizsze twierdzenie odpowiada twier-dzeniu 3.1 w pracy Csiszara (1975).

Twierdzenie 4.2. Jesli istnieje ϑ ∈ Rk takie,ze funkcja cϑeϑ◦T

jest g ↪estosci ↪a (wzgl ↪edem µ) rozk ladu wyk ladniczego γϑ z odpowiedniodobran ↪a sta l ↪a normuj ↪ac ↪a cϑ oraz γϑ ∈ La tzn.∫

Tdγϑ = a,

to

γϑ = IprojLa µ.

Ponadto zachodzi odpowiednik twierdzenia Pitagorasa

D(ν||µ) = D(ν||γϑ) +D(γϑ||µ)

dla wszystkich ν ∈ La tzn. La jest zawarta w ‘hiperp laszczyznie stycz-nej’ do D-kuli o srodku µ i ‘promieniu’

√D(γϑ||µ) w punkcie γϑ.

Zastosowanie powyzszego twierdzenia w szczegolnej sytuacji rodzinwyk ladniczych pozwala na pewn ↪a interpretacj ↪e estymatorow najwi ↪e-kszej wiarogodnosci. Niech wi ↪ec µ i T b ↪ed ↪a jak wyzej, µn n-krotnymproduktem µ, a

P = {γnϑ : pnϑ =dγnϑdµn

= cnϑ enϑ◦T , ϑ ∈ Θ ⊂ Rk}

rodzin ↪a wyk ladnicz ↪a rozk ladow produktowych na X n, gdzie T (x) =1n

∑ni=1 T (xi). Niech X = (X1, ..., Xn) b ↪edzie prob ↪a prost ↪a z rozk ladu

µ, a T (X) sredni ↪a z tej proby. Rozwazmy rodzin ↪e rozk ladow

LT (X) = {ν : ν ≺≺ µn,

∫Tdν

dµndµn = T (X)}.

Zauwazmy, ze na ogo l µn nie nalezy do LT (X), gdyz srednia teoretyczna

ET =∫Tdµn nie jest na ogo l rowna sredniej empirycznej. Oznaczmy

przez ϑ ∈ Θ estymator najwi ↪ekszej wiarogodnosci w rodzinie P opartyna probie X. Wtedy

γnϑ∈ LT (X). (4.2)

Istotnie, z w lasnosci rodziny wyk ladniczej dla dowolnego ϑ ∈ Θ mamy

0 = ∇∫pnϑdµ

n =

∫∇pnϑdµn =

∫(nT + n∇ ln cϑ)pnϑdµ

n,

gdzie ∇ oznacza rozniczkowanie wzgl ↪edem ϑ ∈ Θ. St ↪ad∫Tpnϑdµ

n =

39

Page 40: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

−∇ ln cϑ|ϑ=ϑ. Z drugiej strony, z rownania wiarogodnosci wynika∇ ln cϑ|ϑ=ϑ = −T (X), co uzasadnia stwierdzenie (4.2). Z niego oraz ztwierdzenia 4.2 wynika, ze γn

ϑ= IprojLT (X)

µn. Oznacza to, ze rozk lad

wyk ladniczy γnϑ, gdzie ϑ jest estymatorem najwi ↪ekszej wiarogodnosci,

jest najblizszym µn (w sensie odleg losci entropijnej) rozk ladem w LT (X).

4.2. Model statystyczny. Podstawowym obiektem rozwazan wstatystyce matematycznej jest model statystyczny.

Rozwazmy rodzin ↪e g ↪estosci P jak w (4.1) i model statystyczny(X n,Bn, λn,P) i za lozmy, ze rozk lad proby X nalezy do P . Abymierzyc ilosc informacji o parametrze ϑ, potrzebna jest strukturamiarowa na zbiorze Θ. Odpowiada to podejsciu bayesowskiemu wstatystyce matematycznej. Niech wi ↪ec (Θ,S, σ) b ↪edzie przestrzeni ↪amiarow ↪a σ-skonczon ↪a. Parametr ϑ b ↪edziemy traktowac jako wartosczmiennej losowej θ o g ↪estosci a priori w(ϑ) (wzgl ↪edem σ). Wtedypnϑ jest g ↪estosci ↪a warunkow ↪a proby X przy warunku θ = ϑ, a ilo-czyn pnϑw(ϑ) g ↪estosci ↪a l ↪aczn ↪a zmiennej losowej (θ,X). W konse-kwencji g ↪estosc (brzegowa) proby X ma postac fn =

∫Θpnϑw(ϑ)dσ,

a g ↪estosc a posteriori zmiennej θ wyraza si ↪e wzorem pnϑw(ϑ)/fn.Ten ogolny schemat i oznaczenia b ↪edziemy przyjmowac w dalszym

ci ↪agu rozdzia lu 4.

4.3. Statystyki dostateczne. Niech P b ↪edzie rodzin ↪a g ↪estosciproby X jak w (4.1), a T (X) statystyk ↪a. Wtedy θ,X, T (X) tworz ↪a lancuch Markowa (por. rozdzia l 2.9) tzn. θ → X → T (X). Zatem znierownosci dla danych przetworzonych mamy I(θ, T (X)) 6 I(θ,X)tzn. zadna statystyka T (X) nie zawiera wi ↪ecej informacji o parame-trze θ niz proba X. Ale moze zachodzic rownosc.

Definicja 4.1. Statystyka T (X) nazywa si ↪e dostateczna dla pa-rametru θ, jesli

I(θ, T (X)) = I(θ,X) (4.3)

tzn. θ → T (X)→ X.

Inaczej mowi ↪ac statystyka dostateczna stanowi kompresj ↪e danychbez straty informacji o parametrze θ. Rownosc (4.3) mozna wyrazicrownowaznie w postaci H(θ|X) = H(θ|T (X)). Powyzsza definicjadostatecznosci statystyki (wypowiedziana w j ↪ezyku teorii informacji)jest rownowazna z definicj ↪a klasyczn ↪a. Istotnie, z (iii) w twierdzeniu2.9 mamy I(θ,X) = D(pnϑw||fnw). Stosuj ↪ac twierdzenie 2.10 do

40

Page 41: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

odwzorowania (θ,X) → (θ, T (X)), rownosc (4.3) zachodzi wtedy itylko wtedy, gdy

pnϑ(x)w(ϑ)

fn(x)w(ϑ)=qnϑ(T (x))w(ϑ)

gn(T (x))w(ϑ)σ × λ−p.w.,

gdzie qnϑw i gnw s ↪a g ↪estosciami rozk ladow indukowanych przez powyz-sze odwzorowanie. To oznacza, ze dla prawie wszystkich ϑ

pnϑ(x) =qnϑ(T (x))

gn(T (x))fn(x) λ−p.w.

Z kryterium faktoryzacji Neymana (1935) (por. Bartoszewicz, 1981,wniosek 3.5) wynika dostatecznosc statystyki T w sensie Fishera.

Id ↪ac dalej w definicji 4.1 mozemy powiedziec, ze statystyka T ∗(X)jest minimaln ↪a statystyk ↪a dostateczn ↪a, gdy jest funkcj ↪a kazdej innejstatystyki dostatecznej tzn. dla dowolnej statystyki dostatecznej T (X)istnieje funkcja mierzalna ψT taka, ze T ∗(X) = ψT (T (X)). Ozna-cza to, ze dla dowolnej statystyki dostatecznej mamy θ → T ∗(X) →T (X) → X. Zatem minimalna statystyka dostateczna stanowi mak-symaln ↪a kompresj ↪e danych bez straty informacji o parametrze θ.

4.4. Rozwini ↪ecie Barrona-Clarke’a. W tym rozdziale przed-stawimy rozwini ↪ecie podane przez Clarke’a i Barrona (1990). Najpierwsformu lujemy odpowiednie za lozenia regularnosci rodziny g ↪estosci Pjak w (4.1).

Niech X = (X1, ..., Xn) b ↪edzie prob ↪a prost ↪a, gdzie Xi przyjmuj ↪awartosci w przestrzeni polskiej X . Ponadto, za lozmy, ze spe lnione s ↪anast ↪epuj ↪ace warunki.

(BC1) Θ ⊂ Rk ma niepuste wn ↪etrze;

(BC2) g ↪estosci pϑ pojedynczych obserwacji Xi maj ↪a pochodnecz ↪astkowe rz ↪edu 2 w pewnym otoczeniu Uϑ0 punktu ϑ0 ∈ int Θ (nawspolnym zbiorze X0 ⊂ X miary pe lnej) i s ↪a ci ↪ag le w punkcie ϑ0 oraz

k∑r,s=1

∫X

supϑ∈Uϑ0

(∂2 ln pϑ(x)

∂ϑr∂ϑs

)2

pϑ0(x)λ(dx) <∞.

Macierz informacji Fishera J(ϑ0) jest nieosobliwa i rowna macierzy

−∫ ∂2 ln pϑ0

∂ϑ∂ϑTpϑ0dλ;

(BC3) ϑ → ϑ0 wtedy i tylko wtedy, gdy Pϑ jest s labo zbiezny doPϑ0, gdzie Pϑ oznacza rozk lad o g ↪estosci pϑ;

(BC4) g ↪estosc a priori w(ϑ) wzgl ↪edem miary Lebesgue’a na Θ jestci ↪ag la i dodatnia w punkcie ϑ0.

41

Page 42: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Za lozenie (BC2) gwarantuje istnienie macierzy informacji Fishera, anawet skonczonosc ca lek

∫supϑ∈Uϑ0

(`ϑr)2pϑ0dλ, r = 1, ..., k,, gdzie

`ϑr = ∂ ln pϑ∂ϑr

s ↪a sk ladowymi wektora wynikowego `ϑ. Zauwazmy, ze ro-dzina wyk ladnicza rozk ladow wyznaczona przez wektor T = (T1, ..., Tk)funkcji mierzalnych, liniowo niezaleznych spe lnia za lozenia (BC2) i(BC3).

Twierdzenie 4.3 (Clarke i Barron, 1990). Przy za lozeniach(BC1) – (BC4) mamy nast ↪epuj ↪ace rozwini ↪ecie

lnpnϑ0(X)

fn(X)= −1

2Nkϑ0(X) +

k

2ln

n

2π+

1

2ln

det J(ϑ0)

w2(ϑ0)+ oL1(1), (4.4)

gdzie

Nkϑ0(X) =

(1√n

n∑i=1

`ϑ0(Xi)

)T

J−1(ϑ0)

(1√n

n∑i=1

`ϑ0(Xi)

)jest statystyk ↪a wynikow ↪a Neymana-Rao.

Rozwini ↪ecie (4.4) ma dwa natychmiastowe wnioski. Obliczaj ↪acwartosc oczekiwan ↪a obu stron (4.4) wzgl ↪edem rozk ladu P n

ϑ0, dosta-

jemy nast ↪epuj ↪ace rozwini ↪ecie.

Wniosek 4.1 (Clarke i Barron, 1990). Przy za lozeniach twierdze-nia 4.3 mamy

D(pnϑ0 ||fn) =k

2log

n

2π e+

1

2log

det J(ϑ0)

w2(ϑ0)+ o(1). (4.5)

Z kolei odejmuj ↪ac (4.4) od (4.5) i korzystaj ↪ac z asymptotycznejnormalnosci wektora losowego (

∑ni=1 `ϑ0(Xi))/

√n, otrzymujemy drugi

wniosek.

Wniosek 4.2 (Clarke i Barron, 1990). Przy za lozeniach twierdze-nia 4.3 mamy

lnfn(X)

pnϑ0(X)+ (ln 2)D(pnϑ0||fn) +

k

2=

1

2Nkϑ0(X) + oL1(1)

D−→ 1

2χ2k,

(4.6)

gdzie χ2k jest zmienn ↪a losow ↪a o rozk ladzie chi-kwadrat z k stopniami

swobody.

Rozwini ↪ecie Barrona-Clarke’a ma rozmaite zastosowania w staty-

42

Page 43: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

styce matematycznej. Niektore pokazemy w nast ↪epnych paragrafach.

4.5. Kodowanie zrod la, ilosc informacji o θ zawartej wprobie. Problem kodowania zrod la (ang. source coding) jest waznezarowno w technice przesy lania informacji, jak i dla wnioskowaniastatystycznego.

Niech X = (X1, ..., Xn) b ↪edzie prob ↪a (zrod lem), niekoniecznie pro-st ↪a, o g ↪estosci pnϑ ∈ P , przy czym ϑ jest nieznane, a qn dowoln ↪ag ↪estosci ↪a uzywan ↪a jako przyblizenie nieznanej g ↪estosci probyX. Wow-czas wyd luzenie sredniej d lugosci s lowa kodowego optymalnego kodubinarnego opartego na qn wynosi D(pnϑ||qn). Wielkosc

Rn = infqn

∫Θ

D(pnϑ||qn)w(ϑ)dσ, (4.7)

gdzie qn przebiega wszystkie g ↪estosci proby, nazywamy minimalnymwyd luzeniem bayesowskim, a wielkosc

R+n = inf

qnsupϑD(pnϑ||qn)

wyd luzeniem minimaksowym tzn. minimalnym przy najmniej ko-rzystnym pnϑ. Latwo zauwazyc nast ↪epuj ↪acy fakt.

Twierdzenie 4.4. Minimalne wyd luzenie bayesowskie Rn reali-zuje kod bayesowski oparty na fn(x) =

∫pnϑw(ϑ)dσ czyli o s lowach

d lugosci dlog(1/fn(x))e. Zatem

Rn =

∫D(pnϑ||fn)w(ϑ)dσ.

Dowod. Dla dowolnego qn mamy∫Θ

[D(pnϑ||qn)−D(pnϑ||fn)]w(ϑ)dσ =∫

Θ

∫Xn pnϑ log fn

qnw(ϑ)dσ dλn

=∫Xn(∫

Θpnϑw(ϑ)dσ

)log fn

qndλn = D(fn||qn) > 0

co konczy dowod. 2

Definicja (4.7) sugeruje okreslenie przepustowosci (ang. capacity)kana lu informacyjnego wzorem

C(Θ, X) = supwRn, (4.8)

gdzie supremum jest wzgl ↪edem wszystkich g ↪estosci a priori na prze-strzeni parametrow Θ. Bezposrednio z definicji (4.8) wynika relacjaR+n > C(Θ, X). Istotnie, korzystaj ↪ac z faktu, ze w(ϑ) jest g ↪estosci ↪a

rozk ladu, mamy

43

Page 44: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

R+n = infqn supϑD(pnϑ||qn) = supw infqn [supϑD(pnϑ||qn)]

∫w(ϑ)dσ

> supw infqn∫D(pnϑ||qn)w(ϑ)dσ = supw Rn = C(Θ, X).

Haussler (1997) wykaza l, ze ma miejsce rownosc tj. R+n = C(Θ, X).

Popatrzmy teraz na postawione zagadnienie estymacji ϑ nieco ina-czej i zapytajmy ile informacji o θ jest zawartej w probie X. Zgodniez definicj ↪a (2.6) jest ona wyrazona przez I(θ,X) = H(θ) − H(θ|X).Korzystaj ↪ac z przyj ↪etych oznaczen rozk ladu l ↪acznego zmiennych θ iX, mamy st ↪ad

I(θ,X) = −∫

Θw logwdσ +

∫Xn∫

Θpnϑw log pnϑ w

fndσdλn

=∫Xn∫

Θfn

pnϑ wfn

log pnϑ wfn w

dσdλn =∫Xn D(pnϑ w

fn||w)fndλ

n

=∫

ΘD(pnϑ||fn)w(ϑ)dσ = Rn.

Z powyzszego rachunku wynika, ze ilosc informacji o θ zawartej wprobie X jest rowna sredniej (wzgl ↪edem rozk ladu proby) odleg loscientropijnej rozk ladu a posteriori od rozk ladu a priori i rownoczesniesredniej (wzgl ↪edem rozk ladu a priori) odleg losci entropijnej rozk laduwarunkowego proby X od rozk ladu bezwarunkowego, a ponadto ztwierdzenia 4.4 rowna minimalnemu wyd luzeniu bayesowskiemu.Mozemy zatem napisac

C(Θ, X) = supwRn = sup

wI(θ,X). (4.9)

Rownosc (4.9) pozwala na podanie nast ↪epuj ↪acej interpretacji prze-pustowosci kana lu informacyjnego. Przypuscmy, ze ‘przesy lana jestwiadomosc’ X o g ↪estosci pnϑ, przy czym ϑ jest nieznane odbiorcy, alemodel P jest znany. Odbiorca (statystyk) chce na podstawie przes lanejinformacji zidentyfikowac parametr ϑ. Przepustowosc jest zatem mak-symaln ↪a ilosci ↪a informacji o θ uzyskan ↪a przez odbiorc ↪e w kanale (mo-delu statystycznym) P .

Przy dodatkowych za lozeniach mozna powiedziec wi ↪ecej. Przyj-mijmy za lozenia rozwini ↪ecia Barrona i Clarke’a. Wtedy przez obu-stronne sca lkowanie (4.5) wzgl ↪edem ϑ dostajemy nast ↪epuj ↪ace twier-dzenie.

Twierdzenie 4.5 (Clarke i Barron, 1994). Jesli za lozenia twier-dzenia 4.3 s ↪a spe lnione dla kazdego ϑ (w szczegolnosci X jest prob ↪aprost ↪a), Θ ⊂ Rk jest zbiorem zwartym,

∫|`ϑr|2+εpϑdλ < ∞ dla r =

1, ..., k i pewnego ε > 0 i s ↪a ci ↪ag le wzgl ↪edem ϑ oraz pϑ 6= pϑ′ na zbio-rze miary dodatniej, gdy ϑ 6= ϑ′, to dla dowolnego rozk ladu a priori og ↪estosci w(ϑ) mamy

44

Page 45: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

I(θ,X) = Rn =

∫Θ

D(pnϑ||fn)w(ϑ)dϑ

=k

2log

n

2π e+

∫Θ

w(ϑ) log

√det J(ϑ)

w(ϑ)dϑ+ o(1). (4.10)

Poniewaz funkcja√

det J(ϑ) jest ca lkowalna, to po jej unormo-

waniu sta l ↪a c(J) =∫ √

det J(ϑ)dϑ staje si ↪e g ↪estosci ↪a w0(ϑ) rozk laduzwanego rozk ladem Jeffreysa (1946). Zatem (4.10) przyjmuje postac

I(θ,X) = Rn =k

2log

n

2π e−D(w||w0) + log c(J) + o(1).

To oznacza, ze z dok ladnosci ↪a do cz lonu o(1) przepustowosc jest osi ↪a-gana (wykorzystana jest pe lna informacja o θ zawarta w probie X),gdy rozk lad a priori pokrywa si ↪e z rozk ladem Jeffreysa i wynosi asymp-totycznie (gdy n→∞)

C(Θ, X) = supwI(θ,X) =

k

2log

n

2πe+ log c(J). (4.11)

Rozwazania powyzsze dotycz ↪a sytuacji, gdy nieznany parametr jestistotnie k-wymiarowy (Θ ⊂ Rk o niepustym wn ↪etrzu). Jak widac dlamodeli wystarczaj ↪aco regularnych i proby prostej n-elementowej prze-pustowosc wyraza si ↪e przez logarytm z n. Powstaje pytanie, jak jestdla mniej regularnych modeli. Cz ↪esciow ↪a odpowiedz daje nast ↪epuj ↪acetwierdzenie Rissanena.

Twierdzenie 4.6 (Rissanen, 1986). Jesli w rodzinie P, danejprzez (4.1), zbior Θ ⊂ Rk jest zwarty o niepustym wn ↪etrzu oraz dlaprawie wszystkich ϑ (wzgl ↪edem miary Lebesgue’a) istnieje asympto-

tycznie normalny estymator ϑ parametru ϑ taki, ze∑n

supϑPnϑ(||

√n(ϑ− ϑ)|| > log n) <∞,

gdzie || · || oznacza norm ↪e euklidesow ↪a, to dla dowolnej g ↪estosci qnproby X (niekoniecznie prostej) mamy

lim infn

D(pnϑ||qn)

log n>k

2(4.12)

dla prawie wszystkich ϑ.

Z nierownosci (4.12) wynika, ze asymptotycznie dla dowolnie ma legoε > 0 przepustowosc nie moze byc mniejsza niz (k

2− ε) log n.

Twierdzenia 4.5 i 4.6 dotycz ↪a przypadku, gdy przestrzen para-

45

Page 46: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

metrow Θ jest nieskonczona. Przypadek skonczonego zbioru bada lRenyi, ktory rozwaza l Θ = {ϑ0, ϑ1} i udowodni l nast ↪epuj ↪ace twierdze-nie.

Twierdzenie 4.7 (Renyi, 1967). Niech P = {pnϑ0 , pnϑ1}pnϑ0 6= pnϑ1 b ↪edzie dwuelementow ↪a rodzin ↪a rozk ladow, a w = (w0, w1)rozk ladem a priori. Wowczas

I(θ,X) > H(θ)− 18

11(log e)

√w0w1

∫√pnϑ0pnϑ1dλ

n

oraz

I(θ,X) 6 H(θ)− 1

2w0w1

(∫√pnϑ0pnϑ1dλ

n

)2

.

Z twierdzenia 4.7 wynika, ze jesli lim infn d2H(pnϑ0 , pnϑ1) > 0, to dla

dwupunktowego zbioru Θ przepustowosc jest asymptotycznie rowna 1i jest osi ↪agana dla rozk ladu jednostajnego w0 = w1 = 1/2. Dok ladniej

1− 9 log e

11

∫√pnϑ0pnϑ1dλ

n 6 C(Θ, X) 6 1− 1

8(

∫√pnϑ0pnϑ1dλ

n)2.

Jesli proba X jest prosta, to z niezaleznosci obserwacji wynika∫ √pnϑ0pnϑ1dλ

n = (∫ √

pϑ0pϑ1dλ)n, gdzie pϑ0 , pϑ1 s ↪a roznymi g ↪estoscia-mi pojedynczych obserwacji, a to oznacza, ze, dla kazdego rozk ladua priori, I(θ,X) d ↪azy wyk ladniczo do H(θ) przy n → ∞, a prze-pustowosc d ↪azy wyk ladniczo do 1. Wynik Renyiego przenosi si ↪e beztrudu na dowolny skonczony zbior Θ = {ϑ1, ..., ϑk}. W szczegolnoscimozna udowodnic nierownosc

I(θ,X) > H(θ)− 9

11log e

(∑i 6=j

√wiwj

)maxi 6=j

∫√pnϑi pnϑjdλ

n,

co rowniez oznacza wyk ladnicz ↪a zbieznosc I(θ,X) do H(θ) w przy-padku proby prostej i zbieznosc wyk ladnicz ↪a przepustowosci do log k.

4.6. Estymacja g ↪estosci. Rozwazmy prob ↪e prost ↪a X =(X1, ..., Xn) o nieznanej g ↪estosci pojedynczej obserwacji p i niech pnb ↪edzie estymatorem p. Odleg losc entropijna D(p||pn) jest rozs ↪adn ↪afunkcj ↪a straty, gdyz, z nierownosci Pinskera, majoryzuje odleg losc wnormie L1. Jawne oszacowania z gory i z do lu na ryzyko ED(p||pn)estymatora pn podali Yang i Barron.

Twierdzenie 4.8 (Yang i Barron, 1999). Za lozmy, ze nieznanag ↪estosc p pochodzi z rodziny F g ↪estosci jednostajnie ograniczonych na

46

Page 47: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

przestrzeni miarowej σ-skonczonej (X ,B, λ). Jesli entropia metrycznaMFH (ε) rodziny F wzgl ↪edem metryki Hellingera dH jest rz ↪edu ε−1/r dla

pewnego r > 0, to

(n lnn)−2r/(2r+1) 6 minpn

maxp∈F

Epd2H(p, pn) 6 (ln 2) min

pnmaxp∈F

EpD(p||pn)

6 n−2r/(2r+1)(lnn)1/(2r+1), (4.13)

gdzie estymator pn przebiega zbior wszystkich g ↪estosci.

Przypomnijmy, ze entropia metryczna M(ε) zbioru F jest rownalogarytmowi minimalnej liczby kul w danej metryce, o promieniu niewi ↪ekszym niz ε, pokrywaj ↪acych F . Twierdzenie powyzsze podaje do-k ladny rz ↪ad pot ↪egowy malenia ryzyka optymalnego (w sensie mini-maksowym) estymatora w klasie wszystkich estymatorow.

Jako przyk lad zastosowania twierdzenie 4.8 rozwazmy rodzin ↪e g ↪e-stosci g ladkich na odcinku [0, 1]

F = {p : log p ∈ W r2 [0, 1]},

gdzie W r2 [0, 1] oznacza przestrzen Sobolewa funkcji r-krotnie roznicz-

kowalnych z r-t ↪a pochodn ↪a ca lkowaln ↪a z kwadratem. Rozwazmy ro-dzin ↪e wyk ladnicz ↪a {pϑ = cϑe

ϑ◦Φ, ϑ ∈ Rk} g ↪estosci pojedynczych ob-serwacji na odcinku [0, 1], gdzie Φ jest uk ladem ortonormalnym kwielomianow stopnia co najwyzej k lub ci ↪agiem k pierwszych funk-cji uk ladu trygonometrycznego. Niech ϑ = ϑ(X) b ↪edzie estymatoremnajwi ↪ekszej wiarogodnosci w rodzinie wyk ladniczej g ↪estosci (produk-towych) pnϑ dla proby prostej X i niech p = pϑ b ↪edzie estymatoremnieznanej g ↪estosci pojedynczej obserwacji p ∈ F . Barron i Sheu udo-wodnili nast ↪epuj ↪ace twierdzenie.

Twierdzenie 4.9 (Barron i Sheu, 1991). Jesli r > 2 oraz wy-miar k = k(n) rodziny wyk ladniczej jest rz ↪edu n1/(2r+1), to dla kazdegop ∈ F mamy

D(p||pϑ) = Op(n−2r/(2r+1)).

W przypadku uk ladu trygonometrycznego potrzebne s ↪a jeszcze pewnewarunki brzegowe dla log p.

Zauwazmy, ze entropia metryczna rozwazanej tutaj rodziny Fwzgl ↪edem metryki Hellingera jest rz ↪edu ε−1/r. Oznacza to, ze estyma-tor g ↪estosci okreslony w twierdzeniu 4.9 osi ↪aga optymalny (pot ↪egowy)rz ↪ad zbieznosci ryzyka.

Rozwazmy teraz przypadek, gdy nieznana g ↪estosc p nalezy do pa-

47

Page 48: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

rametrycznej rodziny g ↪estosci F = {pϑ : ϑ ∈ Θ ⊂ Rk} i za lozmy,ze nieznana g ↪estosc pojedynczej obserwacji nalezy do tej rodziny tzn.ma postac pϑ0 , gdzie ϑ0 jest nieznane. Dla proby prostej X rozwazmyestymator bayesowski g ↪estosci pϑ0 postaci

pn(·) =

∫pϑ(·)pnϑ(X)w(ϑ)

fn(X)dϑ, (4.14)

gdzie w(ϑ) jest g ↪estosci ↪a a priori parametru ϑ (wzgl ↪edem miary Lebes-gue’a), a pnϑ jest g ↪estosci ↪a produktow ↪a. Zauwazmy, ze estymator pnminimalizuje sredni ↪a strat ↪e a posteriori. Istotnie, dla dowolnej g ↪estosciq mamy∫

ΘD(pϑ||q)pnϑ(X)w(ϑ)

fn(X)dϑ−

∫ΘD(pϑ||pn)pnϑ(X)w(ϑ)

fn(X)dϑ

=∫X log pn

q

∫Θpϑ

pnϑ(X)w(ϑ)fn(X)

dϑ dλn =∫X pn log pn

qdλn > 0.

Clarke i Barron (1990) udowodnili nast ↪epuj ↪acy fakt.

Twierdzenie 4.10. Przy za lozeniach twierdzenia 4.3 mamy

1

n

n∑j=0

Eϑ0D(pϑ0||pj) =k

2

log n

n+O

(1

n

), (4.15)

gdzie p0 =∫pϑw(ϑ)dϑ, a pj jest oparty na (X1, ..., Xj) i dany wzorem

(4.14).

Formu la (4.15) oznacza, ze w przyblizeniu ryzyko estymatora bayesow-skiego pn jest rz ↪edu k

2lognn

. Poniewaz w modelu k-wymiarowym entro-pia metryczna jest rz ↪edu k log(1/ε), co z grubsza odpowiada r =∞ wtwierdzeniu 4.8, to rz ↪ad pot ↪egowej zbieznosci ryzyka estymatora bay-esowskiego jest zgodny z rz ↪edem n−1 wynikaj ↪acym z (4.13).

4.7. Testowanie hipotez statystycznych. Podobnie jak wpoprzednim rozdziale ograniczymy si ↪e tutaj do prob prostych X =(X1, ..., Xn) i niech p b ↪edzie g ↪estosci ↪a pojedynczej obserwacji. Naj-pierw rozpatrzymy problem testowania hipotez prostych:

H0 : p = p0 przeciwko H1 : p = p1,

gdzie p0, p1 s ↪a ustalonymi roznymi g ↪estosciami. Chernoff (1952) udo-wodni l nast ↪epuj ↪ace twierdzenie zwane lematem Steina.

Twierdzenie 4.11 (Lemat Steina). Niech α ∈ (0, 1) b ↪edzie do-wolnym ustalonym poziomem istotnosci, a βn prawdopodobienstwemb l ↪edu II rodzaju testu Neymana-Pearsona hipotezy H0 przeciwko H1.

48

Page 49: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Wowczas1

nlog βn −→ −D(p0||p1). (4.16)

Relacja (4.16) mowi, ze dla ustalonego poziomu istotnosci moc te-stu najmocniejszego d ↪azy wyk ladniczo do 1 i odleg losc entropijnaD(p0||p1) okresla tempo tej wyk ladniczej zbieznosci. Lemat Steinajest szczegolnym przypadkiem twierdzenia Cramera o wielkich odchy-leniach. Jednak jego dowod mozna przeprowadzic bezposrednio, ko-rzystaj ↪ac jedynie z klasycznego prawa wielkich liczb. Przytoczymy go,opuszczaj ↪ac latwe szczego ly.

Dowod. Logarytm statystyki Neymana-Pearsona ma postac

Vn = log pn1pn0

(X) =∑n

i=1 log p1(Xi)p0(Xi)

czyli jest sum ↪a niezaleznych zmiennych losowych o tym samym rozk la-dzie. Zatem z prawa wielkich liczb Chinczyna mamy

1nVn

P0→ E0Vn = −D(p0||p1). (4.17)

Wybierzmy liczb ↪e vnα tak, aby

P0(Vn > −nD(p0||p1) + vnα) = α.

Wtedy vnα/n→ 0. St ↪ad i z nierownosci Markowa dostajemy

βn = P1(pn1pn0

6 2−nD(p0||p1)+vnα) = P1(pn0pn1

> 2nD(p0||p1)−vnα)

6 (E1pn0pn1

)2−nD(p0||p1)+vnα = 2−nD(p0||p1)+vnα ,

co po prostych przekszta lceniach daje

1n

log βn 6 −D(p0||p1) + vnαn

. (4.18)

Z drugiej strony z (4.17) mamy P0(Vn > −nD(p0||p1) − nδ) =1− ηn → 1 dla dowolnego δ > 0, sk ↪ad

βn > P1(2−nD(p0||p1)−nδ 6 pn1pn0

6 2−nD(p0||p1)+vnα)

= E0

(pn1pn0

1(2−nD(p0||p1)−nδ 6 pn1pn0

6 2−nD(p0||p1)+vnα))

> 2−nD(p0||p1)−nδP0(2−nD(p0||p1)−nδ 6 pn1pn0

6 2−nD(p0||p1)+vnα)

= 2−nD(p0||p1)−nδ(1− α− ηn).

W konsekwencji otrzymujemy

1n

log βn > −D(p0||p1)− δ + 1n

log(1− α− ηn).

49

Page 50: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Z dowolnosci δ oraz (4.18) wynika (4.16). 2

Role poziomu istotnosci α i prawdopodobienstwa b l ↪edu II rodzajuβ mozna zamienic. Prowadzi to do lematu Steina w postaci dualnej.

Twierdzenie 4.12 (Dualny lemat Steina). Niech β ∈ (0, 1) b ↪edziedowolnym ustalonym prawdopodobienstwem b l ↪edu II rodzaju, a αn od-powiadaj ↪acym mu poziomem istotnosci testu Neymana-Pearsona hipo-tezy H0 przeciwko H1. Wowczas

1

nlogαn −→ −D(p1||p0).

Stosuj ↪ac podejscie bayesowskie, mozna po l ↪aczyc obie wersje lematuSteina. Niech w = (w0, w1) b ↪edzie rozk ladem a priori na zbiorze dwu-punktowym Θ = {0, 1}, a pn0, pn1 g ↪estosciami rozk ladow produkto-wych. Wowczas pn0w0

pn0w0+pn1w1i pn1w1

pn0w0+pn1w1s ↪a prawdopodobienstwami

a posteriori. Renyi (1967) zaproponowa l tzw. test standardowy H0

przeciwko H1, ktory odrzuca H0, gdy pn1w1

pn0w0+pn1w1> pn0w0

pn0w0+pn1w1co jest

rownowazne warunkowi pn1pn0

> w0

w1. Dla tak okreslonego testu oznaczmy

αn, βn odpowiednio, poziom istotnosci i prawdopodobienstwo b l ↪edu IIrodzaju oraz prawdopodobienstwo b l ↪ednej decyzji εn = w0αn + w1βn.G ↪estosci hipotetyczne p0, p1 (zak ladamy, ze p0 · p1 6= 0) po l ↪aczmyodcinkiem logarytmicznie wypuk lym tzn. rozwazmy jednoparame-trow ↪a rodzin ↪e g ↪estosci {pt = ctp

t0p

1−t1 : t ∈ [0, 1]}, gdzie ct jest sta l ↪a

normuj ↪ac ↪a (por. twierdzenie 2.12). Wowczas funkcja D(pt||p0) jestrosn ↪aca wzgl ↪edem t, a funkcja D(pt||p1) malej ↪aca wzgl ↪edem t. Zatemistnieje liczba t∗ ∈ (0, 1) taka, ze zachodzi rownosc tzn. D(pt∗ ||p0)= D(pt∗||p1). Chernoff (1952) udowodni l twierdzenie, ktore moznanazwac lematem Steina w wersji bayesowskiej.

Twierdzenie 4.13 (Chernoff, 1952). Przy powyzszych za lozeniachi oznaczeniach mamy

1

nlog εn −→ −D(pt∗||p0).

Oznacza to, ze prawdopodobienstwo b l ↪ednej decyzji d ↪azy wyk ladniczodo zera. Liczb ↪e D(pt∗||p0) nazywamy informacj ↪a Chernoffa. Renyi(1967) udowodni l nierownosc h−1(H(θ|X)) 6 εn 6 2H(θ|X), gdzieh(p) jest funkcj ↪a entropijn ↪a, co takze poci ↪aga wyk ladnicz ↪a zbieznoscεn do zera.

Rozwazmy teraz przypadek ogolny, gdy zbior parametrow Θ jestdowolny. Niech F = {pϑ : ϑ ∈ Θ} b ↪edzie rodzin ↪a g ↪estosci pojedyn-

50

Page 51: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

czych obserwacji na dowolnej przestrzeni (X ,B, λ), X = (X1, ..., Xn)b ↪edzie prob ↪a prost ↪a z rozk ladu Pϑ o g ↪estosci pϑ ∈ F oraz Θ0 ⊂ Θ.Rozwazmy problem testowania

H0 : ϑ ∈ Θ0 przeciwko H1 : ϑ ∈ Θ \Θ0. (4.19)

Bahadur (1967) uogolni l dualny lemat Steina na przypadek te-stowania dowolnych hipotez z lozonych. Jego wynik przedstawimy wwersji podanej przez Raghavachari (1970).

Twierdzenie 4.15 (Bahadur, 1967, Raghavachari, 1970) NiechTn b ↪edzie statystyk ↪a testow ↪a testu prawostronnego hipotezy H0, jakw (4.19), ϑ ∈ Θ \ Θ0 b ↪edzie dowolnym parametrem, a β ∈ (0, 1)dowolnym ustalonym b l ↪edem II rodzaju. Jesli tn = tn(β, ϑ) jest takie,ze P n

ϑ (Tn > tn)→ β gdy n→∞, to

lim infn→∞

1

nlog sup

ϑ0∈Θ0

P nϑ0

(Tn > tn) > − infϑ0∈Θ0

D(pϑ||pϑ0). (4.20)

Ponadto dla statystyki ilorazu wiarogodnosci

Tn = Tn(X) = − 1

nlog

supϑ0∈Θ0pnϑ0(X)

supϑ∈Θ pnϑ(X)

istnieje granica w (4.20) i jest rowna prawej stronie (4.20).

Jesli istnieje granica lewej strony w (4.20) i nie zalezy od β, tooznaczmy j ↪a przez −1

2cT (ϑ). Liczb ↪e cT (ϑ) nazywamy dok ladnym na-

chyleniem w sensie Bahadura testu opartego na statystyce Tn. Za-tem test ilorazu wiarogodnosci ma najwi ↪eksze mozliwe nachylenie wy-nosz ↪ace 2 infϑ0∈Θ0 D(pϑ||pϑ0). Efektywnosci ↪a Bahadura testu Tn wzgl ↪e-dem testu Tn nazywamy iloraz cT (ϑ)/cT (ϑ) dok ladnych nachylen wsensie Bahadura. Zatem test ilorazu wiarogodnosci jest optymalny wtym sensie, ze efektywnosc Bahadura dowolnego innego testu wzgl ↪edemniego nie przekracza 1. Istnienie granicy w (4.20) wi ↪aze si ↪e z twierdze-niem o wielkich odchyleniach dla statystyki Tn. Problematyce wiel-kich odchylen i efektywnosci Bahadura testow nieparametrycznychjest poswi ↪econa monografia Nikitina (1995). Z efektywnosci ↪a Baha-dura wi ↪az ↪a si ↪e inne poj ↪ecia efektywnosci np. efektywnosci Kallenberga(lub inaczej posredniej) (por. Inglot i Ledwina, 1996), ktor ↪a daje si ↪enajcz ↪esciej duzo latwiej wyznaczyc i ktora ma t ↪e sam ↪a interpretacj ↪ew j ↪ezyku ilorazu rozmiarow prob, przy ktorych (mowi ↪ac w uproszcze-niu) oba testy maj ↪a t ↪e sam ↪a moc asymptotyczn ↪a i ten sam poziomistotnosci. Blizsze omowienie tej problematyki przekracza ramy ni-niejszego opracowania.

51

Page 52: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

Clarke i Barron (1990) uogolnili lemat Steina w inny sposob. Niechw (4.19) Θ0 = {ϑ0} oraz Θ ⊂ Rk. Wowczas T ∗n = ln(fn/pnϑ0) jeststatystyk ↪a optymalnego testu bayesowskiego (prawostronnego), ktorydla kazdego ustalonego poziomu istotnosci α ∈ (0, 1) minimalizujesrednie prawdopodobienstwo b l ↪edu II rodzaju βn okreslone wzorem

βn =

∫Θ

βn(ϑ)w(ϑ)dϑ =

∫Θ

∫Xnpnϑ1(T ∗n > cnα)w(ϑ)dϑdλn.

Z wniosku 4.2 wynika nast ↪epuj ↪ace twierdzenie.

Twierdzenie 4.14 (Clarke i Barron, 1990). Przy za lozeniachtwierdzenia 4.3 asymptotyczna wartosc krytyczna testu bayesowskiegoT ∗n ma postac

−(ln 2)D(pnϑ0||fn) +1

2χk,1−α −

k

2,

gdzie χk,τ jest kwantylem rz ↪edu τ rozk ladu chi-kwadrat z k stopniamiswobody oraz

lim infn

(ln βn + (ln 2)D(pnϑ0||fn)) >1

2χk,(1−α)/2 −

k

2+ log

1− α2

lim supn

(ln βn + (ln 2)D(pnϑ0||fn)) 61

2χk,1−α.

W konsekwencji

1

nlog βn = − 1

nD(pnϑ0||fn) +O

(1

n

). (4.21)

Zatem relacj ↪e (4.21) mozna nazwac uogolnionym lematem Steina.

4.8. Informacyjne kryteria wyboru modelu. Dotychczas wnaszych rozwazaniach model statystyczny by l ustalony. W rzeczy-wistosci obserwowane zjawisko mozna opisac za pomoc ↪a wielu mo-deli. Jest oczywiste, ze im model jest bogatszy, tym lepiej, bardziejdok ladnie, pozwala przyblizyc prawdziwy rozk lad proby. Z drugiejstrony powi ↪ekszanie modelu skutkuje wi ↪ekszym b l ↪edem oszacowaniaparametru ϑ w tym modelu. Potrzebny jest wi ↪ec kompromis. To ro-dzi problem wyboru takiego modelu, z pewnej z gory ustalonej listykonkuruj ↪acych modeli, ktory, w jakims sensie, najlepiej odpowiadadanym tj. probie X. W czterech minionych dekadach zapropono-wano wiele kryteriow wyboru modelu m.in. kryterium informacyjneAkaike (1974) i kryterium informacyjne Schwarza (1978). Duz ↪a po-pularnosc zyska ly kryteria minimalnej d lugosci opisu (ang. minimal

52

Page 53: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

description length, w skrocie MDL). Idea konstrukcji tych kryteriowpochodzi od Rissanena (1978). Omowimy krotko trzy kryteria MDL.Pierwsze, zwane dwustopniowym MDL wprowadzi l Rissanen (1983).Niech Ps = {pnϑ : ϑ ∈ Θs ⊂ Rk(s)}, s ∈ S, b ↪edzie list ↪a modeli parame-trycznych. W pierwszym kroku dla kazdego s wybieramy

√n-zgodny

estymator ϑ i rozwazamy jego dyskretyzacj ↪e ϑ∗ z ziarnem rz ↪edu 1/

√n

oraz g ↪estosc a priori ws (wzgl ↪edem miary Lebesgue’a). Wtedy iloscinformacji (d lugosc optymalnego kodu binarnego) potrzebna do poda-

nia ϑ∗ wynosi H(ws) + k(s)2

log n z dok ladnosci ↪a do cz lonu o(1) (por. zinterpretacj ↪a entropii rozniczkowej w rozdziale 2.2). W drugim krokukodujemy zmienn ↪a o g ↪estosci pnϑ∗ . Ilosc informacji (d lugosc optymal-nego kodu binarnego) potrzebna do podania jej wartosci wynosi wprzyblizeniu − log pnϑ∗ . Jesli model jest ‘g ladki’, to t ↪e wartosc moznazast ↪apic przez − log pnϑ kosztem wyrazenia o(1). Sumuj ↪ac ilosci in-

formacji z obu krokow dostajemy L(s) = − log pnϑ + k(s)2

log n poopuszczeniu wyrazen rz ↪edu o(1). Dwustopniowe MDL Rissanena kazewybrac ten model z listy, dla ktorego L(s) jest minimalne. Latwowidac, ze z dok ladnosci ↪a do wyrazen rz ↪edu O(1) kryterium to spro-wadza si ↪e do regu ly BIC Schwarza (1978). Barron i Clarke (1990)zaproponowali stochastyczne kryterium informacyjne (ang. stochasticinformation criterion). Dla kazdego s rozwazamy g ↪estosc bezwarun-kow ↪a proby fn i optymalny kod binarny oparty na fn. Wybieranyjest wi ↪ec ten model z listy, dla ktorego wyrazenie − log fn jest mini-malne. Przy za lozeniach twierdzenia 4.3 mamy z (4.4) z dok ladnosci ↪ado wyrazenia O(1)

− log fn = − log pnϑ +k(s)

2log n,

co oznacza, ze asymptotycznie dwustopniowe MDL i stochastycznekryterium informacyjne s ↪a rownowazne. Rissanen (1986) zapropo-nowa l jeszcze jedno kryterium, szczegolnie uzyteczne dla szeregow cza-sowych. Poniewaz

− log pnϑ = −n∑i=1

log pϑ(xi|x1, ..., xi−1),

to, zast ↪epuj ↪ac w kolejnych sk ladnikach ϑ przez estymator ϑi opartyna obserwacjach do momentu i, wybierany jest model, dla ktoregowyrazenie

−n∑i=1

log pϑi(xi|x1, ..., xi−1)

53

Page 54: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

jest minimalne. To kryterium nazywa si ↪e predykcyjnym MDL. Han-sen i Yu (2001), w obszernym artykule przegl ↪adowym, przedstawilirozne koncepcje kryteriow wyboru modelu opartych na zasadzie mini-malnej d lugosci opisu, w tym trzy kryteria zasygnalizowane powyzej,oraz szereg przyk ladow ich zastosowan. Metodzie MDL poswi ↪econajest monografia Grunwalda (2007).

Podzi ↪ekowania: Dzi ↪ekuj ↪e Pani prof. T. Ledwinie za przeczytaniewst ↪epnej wersji artyku lu i wiele cennych wskazowek.

Literatura

[1] H. Akaike, A new look at the statistical model identification, IEEETrans. Autom. Control 19 (1974), 716–723.

[2] R. R. Bahadur, An optimal property of the likelihood ratio statistic,Proc. Fifth Berkeley Symp. Math. Statist. Probab. 1 (1967),13-26.

[3] O. Barndorff-Nielsen, Information and Exponential Families inStatistical Theory, New York: Wiley, 1978.

[4] A. R. Barron, The strong ergodic theorem for densities: generalizedShannon-McMillan-Breiman theorem, Ann. Probab. 13 (1985),1292–1303.

[5] A. R. Barron, Entropy and the central limit theorem, Ann. Probab.14 (1986), 336–342.

[6] A. R. Barron, C. Sheu, Approximation of density functions bysequences of exponential families, Ann. Statist. 19 (1991), 1347–1369.

[7] J. Bartoszewicz, Wyk lady ze statystyki matematycznej, Wydaw-nictwa Uniwersytetu Wroc lawskiego, Wroc law, 1981.

[8] N. Blachman, The convolution inequality for entropy powers, IEEETrans. Infrom. Theory 11 (1965), 267–271.

[9] S. G. Bobkov, G. P. Chistyakov, F. Gotze, Rate of convergence andEdgeworth-type expansion in the entropic central limit theorem,Ann. Probab. 41 (2013), 2479–2512.

54

Page 55: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

[10] L. Breiman, The individual ergodic theorems of information the-ory, Ann. Math. Statist. 28 (1957), 809–811.

[11] N. N. Chentsov, Statistical Decision Rules and Optimal Inference(w j. rosyjskim), Nauka, Moskwa, 1972.

[12] H. Chernoff, A measure of the asymptotic efficiency of tests of ahypothesis based on a sum of observations, Ann. Math. Statist.23 (1952), 493–507.

[13] A. J. Chintschin, D. K. Faddejew, A. N. Kolmogoroff, A. Renyi,J. Balatoni, Arbeiten zur Informationstheorie. I, MathematischeForschungsberichte, 4, VEB Deutscher Verlag der Wissenschaften,Berlin, 1957.

[14] B. S. Clarke, A. R. Barron, Information-theoretic asymptotics ofBayes methods, IEEE Trans. Infrom. Theory 36 (1990), 453–471.

[15] B. S. Clarke, A. R. Barron, Jeffreys’ prior is asymptotically leastfavorable under entropy risk, J. Statist. Planning Inference 41(1994), 37-60.

[16] T. M. Cover, J. A. Thomas, Elements of Information Theory 2nded., John Wiley, New York, 2006.

[17] I. Csiszar, Information-type measures of difference of probabilitydistributions and indirect observations, Studia Sci. Math. Hungar.2 (1967), 299–318.

[18] I. Csiszar, I-divergence geometry of probability distributions andminimization problems, Ann. Probab. 3 (1975), 146–158.

[19] I. Csiszar, F. Matus, Infromation projections revisited, IEEE Trans.Infrom. Theory 49 (2003), 1474–1490.

[20] A. Dembo, O. Zeitouni, Large deviations and applications, Chap-ter 6 in: Handbook of Stochastic Analysis and Applications, D.Kannan and V. Lakshmikanthan, eds., Marcel-Dekker, 2002.

[21] L. D ↪ebowski, Information Theory and Statistics, Institute ofComputer Science Polish Academy of Science, Warsaw, 2013.

[22] D. K. Faddeev, On the concept of entropy of a finite probabilisticscheme, Uspekhi Mat. Nauk 11 (1956), 227–231.

55

Page 56: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

[23] R. M. Gray, Entropy and Information Theory, Springer, NewYork, 1990.

[24] P. D. Grunwald, The Minimum Description Length Principle,MIT Press, 2007.

[25] M. H. Hansen, B. Yu, Model selection and principle of minimumdescription length, J. Amer. Math. Soc. 96 (2001), 746–774.

[26] D. Haussler, A general minimax result for relative entropy, IEEETrans. Inform. Theory 43 (1997), 1276–1280.

[27] D. A. Huffman, A method of the construction of minimum redun-dancy codes, Proc. IRE 40 (1952), 1098–1101.

[28] T. Inglot, T. Ledwina, Asymptotic optimality of data driven Ney-man’s tests for uniformity, Ann. Statist., 24 (1996), 1982-2019.

[29] H. Jeffreys, An invariant form for the prior probability in estima-tion problems, Proc. Royal Soc. London, Ser. A, Math. PhysicalSci. 186 (1946), 453–461.

[30] P. Jizba, T. Arimitsu, The world according to Renyi: thermody-namics of multifractal system, Ann. Physics 312 (2004), 17–59.

[31] O. Johnson, Information Theory and The Central Limit Theorem,London, U.K.: Imperial College Press, 2004.

[32] O. Johnson, A. R. Barron, Fisher information inequalities and thecentral limit theorem, Probab. Theory Relat. Fields 129 (2004),391–409.

[33] O. Johnson, Y. Suhov, Entropy and random vectors, J. Statist.Physics 104 (2001), 145–165.

[34] D. Kendall, Information theory and the limit theorem for MarkovChains and processes with a countable infinty of states, Ann. Inst.Statist. Math. 15 (1963), 137–143.

[35] L. G. Kraft, Advice for quantizing, grouping and coding ampli-tude modulated pulses, Master’s thesis, Department of ElectricalEngineering, MIT, Cambridge, MA, 1949.

[36] S. Kullback, Information Theory and Statistics, Wiley, New York,1959.

56

Page 57: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

[37] S. Kullback, A lower bound for discrimination information interms of variation, IEEE Trans. Inform. Theory 13 (1967), 126–127.

[38] E. L. Lehmann, G. Casella, Theory of Point Estimation, 2nd ed.New York: Springer, 1998.

[39] M. Madiman, A. R. Barron, Generalized entropy powr inequalitiesand monotonicity properties of information, IEEE Trans. Infrom.Theory 53 (2007), 2317–2329.

[40] B. McMillan, The basic theorems of information theory, Ann.Math. Statist. 24 (1953), 196–219.

[41] B. McMillan, Two inequalities implied by unique decipherability,IEEE Trans. Inform. Theory 2 (1956), 115–116.

[42] J. Neyman, Sur un teorema concernente le cosidette statistichesufficiente, Giorn. Ist. Ital. Att. 6 (1935), 320–334.

[43] Ya. Yu. Nikitin, Asymptotic Efficiency of Nonparametric Tests,Cambridge University Press, New York, 1995.

[44] S. Orey, On the Shannon-Peres-Moy theorem, Contemp. Math.41 (1985), 319–327.

[45] M. Raghavachari, On a theorem of Bahadur on the rate of theconvergence of test statistics, Ann. Math. Statist., 41 (1970),1695-1699.

[46] A. Renyi, On measures of entropy and information, in NeymanJ., editor, Proceedings of the 4th Berkeley Conference on Mathe-matical Statistics and Probability, 547–561, Berkeley, Universityof California Press, 1961.

[47] A. Renyi, Wahrscheinlichkeitsrechnung. Mit einem Anhang uberInformationstheorie, Hochschulbucher fur Mathematik, 54, VEBDeutscher Verlag der Wissenschaften, Berlin, 1962.

[48] A. Renyi, On some basic problems of statistics from the point ofview of information theory, In: Proceedings of the 5th BerkeleyConference on Mathematical Statistics and Probability, Vol. 1,531–543, Berkeley, University of California Press, 1967.

57

Page 58: Teoria informacji a statystyka matematycznaprac.im.pwr.wroc.pl/~inglot/TISM.pdfTadeusz Inglot (Wroc law) Teoria informacji a statystyka matematyczna Niniejszy artyku l jest rozszerzon

[49] J Rissanen, Modelling by shortest data description, Automatica,14 (1978), 465–471.

[50] J. Rissanen, A universal prior for integers and estimation by mi-nimum description length, Ann. Statist. 11 (1983), 416–431.

[51] J. Rissanen, Stochastic complexity and modelling, Ann. Statist.14 (1986), 1080–1100.

[52] O. Rioul, Information theoretic proofs of entropy power inequali-ties, IEEE Trans. Infrom. Theory 57 (2011), 33–55.

[53] I. N. Sanov, On the probability of large deviations of random va-riables, Mat. Sbornik 42 (1957), 11–44.

[54] G. Schwarz, Estimating the dimension of a model, Ann. Statist.6 (1978), 461–464.

[55] C. Shannon, A mathematical theory of communication, Bell Sys-tem Tech. J. 27 (1948), 379–423, 623–656.

[56] R. Shimizu, On Fisher’s ammount of information for locationfamily, In G. P. Patil et al., editor, Statistical Distributions inScientific Work, Vol. 3, 305–312, Reidel, 1975.

[57] A. Stam, Some inequalities satisfied by the quantities of informa-tion of Fisher and Shannon, Information and Control 2 (1959),101–112.

[58] C. Tsallis, Possible generalization of Boltzmann-Gibbs statistics,J. Statist. Physics 52 (1988), 479–487.

[59] A. W. van der Vaart, Asymptotic Statistics, Cambridge UniversityPress, 1998.

[60] Y. Yang, A. R. Barron, Information-theoretic determination ofminimum rates of convergence, Ann. Statist. 27 (1999), 1564–1599.

Tadeusz InglotInstytut Matematyki i InformatykiPolitechniki Wroc lawskiejWybrzeze Wyspianskiego 2750-370 Wroc lawE-mail: [email protected]

58