XLIII Konferencja Statystyka Matematyczna · Estymacja i testowanie hipotez w wielowymiarowych modelach normalnych (str. 71) 15:40–16:00 Mariusz Grządziel O nieujemnej, minimalnie

XLIII Konferencja

StatystykaMatematyczna

Będlewo

4 – 8 Grudnia, 2017

OrganizatorzyMiędzynarodowe Centrum Matematyczne im. Stefana BanachaInstytut Matematyczny PANKomisja Statystyki Matematycznej Komitetu Matematyki PANInstytut Podstaw Informatyki PANWydział Matematyki i Nauk Informacyjnych PW

SponsorzyMiędzynarodowe Centrum Matematyczne im. Stefana BanachaPolska Akademia Nauk

Komitet Naukowyprof. Teresa Ledwina, IM PANprof. Jacek Koronacki, IPI PANprof. Przemysław Grzegorzewski, IBS PAN/MINI PW

Komitet Organizacyjnyprof. Jan Mielniczuk, IPI PAN/MINI PW- przewodniczącydr Paweł Teisseyre, IPI PANmgr Mariusz Kubkowski, MINI PWmgr Norbert Ryciak, MINI PW/IPI PANmgr Waldemar Słonina, IPI PAN

Redaktormgr Norbert Ryciak

2

Spis treści

1 Program konferencji 4

2 Zaproszeni wykładowcy 10

3 Streszczenia 16

4 Lista uczestników 73

3

Program konferencji

4

Poniedziałek, 4 Grudnia8:00 Śniadanie

9:00–9:45 Łukasz DębowskiPraktyczne i teoretyczne problemy statystycznego modelowania języka natu-ralnego, część I (str. 13)

9:45–10:00 Przerwa

10:00–10:20 Tadeusz InglotAdaptacyjne testy zgodności z rodziną rozkładów Poissona (str. 29)

10:20–10:40 Ewa Strzałkowska-KominiakTest dopasowania rozkładu dla danych cenzurowanych bazujący na współ-czynniku maksymalnej korelacji (str. 58)

10:40–11:00 Grzegorz WyłupekAdaptacyjny test permutacyjny w problemie k-prób dla danych cenzurowa-nych (str. 67)

11:00–11:30 Przerwa kawowa

11:30–11:50 Bogdan ĆmielAdaptacyjna estymacja falkowa funkcji gęstości na sferze (str. 22)

11:50–12:10 Przemysław GrzegorzewskiTesty zgodności dla danych przedziałowych (str. 28)

12:10–12:30 Paweł TeisseyreSelekcja zmiennych uwzględniająca koszty w klasyfikacji wieloetykietowej(str. 63)

12:30–12:50 Łukasz SmagaDiagonalne testy typu Walda w ogólnym modelu czynnikowym (str. 56)

13:00 Obiad

15:00–15:45 Tadeusz BednarskiHugo Dionizy Steinhaus - Droga do współczesnej teorii prawdopodobieństwa(str. 18)


16:20–16:40 Magdalena SzymkowiakZastosowanie funkcji intensywności starzenia (str. 62)

16:40–17:00 Maria SzpakOptymalne oszacowania całkowitego czasu trwania testu dla rozkładów zrosnącą uogólnioną intensywnością awarii (str. 60)

17:00–17:20 Jakub WojdyłaPraktyczne aspekty konstrukcji pasów ufności w problemie Spektora-Lorda-Willisa (str. 66)

17:20–17:40 Agnieszka SiedlaczekNieparametryczna estymacja kwantyli (str. 53)

18:00 Kolacja

5

Wtorek, 5 Grudnia8:00 Śniadanie

9:00–9:45 Łukasz DębowskiPraktyczne i teoretyczne problemy statystycznego modelowania języka natu-ralnego, część II (str. 13)

9:45–10:00 Przerwa

10:00–10:20 Szymon MajewskiUnadjusted Langevin Monte Carlo jako optymalizacja wypukła (str. 36)

10:20–10:40 Mateusz WilkPlany optymalne dla predykcji w modelach RCR z błędami heteroskedastycz-nymi (str. 64)

10:40–11:00 Adam MieldziocAproksymacja macierzy kowariancji za pomocą wstęgowych macierzy To-eplitza (str. 40)


11:30–11:50 Krzysztof RudaśEstymacja współczynnika wpływu w modelowaniu przyczynowości (str. 50)

11:50–12:10 Norbert RyciakAnaliza wydźwięku z wykorzystaniem sieci neuronowych i drzewiastej re-prezentacji zdań (str. 52)

12:10–12:30 Agnieszka PiliszekRegresyjna charakteryzacja rozkładów Gamma i Kummera (str. 47)

12:30–12:50 Mariusz KubkowskiSelekcja zmiennych w źle wyspecyfikowanym modelu binarnym (str. 34)

13:00 Obiad

15:00–15:45 Łukasz DębowskiPraktyczne i teoretyczne problemy statystycznego modelowania języka natu-ralnego, część III (str. 13)


16:20–16:40 Tomasz GóreckiWybór zmiennych w klasyfikacji dla wielowymiarowych danych funkcjonal-nych (str. 32)

16:40–17:00 Maria SkupieńMetody funkcjonalnej analizy danych w detekcji uszkodzeń maszyn przemy-słowych (str. 55)

17:00–17:20 Anna DudekMetody bootstrapu blokowego dla okresowych szeregów czasowych (str. 23)

17:20–17:40 Monika MokrzyckaAproksymacja macierzy kowariancji iloczynem Kroneckera z wykorzysta-niem entropijnej funkcji straty (str. 43)

18:00 Kolacja

19:00 Posiedzenie komisji

Środa, 6 Grudnia8:00 Śniadanie

9:00–14:00 Wycieczka

14:00 Obiad

15:00–15:45 Małgorzata BogdanWybrane zagadnienia analizy ”szerokich” zbiorów danych, część I (str. 11)


16:20–16:40 Wojciech RejchelSelekcja cech w oparciu o kryterium GIC z karą LASSO w modelach wyso-kowymiarowych (str. 49)

16:40–17:00 Konrad FurmańczykSelekcja zmiennych w wysokowymiarowym modelu liniowym za pomocą me-tody Lasso i procedur testowania wielu hipotez (str. 25)

17:00–17:20 Agnieszka SołtysDMRnet - pakiet środowiska R do wybierania zmiennych ciągłych i łączeniapoziomów dla zmiennych jakościowych (str. 57)

17:20–17:40 Piotr PokarowskiPoprawianie Lasso dla wyboru modelu i predykcji (str. 48)

18:30 Uroczysta kolacja

Czwartek, 7 Grudnia8:00 Śniadanie

9:00–9:45 Małgorzata BogdanWybrane zagadnienia analizy ”szerokich” zbiorów danych, część II (str. 11)

9:45–10:00 Przerwa

10:00–10:20 Błażej MiasojedowZbieżność algorytmów stochastycznej aproksymacji dla funkcji niegładkichi niewypukłych (str. 37)

10:20–10:40 Wojciech NiemiroAlgorytmy pMCMC z repróbkowaniem poissonowskim (str. 44)

10:40–11:00 Agnieszka KulawikDobór stałej ucinającej dla funkcji Hubera wykorzystywanej w odpornej es-tymacji parametrów (str. 35)


11:30–11:50 Tomasz RychlikNierówności dla mieszanek uporzadkowanych zmiennych losowych (str. 51)

11:50–12:10 Agnieszka GoroncyOszacowania wartości oczekiwanych k-tych rekordów z rozkładów o rosnącejuogólnionej intensywności awarii (str. 26)

12:10–12:30 Mariusz BieniekCharakteryzacje rozkładów dyskretnych przez pojedynczą regresję wartości(str. 19)

13:00 Obiad

15:00–15:20 Katarzyna FilipiakZastosowania rzutu macierzy na zbiór macierzy o zadanej strukturze w mo-delach wielowymiarowych (str. 24)

15:20–15:40 Roman ZmyślonyEstymacja i testowanie hipotez w wielowymiarowych modelach normalnych(str. 71)

15:40–16:00 Mariusz GrządzielO nieujemnej, minimalnie obciążonej estymacji kwadratowej w modelu re-gresji liniowej (str. 27)


16:30–16:50 Joanna Karłowska-PikZastosowanie metod eksploracji danych do predykcji morfologii włosów ikoloru oczu na podstawie materiału genetycznego (str. 31)

16:50–17:10 Karol R. OparaOptymalne planowanie pomiarów ruchu z wykorzystaniem programowaniacałkowitoliczbowego (str. 45)

17:10–17:30 Jacek BojarskiStochastyczna metoda redukcji obciążeń szczytowych w systemie elektroener-getycznym (str. 20)

18:00 Kolacja

Piątek, 8 Grudnia8:00 Śniadanie

8:45–9:30 Małgorzata BogdanWybrane zagadnienia analizy ”szerokich” zbiorów danych, część III (str. 11)

9:30–9:45 Przerwa

9:45–10:05 Magdalena Alama-BućkoObszary ufności dla parametrów położenia i skali z rozkładów Gumbela iBurra oparte na k-tych rekordach (str. 17)

10:05–10:25 Krzysztof JasińskiRekurencyjne zależności pomiędzy momentami k-tych rekordów z populacjidyskretnych (str. 30)

10:25–10:45 Piotr SulewskiBadanie wpływu sposobu wyznaczania dystrybuanty doświadczalnej na moctestu Kołmogorowa-Smirnowa (str. 59)


11:15–11:35 Andrzej MichalskiBadanie efektywności estymatorów jądrowych (str. 38)

11:35–11:55 Aleksander ZaigrajewO prawdopodobieństwach inwersji większości w systemach z dwuetapowymgłosowaniem (str. 69)

11:55–12:15 Jan MielniczukO pomiarze siły interakcji (str. 41)

12:30 Obiad

9

Zaproszeni wykładowcy

10

Małgorzata Bogdan uzyskała dyplom magistra z matematyki (1992)i doktora nauk matematycznych (1996, specjalność statystyka matema-tyczna) na Politechnice Wrocławskiej i habilitację z nauk technicznych(2009, specjalność informatyka) w Instytucie Podstaw Informatyki Pol-skiej Akademii Nauk. Pracuje jako profesor nadzwyczajny w InstytucieMatematyki Uniwersytetu Wrocławskiego. W roku 2000 przebywala nastypendium post-doktoranckim Fundacji Nauki Polskiej na UniwersytecieStanu Waszyngton, a w latach 2012/2013 na stypendium Fulbrighta naUniwersytecie Stanforda. Pracowała jako profesor wizytujacy na Uniwer-sytecie Stanu Waszyngton, Uniwersytecie Purdue i Uniwersytecie Stan-forda w USA, Uniwersytecie Wiedenskim w Austrii i Uniwersytecie An-gers we Francji. W latach 2007 i 2008 otrzymala “Women for Math ScienceAward“ od Instytutu Matematyki Politechniki w Monachium. Jest prze-wodniczacą Komisji Zastosowań Matematyki przy Komitecie MatematykiPAN i członkiem Komitetów Edytorskich “Statistics“ i “Scandinavian Jo-urnal of Statistics“. Głównym obszarem jej zainteresowań naukowych jestredukcja wymiaru w dużych zbiorach danych i zastosowania do analizydanych genetycznych.

11

Wybrane zagadnienia analizy”szerokich” zbiorów danych

Małgorzata BogdanUniwersytet Wrocławski

Przez ”szeroki” zbiór danych rozumiemy zbiór, w którym liczba zmien-nych jest wieksza od liczby obserwacji. Analiza takich zbiorów zwyklepolega na identyfikacji nisko-wymiaro-wego modelu, który dobrze opisujeproces generujący dane. W trakcie wykładów omówimy kilka podstawo-wych zagadnień zwiazanych z redukcja wymiaru - wielokrotne testowa-nie, identyfikacje istotnych zmiennych w modelach liniowych, identyfikacjestruktury gaussowskiego modelu graficznego, analize składowych głów-nych i analize skupień w podprzestrzeniach. Omówimy klasyczne i nowemetody podejścia do tych zagadnień, które zilustrujemy wynikami teore-tycznymi i wynikami symulacji komputerowych.

12

Łukasz Dębowski otrzymał stopień magistra fizyki teoretycznej na Uni-wersytecie Warszawskim w 1994, stopień doktora nauk matematycznychw zakresie informatyki w Polskiej Akademii Nauk w 2005 oraz stopieńdoktora habilitowanego nauk matematycznych w zakresie informatyki wPolskiej Akademii Nauk w 2015. Odbył wizyty badawcze w Instytucie Lin-gwistyki Formalnej i Stosowanej na Uniwersytecie Karola w 2001, w SantaFe Institute w 2002 oraz w School of Computer Science and Engineeringna Uniwersytecie Nowej Południowej Walii w 2006. Ponadto odbył stażpodoktorski w Centrum Wiskunde & Informatica od 2008 do 2009 i byłprofesorem wizytującym w Department of Advanced Information Tech-nology na Uniwersytecie Kyushu w 2015. Obecnie zatrudniony jest jakoprofesor nadzwyczajny w Instytucie Podstaw Informatyki Polskiej Akade-mii Nauk. Jego zainteresowania naukowe obejmują teorię informacji orazstatystyczne modelowanie języka naturalnego.

13

Praktyczne i teoretyczne problemystatystycznego modelowania

języka naturalnego

Łukasz DębowskiInstytut Podstaw Informatyki PAN

Statystyczne modelowanie języka to problem przypisania określonejwartości prawdopodobieństwa dowolnie długim wypowiedziom w językunaturalnym (np. angielskim lub polskim). Problem ten znajduje prak-tyczne zastosowania między innymi w automatycznym rozpoznawaniu mowy,klawiaturach predykcyjnych telefonów komórkowych i maszynowym tłu-maczeniu. Wyzwaniem dla tych zastosowań jest sformułowanie głębszejteorii matematycznej oraz poprawa skuteczności stosowanych heurystyk.W trzycześciowym wykładzie opowiem o historii problemu i inżynierskichpodejściach do jego rozwiązywania oraz o próbach identyfikacji niektó-rych własności języka naturalnego jako procesu stochastycznego i inspi-rowanych tymi próbami dwóch problemach matematycznych. Pierwszymz problemów matematycznych jest powiązanie logarytmiczno-potęgowegotempa wzrostu maksymalnego powtórzenia w tekście z potęgowym tem-pem wzrostu entropii bloku liter. Drugim z problemów matematycznychjest powiązanie potęgowego wzrostu liczby różnych słów w tekście z wła-snością mocnej nieergoodyczności procesu stochastycznego generującegotekst i potęgowym wzrostem liczby niezależnych faktów opisywanych wtekście.

Literatura[1] F. Jelinek, 1997, Statistical Methods for Speech Recognition, The MITPress.

[2] C. D. Manning, H. Schutze, 1999, Foundations of Statistical NaturalLanguage Processing, The MIT Press.

[3] R. Kohler, G. Altmann, R. G. Piotrowski, 2005, Quantitative Lingu-istik. Ein internationales Handbuch / Quantitative Linguistics. An Inter-national Handbook, Walter de Gruyter.

14

[4] Ł. Dębowski, 2016, Maximal Repetition and Zero Entropy Rate, URL:http://arxiv.org/abs/1609.04683

[5] Ł. Dębowski, 2017, Is Natural Language Strongly Nonergodic? A Stron-ger Theorem about Facts and Words, URL: http://arxiv.org/abs/1706.04432

15

Streszczenia

16

Obszary ufności dla parametrówpołożenia i skali z rozkładów Gumbela i Burra

oparte na k-tych rekordach.

Magdalena Alama-Bućko1 iAleksander Zaigrajew2

1 Instytut Matematyki i Fizyki, UniwersytetTechnologiczno-Przyrodniczy, Bydgoszcz

2 Wydział Matematyki i Informatyki,Uniwersytet Mikołaja Kopernika, Toruń

Niech x = (x1, . . . , xn) będzie próbą z rozkładu Pθ, θ = (θ1, θ2), gdzieθ1 ∈ R jest parametrem położenia, θ2 > 0 parametrem skali. W pracy[2] została zaprezentowana konstrukcja obszaru ufności dla wektora pa-rametrów θ oparta na kombinacji liniowej dwóch statystyk pozycyjnych.Teraz rozważamy sytuację, gdy zamiast kombinacji dwóch statystyk po-zycyjnych stosujemy kombinację dwóch statystyk rekordowych rzędu k.Powyższą metodę stosujemy do estymacji parametrów z rozkładów Gum-bela i Burra.

Literatura[1] I. Malinowska, P. Pawlas, D. Szynal (2005), Estimation of the para-meters of Gumbel and Burr distributions in terms of k-th record values,Appl. Math. 32, 375–393.

[2] A. Zaigraev, M. Alama-Bućko (2013), On optimal choice of orderstatistics in large samples for the construction of confidence regions forthe location and scale, Metrika. Vol. 76, pp. 577-593.

17

Hugo Dionizy Steinhaus - Droga dowspółczesnej teorii prawdopodobieństwa

Tadeusz BednarskiUniwersytet Wrocławski

Rozwój teorii prawdopodobieństwa, zapoczątkowany przez GerolamoCardano i wiązany z pośmiertną publikacją jego dzieła „Book on Gamesof Chance” jest nieustanną, trwającą niemal 400 lat interakcją pomię-dzy matematycznymi wynikami teorii i rosnącym oczekiwaniem z obszarufizyki, biologii i ekonomii. To także trwające niemal stulecie próby ujed-nolicenia opisu prawdopodobieństw: klasycznego, geometrycznego i tzw.przeliczalnego, zakończone w roku 1933 słynną pracą Kołmogorowa.

Głównym celem wykładu jest analiza udziału H. Steinhausa w tymintrygującym procesie, określenie jego punktu widzenia co do idei aksjo-matyzacji, a także wskazanie istotnej roli innych polskich matematykóww rozwoju teorii prawdopodobieństwa.

Literatura[1] E. Borel, Les probabilites denombrables et leurs applications arithmetiques,M. Rend. Circ. Matem. Palermo, 1909.

[2] H. Steinhaus, Les probabilites denombrables et leur rapport ? la theoriede la mesure, Fund. Math. 4 286–310, 1923.

[3] A. Kolmogorov, Grundbegriffe der Wahrscheinlichkeitsrechnung, Sprin-ger, Berlin, 1933

[4] J. von Plato, Creating Modern Probability. Its Mathematics, Physicsand Philosophy in Historical Perspective, Cambridge Univ. Press, 1994

[5] G. Shafer G. and V. Vovk, The Sources of Kolmogorov’s Grundbegriffe,Statistical Science. Vol. 21, 2006.

18

Charakteryzacje rozkładów dyskretnychprzez pojedynczą regresję wartości

rekordowych

Mariusz BieniekInstytut Matematyki UMCS, Lublin

Jednym z podstawowych problemów statystyki jest wyznaczenie nie-znanego rozkładu prawdopodobieństwa pewnej wielkości losowej na pod-stawie danych jej obserwacji. Dla danego ciągu obserwacji pewnej wielko-ści losowej obserwacja jest nazywana wartością rekordową, jeżeli jest onawiększa niż wszystkie poprzednie obserwacje. Dla rozkładów dyskretnychma również sens rozważanie słabych wartości rekordowych, czyli obser-wacji, które są większe lub równe niż wszystkie poprzednie obserwacje. Wreferacie zostanie omówione nowe podejście do problemu identyfikacji dys-kretnych rozkładów prawdopodobieństwa przy użyciu tylko jednej funkcjiregresji wartości rekordowych. Korzystając z ich własności Markowa poka-żemy, że pojedyncza funkcja regresji (słabych) rekordów wyznacza pewienrozkład dyskretny jednoznacznie wtedy i tylko wtedy, gdy odpowiednierównanie różnicowe (lub układ równań różnicowych) ma dokładnie jednorozwiązanie. Otrzymany rezultat zostanie zastosowany do wyprowadzeniaznanych oraz nowych charakteryzacji rozkładów dyskretnych.

19

Stochastyczna metoda redukcji obciążeńszczytowych w systemie elektroenergetycznym

Grzegorz Benysek, Jacek Bojarski, MarcinJarnut, Robert Smoleński, Szymon Wermiński

Wydział Matematyki, Informatyki i EkonometriiInstytut Inżynierii Elektrycznej

Uniwersytet Zielonogórski

W referacie przedstawione będą wyniki badań zespołowych nad wy-korzystaniem systemu rozproszonej automatyki Decentralized Active De-mand Response (DADR) do redukcji szczytów w krzywej dziennego obcią-żenia polskiego systemu elektroenergetycznego. Zagadnienie to jest szcze-gólnie ważne z punktu widzenia podnoszenia efektywności pracy systemu,ale również jego niezawodności, z tego też względu dąży się do reduk-cji mocy o 1 GW w okresie szczytowym co stanowi około 4% wartościmocy szczytowej. Spośród znanych metod obniżania obciążeń szczytowychmożna wymienić m.in. rozwiązania taryfowe, jednak nie zawsze przynosząone pożądany skutek.

Opracowany algorytm stochastyczny redukuje szczytowe zużycie ener-gii bez negatywnego oddziaływania na system elektroenergetyczny (niewystępują skoki i oscylacje mocy).

Literatura[1] G. Benysek, J. Bojarski, M. Jarnut, and R. Smoleński, Decentralizedactive demand response (DADR) system for improvement of frequencystability in distribution network, Electric Power Systems Research Vol.134 (2016), 80–87.

[2] G. Benysek, J. Bojarski, R. Smoleński, M. Jarnut, and S. Wermiński,Application of stochastic decentralized active demand response (DADR)system for load frequency control, IEEE Transactions on Smart Grid Vol.PP (2016), no. 99, 1–10.

20

[3] S. Wermiński, M. Jarnut, G. Benysek, and J. Bojarski, Demand sidemanagement using DADR automation in the peak load reduction, Rene-wable and Sustainable Energy Reviews Vol. 67 (2017), 998–1007.

21

Adaptacyjna estymacja falkowafunkcji gęstości na sferze

Bogdan Ćmiel, Natalia Jarzębkowska,Karol Dziedziul

AGH Kraków, PG Gdańsk

Przedstawimy adaptacyjny estymator funkcji gęstości na d -wymiarowejsferze jednostkowej Sd (d 2), używając odpowiednio skonstruowanejkraty falkowej. Kratę tą otrzymujemy przez przekształcenie systemu fal-kowego na Rd przez odpowiednie operatory stereograficzne. Dowodzimy,że nasz estymator osiąga optymalne tempo zbieżności na pewnych klasachfunkcji typu Biesowa poprzez adaptację do nieznanego parametru gład-kości. Prezentujemy również metodę implementacji estymatora oraz jegodziałanie w eksperymencie numerycznym.

Literatura[1] P. Auscher, G. Weiss, M. V. Wickerhauser, Local sine and cosine basesof Coifman and Meyer and the construction of smooth wavelets, WaveletAnal. Appl., 2, Academic Press, Boston, MA, 1992

[2] M. Bownik, K. Dziedziul, Smooth Orthogonal Projections on Sphere,Constructive Approximation vol. 41 (1), 23-48, 2015

[3] F. Dai, Characterizations of function spaces on the sphere using frames,Transactions of the American Mathematical Society, vol. 359 (2), 567-589,2007

[4] F. Dai, Y. Xu, Approximation theory and harmonic analysis on spheresand balls, Springer-Verlag, New York, 2013

[5] P. I. Lizorkin, and Kh. P. Rustamov, Nikol’skij-Besov spaces on thesphere in connection with approximation theory, Trudy MatematicheskogoInstituta im. VA Steklova, vol. 204, 172-200, 1993

[6] F. Narcowich, P. Petrushev, J. Ward, Decomposition of Besov andTriebel-Lizorkin spaces on the sphere, Journal of Functional Analysis, vol.238 (2), 530-564, 2006

22

Metody bootstrapu blokowego dlaokresowych szeregów czasowych

Anna DudekAkademia Górniczo-Hutnicza

Omówione zostaną dwie metody bootstrapu blokowego, które mogą byćstosowane w analizie okresowych szeregów czasowych. Są to: UogólnionaMetoda Bootstrapu Bloków Sezonowych (Generalized Seasonal Block Bo-otstrap (GSBB)) oraz Rozszerzona Metoda Bloków Ruchomych (Exten-sion of Moving Block Bootstrap (EMBB)). Główną zaletą techniki GSBBjest fakt, iż zachowuje ona strukturę okresową zawartą w danych. Wrezultacie stosunkowo łatwo można otrzymać zgodne estymatory wielucharakterystyk z dziedziny czasu oraz z dziedziny częstotliwości szeregówokresowych. Jednakże, aby móc użyć GSBB, trzeba znać długość okresu.Jeśli wielkość ta nie jest znana lub rozważany sygnał powstał jako po-łączenie dwóch komponent okresowych o niewspółmiernych długościachokresu, analiza danych może być prowadzona przy wykorzystaniu metodyEMBB. Podczas prezentacji omówione zostaną wady i zalety obu technikoraz przedstawione zostaną wyniki dotyczące ich zgodności dla podstawo-wych charakterystyk szeregów okresowo skorelowanych.

Literatura[1] A.E. Dudek, J. Leśkow, E. Paparoditis, D. Politis (2014), A generalizedblock bootstrap for seasonal time series, J. Time Ser. Anal., 35, 89-114.

[2] A.E. Dudek (2018), Block bootstrap for periodic characteristics ofperiodically correlated time series, Journal of Nonparametric Statistics -w druku

23

Zastosowania rzutu macierzy na zbiórmacierzy o zadanej strukturzew modelach wielowymiarowych

Katarzyna FilipiakInstytut Matematyki, Politechnika Poznańska

Filipiak i Klein (2017) scharakteryzowali najlepsze przybliżenie (w sen-sie normy Frobeniusa) dowolnej macierzy iloczynem Kroneckera dwóchmacierzy, przy czym jeden z czynników iloczynu ma strukturę kompletnejsymetrii lub procesu autoregresji I-go rzędu. Celem referatu jest przedsta-wienie zastosowań wyznaczonej aproksymacji w teorii wielopoziomowychmodeli wielowymiarowych. Pokażemy, że najlepsze przybliżenie w sensienormy Frobeniusa może służyć do regularyzacji macierzy kowariancji, doestymacji nieznanej macierzy kowariancji (nawet w przypadku danych wy-sokopoziomowych, w których wielkość próby jest mniejsza od liczby ba-danych cech), jak również jako miara odległości między hipotezami w za-gadnieniu testowania hipotez o strukturze kowariancyjnej.

Referat jest częściowo dofinansowany z działalności statutowejnr 04/43/DSPB/0088.

Literatura[1] K. Filipiak and D. Klein (2017), Approximation with a Kronecker pro-duct structure with one component as compound symmetry or autoregres-sion, Submitted

24

Selekcja zmiennych w wysokowymiarowymmodelu liniowym za pomocą metody Lasso i

procedur testowania wielu hipotez

Konrad FurmańczykWydział Zastosowań Informatyki i Matematyki SGGW

W referacie zostanie przedstawiona dwustopniowa procedura selekcjizmiennych w wysokowymiarowym modelu liniowym gdy liczba predykto-rów p znacznie przewyższa liczbę obserwacji n. W pierwszym kroku wyko-nana zostanie procedura LASSO, a w drugim kroku procedura stepdowntestowania wielu hipotez. Podamy wynik teoretyczny dotyczący oszaco-wania prawdopodobieństwa prawidłowego wyboru modelu oraz wyniki sy-mulacyjne.

Literatura[1] K. Furmańczyk, On some stepdown procedures with application to con-sistent variable selection in linear regression, Statistics, (2015),49, 614-628

[2] K. Furmańczyk and W. Rejchel, Stepdown procedures with the Lassofor high dimensional linear model selection, preprint, (2017)

25

Oszacowania wartości oczekiwanych k-tychrekordów z rozkładów o rosnącejuogólnionej intensywności awarii

Agnieszka GoroncyWydział Matematyki i Informatyki,

Uniwersytet Mikołaja Kopernika w Toruniu

Praca dotyczy górnych oszacowań wartości oczekiwanych k-tych warto-ści rekordowych centrowanych względem średniej z populacji. Rozważanyjest przypadek, gdy rekordy pochodzą z klasy rozkładów o rosnącej uogól-nionej intensywności awarii, które definiuje się za pomocą porządków wy-pukłych dystrybuant. Szczególnie ważnymi przykładami takich rozkładówsą rozkłady o rosnącej gęstości (ang. increasing density, ID) oraz rosnącejintensywności awarii (increasing failure rate, IFR). Prezentowane oszaco-wania uzyskane zostały metodą rzutowania, wyrażone są w jednostkachskali opartych na odchyleniu standardowym rozkładu wyjściowego.

Literatura[1] M. Bieniek, (2007), Projection mean-variance bounds on expectationsof kth record values from restricted families, Commun. Statist. — Theor.Meth., 36, 679–692.

[2] A. Goroncy, Optimal upper bounds on expected kth record values fromIGFR distributions, w przygotowaniu.

[3] A. Goroncy, T. Rychlik (2015), Optimal bounds on expectations of or-der statistics and spacings from nonparametric families of distributionsgenerated by convex transform order, Metrika, 78, 175–204.

26

O nieujemnej, minimalnie obciążonej estymacjikwadratowej w modelu regresji liniowej

Mariusz GrządzielUniwersytet Przyrodniczy we Wrocławiu

Rozważany jest problem nieujemnej estymacji funkcji parametrycznejγ(β, σ) = β′Hβ + hσ2 w modelu regresji liniowej My,Xβ, V (σ) = σ2I,gdzie H jest nieujemnie określoną macierzą i h 0. W pracy Gnota i in. [1]zaproponowano podejście, w którym γ jest estymowana przy użyciu formykwadratowej y′Ay, gdzie A jest macierzą nieujemnie określoną spełniającąpewne kryteria optymalności.

Obliczanie macierzy A może stanowić wyzwanie. Podczas referatu zo-staną porównane różne podejścia do zagadnienia wyznaczania tej macierzyrozważane w pracy [2].

Literatura[1] S. Gnot, G. Trenkler i R. Zmyślony, Nonnegative minimum biased qu-adratic estimation in the linear regression models, J. Multivariate Analysis54 (1995), 113–125

[2] M. Grządziel, On nonnegative minimum biased quadratic estimationin the linear regression models, Praca zgłoszona do druku

27

Testy zgodności dla danych przedziałowych

Przemysław GrzegorzewskiWydział Matematyki i Nauk Informacyjnych

Politechniki Warszawskiej,Instytut Badań Systemowych Polskiej Akademii Nauk

Testy zgodności należą do podstawowych narzędzi wnioskowania sta-tystycznego i analizy danych. Terminem tym obejmuje się zarówno proce-dury służące do badania zgodności rozkładu próbki z pewnym rozkłademhipotetycznym, jak i do oceny, czy rozkłady dwóch (lub większej liczby)próbek różnią się istotnie.

W ostatnim czasie dużym zainteresowaniem cieszą się metody wnio-skowania na podstawie danych przedziałowych. Za pomocą przedziałówmożna bowiem w stosunkowo prosty sposób modelować brak precyzji, nie-pewność wynikającą z braku informacji, fluktuacje mierzonej wielkości itp.

W referacie zostaną zaprezentowane metody uogólniania klasycznychtestów zgodności dla pojedynczej próbki i dla dwóch próbek na przypadekdanych przedziałowych, z uwzględnieniem dwóch perspektyw postrzeganiatakich danych: epistemicznej i ontycznej (por. [1,2,3]).

Literatura[1] I. Couso, D. Dubois, Statistical reasoning with set-valued information:Ontic vs. epistemic views, International Journal of Approximate Reaso-ning 55 (2014), 1502–1518.

[2] P. Grzegorzewski, Testing goodness-of-fit with interval-valued data, w:Proceedings of the 3rd International Symposium on Fuzzy Sets - Uncer-tainty Modelling ISFS 2017, U. Bentkowska i poz. (red.), Rzeszów 2017,s. 9-15.

[3] P. Grzegorzewski, The Kolmogorov goodness-of-fit test for interval-valued data, w: 2017 IEEE International Conference on Fuzzy Systems(FUZZ-IEEE 2017).

28

Adaptacyjne testy zgodności zrodzina rozkładów Poissona

Tadeusz InglotWydział Matematyki Politechniki Wrocławskiej

W 1997 roku we wspólnej pracy z W. Kallenbergiem i T. Ledwinazaproponowaliśmy ogólna konstrukcje adaptacyjnych testów zgodności zrodzina parametryczna rozkładów ciagłych na prostej. Okazuje sie, że takonstrukcja daje sie zastosować także do rodzin rozkładów dyskretnych.Troche nieoczekiwanie, w przypadku rodziny rozkładów Poissona, dla któ-rej znanych jest kilka bardzo dobrych testów (np. Klar, 1999), otrzymu-jemy równie dobre testy i do tego czułe nie tylko na ‘typowe’ ale i ‘nie-typowe’ odstepstwa od tej rodziny. Potwierdza to znana własność asymp-totycznej optymalności adaptacyjnych testów wynikowych dla szerokiegospektrum alternatyw. W referacie przedstawimy zarówno konstrukcje jaki własności empiryczne nowych testów.

Literatura[1] T. Inglot, W. C. M. Kallenberg, T. Ledwina, Data driven smooth testsfor composite hypotheses, The Annals of Statistics

[2] B. Klar, Goodness-of-fit tests for discrete models based on the integrateddistribution function, Metrica

29

Rekurencyjne zależności pomiędzy momentamik-tych rekordów z populacji dyskretnych

Krzysztof JasińskiWydział Matematyki i Informatyki,


Stosunkowo niedawno, bo w 2005 roku okazało się, że funkcjonującew literaturze definicje k-tych rekordów, uznawane za równoważne, w rze-czywistości takie nie są właśnie w przypadku dyskretnym. Stąd pojawiłasię konieczność uporządkowania terminologii poprzez wprowadzenie trzechnierównoważnych definicji: mocnych k-tych rekordów, k-tych rekordów,słabych k-tych rekordów. Naszym celem będzie uzyskanie rekurencyjnychzależności pomiędzy momentami k-tych rekordów z populacji dyskretnychw przypadku każdej z wymienionych wyżej grup. Uprościmy otrzymanewyniki w sytuacji, gdy obserwacje mają rozkład geometryczny.

Literatura[1] Jasiński, K., 2017., Relations for product moments and covariances ofkth records from discrete distributions., Metrika, w recenzji.

30

Zastosowanie metod eksploracji danych dopredykcji morfologii włosów i koloru oczu

na podstawie materiału genetycznego

Joanna Karłowska-PikWydział Matematyki i Informatyki,


Predykcja morfologii włosów oraz koloru oczu na podstawie materiałuDNA jest wykorzystywana w kryminologii w celu ustalenia możliwego wy-glądu nieznanego sprawcy przestępstwa. W różnych populacjach, takżeeuropejskich, istnieją statystycznie istotne różnice w morfologii włosów ikolorze oczu, dlatego budowa modeli predykcyjnych musi się odbywać wodniesieniu do konkretnej populacji. Celem niniejszego referatu jest za-prezentowanie próby budowy takich modeli w oparciu o wytypowane poli-morfizmy pojedynczych nukleotydów oraz płeć z wykorzystaniem różnychmetod eksploracji danych, w tym regresji logistycznej, drzew i lasów loso-wych oraz sieci neuronowych, dla populacji polskiej.

Literatura[1] E. Pośpiech, J. Karłowska-Pik, M. Marcińska et al., Evaluation of thepredictive capacity of DNA variants associated with straight hair for Eu-ropeans, Forensic Science International: Genetics, 19, pp. 280-288 (2015)

[2] E. Pośpiech, J. Karłowska-Pik, B. Ziemkiewicz et al., Further evidencefor population differences in the effect of DNA markers and gender on eyecolour prediction in forensics, International Journal of Legal Medicine, 130(4), pp. 923-934 (2016)

31

Wybór zmiennych w klasyfikacji dlawielowymiarowych danych funkcjonalnych

Tomasz Górecki,Mirosław Krzyśko,Waldemar Wołyński

Wydział Matematyki i Informatyki,Uniwersytet im. Adama Mickiewicza w Poznaniu

Rozważać będziemy nową metodę wyboru zmiennych w zagadnieniuklasyfikacji obiektów opisanych przez wektorowy proces losowy postaciXXX(t) = (X1(t), . . . , Xp(t))′, t ∈ I (Ramsay & Silverman (2005), Horvath& Kokoszka (2012)). Omawiana metoda wyboru zmiennych jest metodąredukcji wymiarowości mającą na celu zastąpienie pierwotnego wekto-rowego procesu losowego XXX(t), przez proces losowy o możliwie niskimwymiarze (X(1)(t), . . . , X(d)(t))′ z zachowaniem porównywalnego poziomubłędu klasyfikacyjnego. Wykorzystywać będziemy różne algorytmy klasy-fikacyjne dostosowane do wielowymiarowych danych funkcjonalnych. Za-proponowana metoda redukcji wymiarowości bazuje na funkcjonalnej od-ległości korelacyjnej (Szekely & Rizzo (2009, 2012)) i jest modyfikacjąprocedury podanej w pracy Konga i innych (2015). Działanie zapropono-wanej metody wyboru zmiennych zilustrowane zostanie z wykorzystaniemrzeczywistych zbiorów danych.

Literatura[1] L. Horvath, P. Kokoszka (2012), Inference for Functional Data withApplications, Springer. New York.

[2] J. Kong, S. Wang, G. Wahba (2015), Using distance covariance for im-proved variable selection with application to learning genetic risk models,Statistics in Medicine 34, 1708–1720.

[3] J.O. Ramsay, B.W. Silverman (2005), Functional Data Analysis, Se-cond Edition, Springer. New York.

[4] G.J. Szekely, M.L. Rizzo (2009), Brownian distance covariance, Annals

32

of Applied Statistics 3(4), 1236–1265.

[5] G.J. Szekely, M.L. Rizzo (2012), On the uniqueness of distance cova-riance, Statistical Probability Letters 82(12), 2278–2282.

33

Selekcja zmiennych w źlewyspecyfikowanym modelu binarnym

Mariusz Kubkowski, Jan MielniczukPolitechnika Warszawska, Instytut Podstaw Informatyki PAN

Rozważmy próbę losową (X(n)i , Y

(n)i ) ∈ Rpn × 0, 1 dla i = 1, . . . , n

taką, że P(Y (n)i = 1|X(n)

i ) = q(X(n)i ), gdzie q : Rpn → (0, 1) i problem do-

pasowania modelu logistycznego P(Y (n) = 1|X(n)) = (1 + exp(−(βTX))−1

dla β ∈ Rpn . W przypadku, gdy model binarny został błędnie wyspecy-fikowany, problem selekcji zmiennych może dotyczyć identyfikacji nośnikas∗0 wektora β∗0 , będącego parametrem rzutu Kullbacka-Leiblera modelu bi-narnego na rodzinę modeli logistycznych. W referacie zostanie omówionedziałanie i zgodność procedury dwukrokowej, w której w pierwszym krokudokonywane jest wstępne odsianie zmiennych metodą Lasso i utworzenieze zbioru tych zmiennych rodziny hierarchicznej, a w następnym krokuwybór zbioru predyktorów minimalizujących kryterium GIC (ang. Gene-ralized Information Criterion) dla rodziny hierarchicznej utworzonej wpierwszym kroku.

Literatura[1] M. Kubkowski, J. Mielniczuk, Active sets of predictors for misspecifiedlogistic regression, Statistics, 2017

[2] M. Kubkowski, J. Mielniczuk, Selection consistency of two-step selec-tion for misspecified binary model, manuskrypt, 2017

34

Dobór stałej ucinającej dlafunkcji Hubera wykorzystywanej

w odpornej estymacji parametrów

Agnieszka KulawikInstytut Matematyki, Uniwersytet Śląski w Katowicach

Stefan ZontekWydział Matematyki, Informatyki i

Ekonometrii, Uniwersytet Zielonogórski

Na przykładzie modelu przesunięcia przedstawiona zostanie pewna ideaestymacji stałej ucinającej występującej w definicji funkcji Hubera. Możnato uzyskać stosując metodę największej wiarogodności w nowo zdefinio-wanym modelu, w którym stała ucinająca traktowana jest jako parametrzakłócający. Rozważania teoretyczne zostaną uzupełnione wynikami sy-mulacji komputerowych.

Literatura[1] P. J. Huber (1981), Robust Statistics, Wiley, New York

35

Unadjusted Langevin Monte Carlojako optymalizacja wypukła

Szymon MajewskiInstytut Matematyczny PAN

W moim refereacie przedstawię nowy sposób patrzenia na algorytmytypu Unadjusted Langevin Monte Carlo (ULA). Algorytmy te polegają nadyskretyzacji równania Langevina:

dXt = −∇Udt+ dWt,

w celu uzyskania Łańcucha Markova zbiegającego do rozkładu π ∝ e−U .Okazuje się, że można przedstawić algorytmy tego typu jako algorytmyoptymalizujące pewien funkcjonał energii na przestrzeni miar probabili-stycznych z metryką Wassersteina. Używając tej interpretacji i technikznanych z optymalizacji wypukłej, wyprowadzę ograniczenia nieasympto-tyczne na zbieżność standardowego algorytmu ULA i wersji tego algorytmukorzystającej ze stochastycznych gradientów. Zaprezentuję również algo-rytmy próbkowania dla nieróżniczkowalnych potencjałów, oparte o wyżejwspomnianą reprezentację.

36

Zbieżność algorytmów stochastycznejaproksymacji dla funkcji

niegładkich i niewypukłych

Błażej MiasojedowInstytut Matematyczny PAN

Wiele współczesnych metod wnioskowania statystycznego sprowadzasię do rozwiązania problemu optymalizacyjnego postaci

θ = argminθ∈Θ `(θ) + p(θ) , (1)

gdzie ` jest gładką funkcją straty, natomiast p jest karą nieróżniczkowalną.W wielu przypadkach funkcje ` oraz p mogą być również niewypukłe.Jedną z popularniejszych z obecnie stosowanych metod znajdowania mini-mum (lokalnego) dla problemu (1) jest iteracyjny algorytm przybliżonegogradientu (proximal gradient) zdefiniowany przez

θk+1 = proxγkp(xk − γk∇`(xk)) ,

gdzie

proxγp(θ) = argminϑ

p(ϑ) +

12γ‖ϑ− θ‖2

,

oraz γk jest ciągiem długości kroków. Podczas wykładu przedstawię wy-niki dotyczące zbieżności algorytmu przybliżonego gradientu dla stocha-stycznej wersji algorytmu, w której gradient ∇`(θk) jest zastąpiony przezestymator tej wielkości uzyskany za pomocą metod MCMC.

37

Badanie efektywności estymatorów jądrowych

Maciej Karczewski, Andrzej MichalskiKatedra Matematyki, Uniwersytet Przyrodniczy we Wrocławiu

Głównym celem tego artykułu jest porównanie efektywności zastosowa-nych estymatorów jądrowych w odniesieniu do empirycznej funkcji gęsto-ści uzyskanej dla pewnych danych empirycznych (Michalski, 2016). Auto-rzy wzięli pod uwagę kilka rodzajów jąder: Gaussowskie, Epanechnikova,dwuwagowe i trójwagowe (por. Berlinet i Devroye, 1994) a także kilka me-tod doboru zakresu pasma: cross-validation, regułę kciuka (rule of thumb)oraz metodę Altmana-Legera (por. Feluch i Koronacki, 1992; Silverman,1986; Givens i Hoeting, 2005; Wand i Jones, 1995). Dla porównania nume-rycznych efektów zastosowanych estymatorów jądrowych w relacji do em-pirycznej gęstości zastosowano metrykę Marczewskiego-Steinhausa (Mar-czewski i Steinhaus, 1958). Dla oceny różnic zastosowanych metod esty-macji jądrowej uzyskane odległości zostały dodatkowo wykorzystane dozbudowania macierzy i dendrogramów podobieństwa rozważanych esty-matorów. W pracy przedstawiono również wyniki badań symulacyjnych.

Literatura[1] A. Berlinet, L. Devroye, A comparison of kernel density estimates, Pu-blications de l’Institut de Statistique de l’Universite de Paris, vol. XXXVIII–Fascicule 3, 3–59, 1994.

[2] W. Feluch, J. Koronacki, A note on modified cross-validation in densityestimation, Computational Statistics & Data Analysis, 13, 143–151, 1992.

[3] G. H. Givens, J. A. Hoeting, Computational Statistics, New York: Wiley& Sons, 2005.

[4] E. Marczewski, H. Steinhaus, On a certain distance of sets and thecorresponding distance of functions, Coll. Mathematicum 6, 319–327, 1958.

[5] A. Michalski, The use of kernel estimators to determine the distri-bution of groundwater level, Meteorology Hydrology and Water Manage-ment,Vol.4, 1, 41–46, 2016.

38

[6] B. W. Silverman, Density Estimation for Statistics and Data Analysis,London: Chapman & Hall, 1986.

[7] M. P. Wand, M. C. Jones, Kernel Smoothing, London: Chapman &Hall, 1995.

39

Aproksymacja macierzy kowariancjiza pomocą wstęgowych macierzy Toeplitza

Adam MieldziocUniwersytet Przyrodniczy w Poznaniu

W modelach wielowymiarowych często pojawia się problem estyma-cji nieznanych macierzy kowariancji o zadanej strukturze. Jedną z takichstruktur stanowią wstęgowe macierze Toeplitza, dla których w zbiorze ma-cierzy dodatnio określonych wyznaczymy najlepsze w sensie normy Frobe-niusa przybliżenie macierzy kowariancyjnej. Cui et al. (2016) pokazali, żenajlepszym przybliżeniem zadanej macierzy kowariancyjnej w zbiorze ma-cierzy Toeplitza jest jej rzut na przestrzeń macierzy Toeplitza. Ponieważjednak nie wszystkie rzuty zachowuja własność nieujemnej określonościpokażemy, że najlepsze przybliżenie zadanej macierzy kowariancyjnej wzbiorze określonych nieujemnie macierzy Toeplitza charakteryzuje rzut nastożek wypukły generowany przez rozważane macierze (por. Ingram andMarsh, 1991). W referacie podana zostanie zarówno metodologia wyza-czania najlepszego przybliżenia jak i odpowiadajacy jej algorytm.

Prezentowane wyniki powstały we współpracy z K. Filipiak, A. Mar-kiewiczem i A. Sawikowska.

Literatura[1] Cui, X., C. Li, J. Zhao, L. Zeng, D. Zhang, and J. Pan (2016), Co-variance structure regularization via Frobenius norm discrepancy, LinearAlgebra Appl. 510, 124–145.

[2] Ingram, J.M. and M.M. Marsh (1991), Projection onto convex cones inHilbert space, J. Approx. Theory 64, 343–350.

40

O pomiarze siły interakcji

Jan MielniczukInstytut Podstaw Informatyki PAN

orazWydział Matematyki i Nauk

Informacyjnych Politechniki Warszawskiej

W modelu logistycznym brak interakcji z reguły rozumie się jako brakzależności zmiany logarytmu szansy sukcesu, przy zmianie wartości jed-nego predyktora, od wartości pozostałych predyktorów. Taka definicja nieobejmuje wielu innych koncepcji interakcji: w szczególności w modelu lo-gistycznym addytywnym mogą występować inaczej rozumiane interakcje.Wprowadzimy częściowy porządek na miarach interakcji: I2 ≺ I1 jeśliI1 = 0 implikuje I2 = 0. Dla sytuacji dwóch predyktorów nominalnychX1, X2 o skończonej liczbie wartości i binarnej odpowiedzi Y zanalizu-jemy związki między interakcją logistyczną IL a informacją interakcyjnąII zdefiniowaną jako

II(X1;X2;Y ) := I[(X1, X2);Y ]− I(X1;Y )− I(X2, Y ), (3.1)

gdzie I(Xi;Y ) jest informacją wzajemną między Xi i Y a I[(X1, X2);Y ] in-formacją wzajemną między parą (X1, X2) a Y . Wiadomo, że II(X1;X2;Y )jest równa dywergencji Kullbacka-Leiblera między PX1,X2,Y a aproksyma-cją Kirkwooda PK związaną z (niekoniecznie probabilistycznym) rozkła-dem masy

pK(xi, xj , yk) =p(xi, xj)p(xi, yk)p(xj , yk)

p(xi)p(xj)p(yk). (3.2)

Niech η oznacza całkowitą masę PK . Pokażemy, że jesli η ¬ 1 to IL ≺II. Podamy przykład rodziny rozkładów, dla której obie miary są rów-noważne. Zastosowania dotyczą wykrywania interakcji między polimor-fizmami pojedynczych nukleotydów (SNP). Prace wykonane wspólnie zPawłem Teisseyre i Marcinem Rdzanowskim.

Literatura

41

[1] J. Mielniczuk, M. Rdzanowski, Use of information measures and theirapproximations to detect predictive gene-gene interactions , Entropy, 2017

[2] J. Mielniczuk, P. Teisseyre, A deeper look at two concepts of measuringgene-gene interactions: logistic regression and interaction information re-visited, Genetic Epidemiology, 2018

42

Aproksymacja macierzy kowariancjiiloczynem Kroneckera z wykorzystaniem

entropijnej funkcji straty

Monika MokrzyckaZespół Szkół Komunikacji w Poznaniu

Celem tego referatu jest określenie najlepszego przybliżenia symetrycz-nej, dodatnio określonej macierzy Ω stopnia n przez dodatnio określonyiloczyn Kroneckera macirzy Ψ i Σ, gdzie Ψ i Σ są dowolnymi macierzamisymetrycznymi lub jeden ze składników iloczynu Kroneckera, powiedzmyΨ, ma korelacyjną strukturę kompletnej symetrii, (1 − %)I + %11>, lubautoregresji stopnia pierwszego,

∑i=0 %

i(Ci + Ci>

), gdzie C = (cij) oraz

cij = 1 dla j − i = 1 i 0 w pozostałych przypadkach. Najlepsza aproksy-macja oznacza tutaj, że entropijna funkcja straty (por. [1])

f(Ω,Ψ⊗Σ) = tr[Ω−1 (Ψ⊗Σ)

]− ln

∣∣∣Ω−1 (Ψ⊗Σ)∣∣∣− n

jest minimalizowana ze względu na Ψ⊗Σ.Przedstawione wyniki mogą być szeroko stosowane w statystyce wielo-

wymiarowej, na przykład do regularyzacji struktury kowariancyjnej wie-lowymiarowych danych, do określenia estymatorów struktury kowariancjiczy też do określenia odległości między hipotezą zerową i alternatywną wzagadnieniu testowania hipotez o strukturach kowariancyjnych.

Prezentowane wyniki powstały we współpracy z K. Filipiak, D. Kleini A. Markiewicz.

Literatura[1] Lin L., Higham N.J., Pan J. (2014), Covariance structure regularizationvia entropy loss function, Computational Statistics and Data Analysis 72,315–327.

43

Algorytmy pMCMCz repróbkowaniem poissonowskim

Wojciech NiemiroInstytut Matematyki Stosowanej i Mechaniki,

Uniwersytet Warszawski

Algorytmy pMCMC (particle Markov chain Monte Carlo) zostały wpro-wadzone w pracy Andrieu i in. (2010). Łączą idee markowowskich algo-rytmów Monte Carlo (MCMC) i sekwencyjnych algorytmów Monte Carlo(SMC). Zasadnicza idea jest oparta na konstrukcji “filtru cząsteczkowego”,sekwencyjnego powtarzania kroków ważenia, repróbkowania i propagacji.Symuluje się ewolucjęN “cząstek”, których trajektorie przybliżają rozkładfiltracji dla ukrytego łańcucha Markowa. Większość znanych algorytmówwykorzystuje ustaloną liczbę N i repróbkowanie z rozkładu wielomiano-wego. Nasze algorytmy wykorzystują repróbkowanie z rozkładu Poissona iużywają losowej, zmiennej liczby cząstek. Motywacje tej nowości są dwie.Po pierwsze, algorytmy z repróbkowaniem poissonowskim łatwiej jest im-plementować w sposób równoległy. Po drugie, są one lepiej dostosowanedo sytuacji, gdy rozważamy ukryty proces Markowa z czasem ciągłym.

Referat prezentuje wyniki wspólnej pracy z Błażejem Miasojedowem iMichałem Startkiem.

Literatura[1] C. Andrieu, A. Doucet, R. Holenstein, Particle Markov chain MonteCarlo methods, Journal of the Royal Statistical Society B

[2] B. Miasojedow, W. Niemiro, M. Startek, Particle MCMC algorithmswith Poisson resampling: paralelization and continuous time models, wprzygotowaniu (wstępna wersja: arXiv:1707.01660v1)

44

Optymalne planowanie pomiarówruchu z wykorzystaniem

programowania całkowitoliczbowego

Karol R. OparaInstytut Badań Systemowych PAN

Natężenie i struktura ruchu drogowego stanowią podstawowe informa-cje wykorzystywane przez zarządy dróg do planowania remontów i zabie-gów utrzymaniowych. Pomiary w skali całej sieci można prowadzić z wyko-rzystaniem przenośnych liczników przewożonych co jeden lub dwa tygodniew kolejne miejsca. W referacie omówione zostanie zadanie przygotowaniaplanu tego typu pomiarów. Można je sformalizować w postaci trzech po-wiązanych ze sobą problemów optymalizacyjnych. Ich trudność polega nakonieczności uwzględnienia znacznej liczby wymagań prawnych, technicz-nych i organizacyjnych. Omówiony zostanie matematyczny model zagad-nienia oraz metoda jego rozwiązania bazująca na programowaniu całkowi-toliczbowym. Metoda ta pozwala na dokładne wyznaczenie optymalnegorozwiązania. Rozważania zostaną zilustrowane na przykładzie planowaniapomiarów w 5000 punktów za pomocą 350 urządzeń w niemieckim krajuzwiązkowym Badenia-Wirtembergia.

Literatura[1] K. Opara i J. Zieliński, Quality assurance of road traffic data, Mate-riały koferencyjne World Conference on Pavement and Asset Management,Baveno, Włochy, 12-16 czerwca 2017.

[2] BMVI, Richtlinien fur die Straßenverkehrszalung im Jahre 2015 auf denBundesfernstraßen, Po niemiecku: Wytyczne dla pomiarów ruchu na dro-gach federalnych w 2015 roku. Niemieckie Federalne Ministerstwo Trans-portu i Infrasturktury Cyfrowej, 2014.

[3] M. Mayer-Kreitz, R. Bettermann, M. Skakuj, G. Karzelek i H. Zie-gler, Zaehlstellenverwaltung und Ergebnisdarstellung temporaerer Messun-gen des Straßenverkehrs mit der Online-Plattform VERA, Po niemiecku:

45

Zarządzanie licznikami natężenia ruchu drogowego oraz udostępnianie wy-ników pomiarów z wykorzystaniem platformy online VERA, Straßenver-kehrstechnik, vol. 59, nr 2, 2015.

46

Regresyjna charakteryzacjarozkładów Gamma i Kummera

Agnieszka PiliszekWydział Matematyki i Nauk Informacyjnych PW

W 2016 Hamza i Vallois zauważyli następującą własność rozkładówgamma i Kummera: jeśli X i Y są niezależnymi zmiennymi losowymi orozkładach gamma i Kummera, odpowiednio, z odpowiednimi parame-trami, to zmienne losowe U = Y

1+X i V = X(1 + U) są niezależne. Wreferacie opowiem o charakteryzacji regresyjnej rozkładów gamma i Kum-mera opartej na powyższej własności. Została ona opisana w [Piliszek,Wesołowski 2018]. Zwrócę uwagę na użytą technikę zmiany miary, którapozwoliła na znaczne osłabienie założeń.

Wyniki wspólne z prof. J. Wesołowskim.

Literatura[1] A. Piliszek, J. Wesołowski, Change of measure technique in characte-rizations of the Gamma and Kummer distributions, Journal of Mathema-tical Analysis and Applications

[2] M. Hamza, P. Vallois, On Kummer’s distribution of type two and ageneralized beta distribution, Statistics & Probability Letters

47

Poprawianie Lasso dlawyboru modelu i predykcji

Piotr PokarowskiUniwersytet Warszawski

Lasso, czyli estymator `1-penalizowanej straty jest popularną metodądopasowania oszczędnego/rzadkiego modelu do danych wysokiego wymiaru.Quasi-wypukłe penalizacje jak SCAD lub MCP dokładniej aproksymują`0-penalizową stratę, czyli GIC i poprawiają nieuniknione obciążenie Lasso.Zaprezentuję alternatywną metodę SS (Screening–Selection) poprawianiaLasso dla ogólnej klasy modeli predykcyjnych zawierającej normalny mo-del liniowy i model logistyczny. Metoda zaczyna się od Lasso dla ustalonejkary, porządkuje wartości bezwzględne współczynników Lasso i wybieramodel z małej zagnieżdżonej rodziny. Pokażę górne oszacowanie na praw-dopodobieństwo błędu selekcji SS oraz wyniki symulacji na syntetycznychi realnych danych. Z teoretycznego punktu widzenia SS jest bardziej kon-struktywny od quasi-wypukłych penalizacji. W praktyce, w porównaniudo implementacji MCP, implementacja SS prowadzi do dokładniejszej pre-dykcji lub mniejszego modelu. Praca wspólna z A. Prochenką, M. Frejem,W. Rejchelem i J. Mielniczukiem.

48

Selekcja cech w oparciu o kryterium GIC z karąLASSO w modelach wysokowymiarowych

Wojciech RejchelUniwersytet Mikołaja Kopernika w Toruniu

Uniwersytet Warszawski

Wybór modelu (wybór cech istotnych) jest dużym wyzwaniem, zwłasz-cza w przypadku wysokowymiarowym, to znaczy w sytuacji, gdy liczbaobserwowanych cech jest (znacznie) większa niż liczność próby. W wieluproblemach (w genetyce, biologii) znalezienie (małego) zbioru cech istot-nych jest równie ważne (a nieraz bardziej) jak poprawna estymacja czypredykcja. Jednym z algorytmów, które próbują poradzić sobie z tym za-gadnieniem, jest SOS [1], który oparty jest na minimalizacji funkcji wiaro-godności z karą LASSO oraz kryterium GIC. W przypadku uogólnionychmodeli liniowych procedura ta jest zgodna w wyborze cech istotnych. Wreferacie wykażę, że własność ta jest również spełniona w modelach obej-mujących, między innymi, regresję kwantylową czy maszyny wektorówpodpierających.

Literatura[1] P. Pokarowski, J. Mielniczuk, Combined l1 and greedy l0 penalized leastsquares for linear model selection, Journal of Machine Learning Research

49

Estymacja współczynnika wpływuw modelowaniu przyczynowości

Krzysztof RudaśPolitechnika Warszawska

Modelowanie przyczynowości staje się coraz bardziej istotnym proble-mem w zagadnieniach biznesowych i medycznych. Wyobraźmy sobie sy-tuację, w której chcemy zastosować terapię na pewnej grupie pacjentów.Naszym celem jest wyznaczenie jednostek, którym rzeczywiście ta terapiapomoże (są zdrowi i nie wyzdorwieliby bez niej). Podstawowym proble-mem jest dysponowanie tylko połową pożądanej informacji na temat pa-cjenta (jeśli został poddany terapii to nie mamy informacji o jego staniew przypadku gdyby nie zastosowano leczenia).

Problem przyczynowości można przedstawić dzieląc dane na zbiór kon-trolny i testowy, a następnie stosując założenia regresji liniowej do każdejz grup. W przezentacji zostaną przedstawione dwa powszechnie stosowanepodejścia modelowe, a także trzecie będące próbą ich połączenia. Przed-stawione zostaną ich podstawowe własności. Za pomocą symulacji poka-zane zostanie, w jakich sytuacjach dany estymator daje najlepszą jakośćpredykcji.

Literatura[1] M. Jaśkowski, S. Jaroszewicz, Uplift modeling for clinical trial data.,ICML 2012 Workshop on Machine Learning for Clinical Data Analysis,Edinburgh, Scotland, June 2012

50

Nierówności dla mieszanekuporzadkowanych zmiennych losowych

Tomasz RychlikInstytut Matematyczny PAN

Porównujemy dwie mieszaniny dowolnego stochastycznie uporzadkowa-nego zbioru dystrybuant wzgledem dowolnie ustalonych rozkładów mie-szajacych. Przy założeniu, że rozkład jednej mieszaniny jest znany, wy-znaczamy optymalne dolne i górne oszacowania dystrybuanty drugiej mie-szanki i wyznaczamy pojedyncze rodziny uporzadkowanych dystrybuant,które osiagaja te oszacowania jednostajnie w każdym punkcie osi rzeczywi-stej. Nastepnie przedstawiamy dokładne górne i dolne oszacowania różnicwartości oczekiwanych mieszanek wyrażone w różnych jednostkach skali.Ogólne wyniki sa zilustrowane przykładami.

51

Analiza wydźwięku z wykorzystaniem siecineuronowych i drzewiastej reprezentacji zdań

Norbert RyciakWydział Matematyki i Nauk Informacyjnych PW

Analiza wydźwięku (ang. sentiment analysis) jest jednym z głównychnurtów badawczych w obszarze przetwarzania języka naturalnego. Z regułyzagadnienie to formalizuje się jako problem klasyfikacji. Istotnym aspek-tem tego zadania jest reprezentacja danych - w rozważanym przypadkupojedynczego zdania. Podstawowe podejście polegające na wyreprezen-towaniu zdania jako wektor cech (np. model bag-of-word) ma zasadni-czą wadę - tracona jest informacja o strukturze zdania, która często maistotne znaczenie. Dlatego w praktyce wykorzystuje się również modeleuwzględniające strukturę tekstu. Przykładem są rekurencyjne sieci neuro-nowe, które przyjmują na wejściu ciągi i dokonują klasyfikacji na podsta-wie analizy sekwencji obiektów z uwzględnieniem kolejności (np. słów wzdaniu). Kolejnym krokiem w rozwoju metod analizy sentymentu jest wy-korzystanie lingwistycznej struktury tekstu - reprezentacja zdań w postacidrzewa (zależnościowego lub składniowego). Okazuje się, że wykorzysta-nie informacji o strukturze zdań w ten sposób daje bardzo dobre wyniki.W referacie omówię pewien model sieci nauronowej działającej na struk-turze drzewiastej - Tree Structured Long Short Term Memory Network iprzedstawię wyniki otrzymane na przykładzie danych polskojęzycznych.

Literatura[1] Kai Sheng Tai, Richard Socher, Christopher D. Manning (2015), Im-proved Semantic Representations From Tree-Structured Long Short-TermMemory Networks, CoRR

52

Nieparametryczna estymacja kwantyli

Alicja Jokiel-Rokita1, Agnieszka Siedlaczek2

1Wydział Matematyki, Politechnika Wrocławska2Instytut Matematyki i Informatyki, Uniwersytet Opolski

Problem nieparametrycznej estymacji kwantyli rozkładu pojawia sięw wielu dziedzinach, np. w hydrologii, finansach. W literaturze statystycz-nej można znaleźć wiele podejść do tego problemu. Przegląd estymatorów,bazujących na tzw. plotting position można znaleźć w artykule Hyndmana iFana (1996). Natomiast w serii artykułów Zielińskiego (np. Zieliński, 1999,2006, 2012) rozważany jest problem wyznaczenia niezmienniczych estyma-torów kwantyli, optymalnych według różnych kryteriów (zobacz równieżRychlik, 2012).

W prezentacji przedstawimy wybrane nieparametryczne estymatorykwantyli oparte na nieparametrycznych estymatorach dystrybuanty roz-kładu. Zaproponujemy ciągły i ściśle rosnący nieparametryczny estymatordystrybuanty rozkładu, którego odwrotność prowadzi do estymatora funk-cji kwantylowej posiadającej wymieniane w literaturze pożądane własno-ści oraz do zgodnych i asymptotycznie normalnych estymatorów kwantyli.Przedstawimy również wyniki symulacji komputerowych, których celembyło porównanie błędów średniokwadratowych, w przypadku małych roz-miarów prób i różnych rozkładów, zaproponowanego estymatora i dziewię-ciu innych estymatorów. Zaprezentujemy również wyniki analizy danychrzeczywistych.

Literatura[1] Hyndman R. J. and Fan Y. (1996), Sample quantiles in statistical pac-kages, The American Statistician, 50(4):361–365.

[2] Rychlik T. (2012), Prace Ryszarda Zielińskiego o nieparametrycznychestymatorach kwantyli i ich zastosowaniu w statystyce odpornej, Mathe-matica Applicanda, 40(2):65–82.

[3] Zieliński R. (1999), Best equivariant nonparametric estimator of quan-tile, Statistics and Probability Letters, 45:79–84.

53

[4] Zieliński R. (2006), Small-sample quantile estimators in a large non-parametric model, Communications in Statistics – Theory and Methods,35(7):1223–1241.

[5] Zieliński R. (2012), Optimal estimation of high quantiles in a largenonparametric model, Applicationes Mathematicae, 39(2):137–142.

54

Metody funkcjonalnej analizy danych wdetekcji uszkodzeń maszyn przemysłowych

Maria SkupieńInstytut Matematyki, Uniwersytet Pedagogiczny w Krakowie

Sygnały wibracyjne próbkowane z bardzo dużą częstotliwością (20 kH)stanowią podstawowe źródło informacji o zachowaniu maszyny przemysło-wej. Niemniej jednak duża wymiarowość zbioru danych i jego silne zaszu-mienie powodują trudności w wykrywaniu częstotliwości charakterystycz-nych dla określonego lokalnego uszkodzenia. Narzędzia analizy spektralnej,np. spektrogramy, nie są wystarczające by odróżnić IFB - informacyjne pa-smo częstotliwości od pozostałej części sygnału. Stąd, jako odpowiednikdyskretnych metod, proponujemy funkcjonalne podejście w rozwiązaniaowego problemu. Na nowy zbiór danych składają się ciągłe funkcje lo-sowe. Stosujemy techniki analizy danych funkcjonalnych (FDA), na przy-kład analizy funkcjonalnych składowych głównych (FPC) w celu redukcjiwymiarowości. Następnie zaproponujemy nową miarę IFB w oparciu owspółczynniki FPC i postaramy się wybrać, spośród zredukowanych mo-deli, najbardziej optymalny. Zweryfikujemy nasze podejście, wykorzystu-jąc rzeczywiste dane generowane przez łożyska kół maszyn przemysłowych.Zestaw danych udostępniony jest dzięki konglomeratowi miedzi KGHM.

Literatura[1] L. Horvath, P. Kokoszka, Inference for Functional Data with Applica-tions, Springer-Verlag, New York etc., 2012.

[2] J. Obuchowski, A. Wyłomańska, R. Zimroz, Selection of informativefrequency band in local damage detection in rotating machinery, Mechani-cal Systems and Signal Processing 48 (2014) 138 - 152

[3] J. Obuchowski, A. Wyłomańska, R. Zimroz, Selection of informativefrequency band based on the local maxima method in application to bearingdiagnostics, 12th International Technical Systems Degradation Conference

55

Diagonalne testy typu Waldaw ogólnym modelu czynnikowym

Łukasz SmagaWydział Matematyki i Informatyki UAM

W pracy rozważamy zagadnienie testowania hipotez w ogólnym modeluczynnikowym, w którym nie zakłada si e ani homoskedastyczności ani kon-kretnego rozkładu bł edów losowych. Szczególnymi przypadkami rozpatry-wanego modelu s a jedno- i dwukierunkowa klasyfikacja czy też model ana-lizy hierarchicznej. Do testowania hipotez, proponujemy statystyki testoweb ed ace modyfikacjami statystyki testowej typu Walda, w której macierzwagow a zast apimy pewnymi macierzami diagonalnymi. Rozkłady staty-styk testowych przy założeniu prawdziwości hipotezy zerowej przybliżanes a za pomoc a rozkładów granicznych oraz permutacyjnych. Udowodnimyzgodność nowych procedur testowych przy ustalonej hipotezie alternatyw-nej. Wyniki teoretyczne uzupełnimy poprzez rezultaty badań symulacyj-nych. W badaniach tych porównujemy empiryczne moce nowych procedurtestowych z mocami permutacyjnego testu typu Walda zaproponowanegow pracy Pauly i in. (2015).

Literatura[1] E.Y. Chung and J.P. Romano, Exact and asymptotically robust permu-tation tests, Annals of Statistics

[2] F. Konietschke, A.C. Bathke, S.W. Harrar, M. Pauly, Parametric andnonparametric bootstrap methods for general MANOVA, Journal of Mul-tivariate Analysis

[3] M. Pauly, E. Brunner, F. Konietschke, Asymptotic permutation testsin general factorial designs, Journal of the Royal Statistical Society B

[4] Ł. Smaga, Diagonal and unscaled Wald-type tests in general factorialdesigns, Electronic Journal of Statistics

56

DMRnet - pakiet środowiska R dowybierania zmiennych ciągłych i łączenia

poziomów dla zmiennych jakościowych

Agnieszka SołtysWydział Matematyki, Informatyki i Mechaniki

Uniwersytetu Warszawskiego

W referacie opowiem o uogólnieniu zwyczajnej selekcji zmiennych cią-głych w regresji liniowej i logistycznej na selekcję czynnikową, która umoż-liwia łączenie poziomów w faktorach. Zaprezentuję na przykładach głównefunkcje pakietu środowiska R o nazwie DMRnet, który jest implementa-cją zarówno algorytmu SOSnet dla zmiennych ciągłych, jak i DMRnetdla zmiennych ciągłych i jakościowych. Pakiet DMRnet jest dostępny naCRAN pod adresem:https://cran.r-project.org/web/packages/DMRnet/index.html.SOSnet jest rozwinięciem algorytmu SOS (Screening, Ordering, Selec-

tion) opisanego w artykule P. Pokarowski et al., 2015, a DMRnet rozwinię-ciem algorytmu DMR (Delete or Merge Regressors) opisanego w artykuleA. Maj-Kańska et al., 2015.

Literatura[1] P. Pokarowski, J. Mielniczuk (2015), Combined l1 and greedy l0 pena-lized least squares for linear model selection, Journal of Machine LearningResearch

[2] A. Maj-Kańska, P. Pokarowski, A. Prochenka (2015), Delete or mergeregressors for linear model selection, Electronic Journal of Statistics

57

https://cran.r-project.org/web/packages/DMRnet/index.html

Test dopasowania rozkładu dladanych cenzurowanych bazujacy na

współczynniku maksymalnej korelacji

Ewa Strzałkowska-KominiakPolitechnika Krakowska, Instytut Teleinformatyki

Współczynnik maksymalnej korelacji ρ+ to górne ograniczenie Frecheta-Hoeffdinga współczynnika korelacji bazujace na dystrybuancie H+(x, y) =min(F1(x), F2(y)). Współczynnik maksymalnej korelacji stanowi miarezgodności dwóch rozkładów, o dystrubuantach F1 i F2, ponieważ ρ+ = 1wtedy i tylko wtedy, gdy F1 = F2 z dokładnościa do parametrów skali i po-łożenia i był już stosowany w tematyce testowania przez Fortiana i Grane(2003). W moim referacie przedstawie test zgodności bazujacy na ρ+ wkontekście danych cenzurowanych. Udowodnie asymptotyczne własnościstatystyki testowej. Dodatkowo, zaprezentuje wyniki symulacji kompute-rowych dotyczacych mocy testu oraz jego porównania z najbardziej popu-larnym testem dla tego typu danych znanym z Akritas (1988).

Literatura[1] Akritas, M. G. (1988), Pearson-Type Goodness-of-Fit test: The Univa-riate Case, Journal of the American Statistical Association 83, 222-230.

[2] Fortiana, J., Grane (2003), Goodness-of-Fit Tests Based on MaximumCorrelations and Their Orthogonal Decompositions, J. Royal StatisticalSociety. Series B 65, 115-126.

58

Badanie wpływu sposobu wyznaczaniadystrybuanty doświadczalnej na moc

testu Kołmogorowa-Smirnowa

Piotr Sulewski1

Instytut Matematyki, Akademia Pomorska, Słupsk

W literaturze statystycznej istnieją różne sposoby na wyznaczanie dys-trybuanty doświadczalnej. Symulacje komputerowe pokazały, że sposóbliczenia dystrybuanty doświadczalnej ma istotny wpływ na moc testuKołmogorowa-Smirnowa w wariancie Lillieforsa. Rozkładem testowym zo-stał złożony rozkład normalny CND (a1, b1, a2, b2, ω), gdzie a1, a2 są para-metrami położenia, b1, b2 są parametrami skali, ω jest parametrem udziału.Moc testu wyznaczono przy poziomie istotności α = 0.1 i liczebności próbyn = 10, 12, ..., 30.Symulacje Monte Carlo zostały przeprowadzone dla czterech grup war-tości parametrów: ZRN (0, 1, 2, 3, 0.7) - skośność i eksces kurtoza dodat-nie, ZRN (0, 1,−2, 3, 0.7) - skośność ujemna, ZRN (0, 1, 0, 3, 0.7) - eksceskurtoza dodatnia, ZRN (0, 1, 4, 1, 0.5) - eksces kurtoza ujemna. W arty-kule zaproponowano miarę podobieństwa między rozkładem normalnyma złożonym rozkładem normalnym. Artykuł pokazuje, że sposób liczeniadystrybuanty empirycznej zależy od charakteru rozkładu nienormalnego,który chce uchodzić za normalny.

Literatura[1] N. Smirnov (1948), Table for estimating the goodness of fit of empiricaldistributions, Annals of Mathematical Statistics 19:279-281.

[2] Z. Drezner, O. Turel, D. Zerom (2009), A modified Kolmogorov-Smirnovtest for normality, MPRA Paper No. 14385.

[3] N.M. Razali, Y.B. Wah (2011), Power comparisons of Shapiro-Wilk,Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests, Journal ofStatistical Modeling and Analytics 2(1):21-33.

1Podziękowania dla Prof. A. Drapelli za pomoc przy powstaniu tego artykułu.

59

Optymalne oszacowania całkowitego czasutrwania testu dla rozkładów z rosnącą

uogólnioną intensywnością awarii

Maria SzpakUniwersytet Marii Curie-Skłodowskiej w Lublinie

Załóżmy, że w pewnym eksperymencie mamy n identycznych elemen-tów, gdzie czas życia każdego z nich jest opisany przez niezależne zmiennelosowe X1, X2, ..., Xn o jednakowym rozkładzie z dystrybuantą F , war-tością oczekiwaną µ i wariancją σ2. Przy prowadzaniu takiego testu wpewnym momencie eksperymentator może być zainteresowany w oszaco-waniu tego, jak długo ten test będzie trwał, ponieważ z każdą jednostkączasu pracy dowolnego elementu mogą być związane jakieś koszty (albozyski) proporcjonalne do czasu życia tego elementu. Czasy kolejnych awa-rii są opisane przez statystyki porządkowe X1:n ¬ . . . ¬ X1:n z próby(X1, . . . , Xn). Po i-tej awarii w czasie Xi:n w eksperymencie zostanie n− ielementów, które będą działać do momentu kolejnej awarii Xi+1:n, czyliprzez Xi+1:n − Xi:n jednostek czasu. Dlatego dla pewnego 1 ¬ r < nokreślamy całkowity czas testu po r-tej awarii przez

Tr,n =n∑

i=r+1

(n− i+ 1)(Xi:n −Xi−1:n) =n∑

i=r+1

Xi:n − (n− r)Xr:n

Poszukujemy optymalnych oszacowań dla wartości oczekiwanej Tr,n dlapewnego 1 ¬ r < n w ograniczonych rodzinach rozkładów czasu ży-cia. W poprzednich pracach rozważających ten problem zostały wypro-wadzone optymalne oszacowania dla całkowitego czasu trwania testu wklasie wszystkich rozkładów, a także w klasie rozkładów z malejącą uogól-nioną intensywnością awarii względem uogólnionych rozkładów Pareto. Wreferacie przedstawimy wyniki dla rozkładów z rosnącą uogólnioną inten-sywnością awarii, w szczególności oszacowania dla rozkładów z rosnącągęstością i dla rozkładów z rosnącą intensywnością awarii. Opróczwyników teoretycznych przedstawimy przykładowe wartości liczbowe uzy-

60

skanych oszacowań i porównamy je z odpowiednimi oszacowaniami dlarozkładów z malejącą uogólnioną intensywnością awarii.

61

Zastosowanie funkcji intensywności starzenia

Magdalena SzymkowiakPolitechnika Poznańska

Praca poświęcona jest charakteryzacjom jednowymiarowych nieujem-nych zmiennych losowych absolutnie ciągłych. W teorii niezawodnościzmienne te wykorzystywane są do modelowania czasu życia elementówi układów. Omówione w pracy rozkłady, związane z rozkładem Weibulla,można łatwiej charakteryzować za pomocą intensywności starzenia niż in-tensywności uszkodzeń.

Ponadto w pracy pokazano zastosowanie intensywności starzenia dladanych generowanych oraz danych rzeczywistych pełnych i uciętych.

Literatura[1] D’Agostino, R.B., Stephens,M.A. (1986), Goodness-of-fit techniques,Marcel Dekker, New York.

[2] Murthy, D. N. P., Xie, M., Jiang, R. (2004), Weibull models, Hoboken:John Wiley & Sons, Inc.

[3] Szymkowiak, M., Characterizations of distributions through aging in-tensity, IEEE Transactions on Reliability (after the first revision, submit-ted 21.09.2017)

62

Selekcja zmiennych uwzględniającakoszty w klasyfikacji wieloetykietowej

Paweł TeisseyreInstytut Podstaw Informatyki PAN

Wybór zmiennych objaśniających jest istotnym problemem w zadaniuklasyfikacji wieloetykietowej. W ostatnich latach zaproponowano wiele me-tod, jednak istniejące rozwiązania zakładają, że koszty związane z uzyska-niem wartości poszczególnych zmiennych są takie same. W pewnych sy-tuacjach to założenie może być nieadekwatne. Na przykład w diagnostycemedycznej uzyskanie wartości zmiennych może się wiązać z wykonaniembardzo drogich badań diagnostycznych. Wówczas może się okazać że lepiejwybrać zmienne o nieco gorszej mocy predykcyjnej, ale akceptowalnychkosztach. W referacie przedstawię nową metodę selekcji zmiennych, którauwzględnia informację o ich kosztach. Zaproponowane podejście opiera sięo wykorzystanie łańcuchów klasyfikatorów oraz penalizowanej regresji lo-gistycznej, z odpowiednio dobraną karą, zależną od kosztów zmiennych.Pokażę również adaptacyjną wersję algorytmu, w której kary związne zposzczególnymi zmiennymi zmieniają się podczas dopasowania kolejnychmodeli w łańcuchu. Eksperymenty przeprowadzone na rzeczywistych da-nych pokazują, że obie metody dają obiecujące wyniki.

Literatura[1] P. Teisseyre, CCnet: Joint multi-label classification and feature selectionusing classifier chains and elastic net regularization, Neurocomputing, vol.235, strony 98-111, 2017.

[2] P. Teisseyre, Cost-sensitive classifier chains: selecting low-cost featuresin multi-label classification, manuskrypt, 2017.

63

Plany optymalne dla predykcji w modelachRCR z błędami heteroskedastycznymi

Mateusz Wilk1,2, Aleksander Zaigrajew1

1WMiI UMK, 2IP PAN

Rozważamy model regresji liniowej z losowymi parametrami i błędamiheteroskedastycznymi, tzn. model opisany równaniem

y(x) = β1 + β2x+ e(x), x ∈ [a, b] ∪ χ,

gdzie [a, b] ⊂ R jest obszarem planowania, χ jest obszarem predykcji ta-kim, że [a, b]∩χ = ∅, β = [β1 β2]T jest wektorem losowym nieskorelowanymz e(x), E[e(x)] = 0 oraz cov[e(x)] ∝ g(x), gdzie g : R → R jest ustalonąfunkcją dodatnią. Zakładamy również, że będziemy obserwować genero-wane przez ten model, nieskorelowane ze sobą wartości y(xi) w różnychod siebie punktach xi ∈ [a, b], i = 1, . . . , n.

Badamy problem wyznaczenia planów optymalnych dla predykcji war-tości y(x) w punktach x ∈ χ. Każdy ciągły k-punktowy plan ζ jest dys-kretną miarą probabilistyczną przyjmującą wartości ωi 0 w punktachxζi ∈ [a, b], i = 1, . . . , k. Rozpatrujemy przy tym stochastyczne kryteriaoptymalności opisywane przy pomocy poniższych funkcji:

• Φ1(ζ) = P(maxx∈χ|y(x)− y(x)| < ε),

• Φ2(ζ) = minx∈χ

P(|y(x)− y(x)| < ε),

• Φ3(ζ) = P(∫χ(y(x)− y(x))2dx < ε),

gdzie przez y(x) oznaczamy predykcje. Mówimy, że plan ζ jest Φi-optymalny,jeżeli maksymalizuje on funkcję Φi dla dowolnego ε > 0, i = 1, 2, 3. Wtrakcie referatu przyglądamy się bliżej ograniczeniom, jakie muszą zostaćnałożone na funkcję g, aby utrzymane zostały klasyczne rezultaty.

64

Literatura[1] Chen, R.-B., Wong, W. K., & Li, K.-Y. (2008), Optimal minimax de-signs over a prespecified interval in a heteroscedastic polynomial model,Statistics & Probability Letters, 78(13), 1914-1921.

[2] Liski, E.P., Mandal, N.K., Shah, K.R., Sinha, B.K. (2002), Topics inOptimal Design., Lecture Notes in Statistics: 163. Springer-Verlag, NewYork.

65

Praktyczne aspekty konstrukcji pasówufności w problemie Spektora-Lorda-Willisa

Bogdan Ćmiel,Zbigniew SzkutnikJakub Wojdyła

Wydział Matematyki Stosowanej AGH w Krakowie

Omówione zostaną praktyczne aspekty konstrukcji nieparametrycznychpasów ufności dla intensywności procesu Poissona w stereologicznym pro-blemie Spektora-Lorda-Willisa, który z matematycznego punktu widzeniajest problemem odwrotnym. Środek analizowanych pasów ufności wyzna-czony jest przez odpowiedni estymator typu jądrowego. Pokazane zosta-nie, że procedura wyboru parametru wygładzania metodą Goldenshlugera-Lepskiego (Goldenshluger i Lepski, 2011) gwarantuje adaptacyjność esty-matora na rozpatrywanej rodzinie klas typu Sobolewa. Zaprezentowanezostaną wyniki badań symulacyjnych, w których porównano (w kontek-ście konstrukcji pasów ufności) metodę Goldenshlugera-Lepskiego wyboruparametru wygładzania z procedurą opartą o minimalizację ryzyka em-pirycznego estymatora. Ponadto, omówione zostaną inne, istotne z prak-tycznego punktu widzenia, aspekty związane z konstrukcją pasów w skoń-czonych próbach.

Literatura[1] A. Goldenshluger and O. Lepski, Bandwidth selection in kernel den-sity estimation: oracle inequalities and adaptive minimax optimality, TheAnnals of Statistics

66

Adaptacyjny test permutacyjny w problemiek-prób dla danych cenzurowanych

Grzegorz WyłupekInstytut Matematyczy, Uniwersytet Wrocławski

Rozważamy klasyczny problem k-prób, k 2, dla danych cenzurowa-nych. Na podstawie zbioru niekompletnych obserwacji

(Xli,∆li) = (minXoli, Uli, 1(Xo

li ¬ Uli)), i = 1, . . . , nl, l = 1, . . . , k,

gdzie Xoli sa niezależnymi czasami przeżycia, a Uli niezależnymi czasami

cenzurowania pochodzacymi z populacji o ciagłych dystrybuantach Fl iGl, odpowiednio, bedziemy testować

H : F1(x) = F2(x) = · · · = Fk, dla wszystkich x 0,

A : Fr(x) 6= Fs(x), dla pewnych 1 ¬ r < s ¬ k, oraz pewnego x 0,

w obecności nieskończenie wymiarowych parametrów zakłócajacychG1, . . . , Gk.

Historia problemu liczy już blisko pół wieku. A literatura na ten tematjest niezwykle bogata. W sytuacji, gdy k > 2, na uwage zasługuja, miedzyinnymi, nastepujace artykuły: Breslow (1970), Martınez-Camblor (2010),Chen i inni (2016), Liu i Yin (2017).

W referacie przedstawimy nowe rozwiazanie powyższego problemu, prze-dyskutujemy uzyskane wyniki teoretyczne oraz zaprezentujemy reprezen-tatywne wyniki przeprowadzonych badań symulacyjnych, w których po-równano nowe rozwiazanie z popularnymi procedurami.

Literatura[1] Breslow, N. (1970), A generalized Kruskal-Wallis test for comparing Ksamples subject to unequal patterns of censorship, Biometrika, 57, 579-594.

[2] Chen, Z., Huang, H., Qiu, P. (2016), Comparison of multiple hazardrate functions, Biometrics, 72, 39-45.

67

[3] Liu, Y., Yin, G. (2017), Partitioned log-rank tests for the overall ho-mogeneity of hazard rate functions, Lifetime Data Analysis, 23, 400-425.

[4] Martınez-Camblor, P. (2010), Comparing k-independent and right cen-sored samples based on the likelihood ratio, Computational Statistics, 25,363-374.

68

O prawdopodobieństwach inwersji większościw systemach z dwuetapowym głosowaniem

Aleksander ZaigrajewNicolaus Copernicus University, Toruń

Serguei KaniovskiAustrian Institute of Economic Research (WIFO), Vienna

Systemy z niebezpośrednim głosowaniem, takie jak np Kolegium Wy-borcze USA, są podatne na inwersję większości, czyli na sytuacje, w któ-rych wynik wyborów, określony większością głosów elektorów, nie jest po-party większością głosów ogółu wyborców. Uzyskaliśmy prawdopodobień-stwo inwersji większości w modelu dwuetapowego głosowania z trzema sta-nami o różnej liczebności oraz ustaliliśmy dolne i górne oszacowanie tegoprawdopodobieństwa w ogólnym przypadku więcej niż trzech stanów. Oka-zuje się, że prawdopodobieństwo inwersji większości jest Schur-wypukłąfunkcją względem liczebności stanów, co oznacza, że im bardziej są nie-równe stany, tym większe jest prawdopodobieństwo wystąpienia inwersji.To, czy własność Schur-wypukłości ma miejsce też w ogólnym przypadku,pozostaje na razie przypuszczeniem.

Literatura[1] M. R. Feix, D. Lepelley, V. Merlin, J.-L. Rouet (2004), The probabilityof conflicts in a U.S. presidential type election, Economic Theory, 23, 227-257.

[2] M. R. Feix, D. Lepelley, V. Merlin, J.-L. Rouet (2011), Three ways tocompute accurately the probability of the referendum paradox, Mathemati-cal Social Sciences 62, 28-33.

[3] K. May (1948), Probabilities of ceratin election results, Amer. Math.Monthly, 55, 203-209.

69

[4] O. de Mouzon, T. Laurent, M. Le Breton, D. Lepelley (2016), The IACprobability of a divided verdict in a simple U.S. presidential type election,Toulouse School of Economics. Working paper 16 (671).

70

Estymacja i testowanie hipotezw wielowymiarowych modelach normalnych

Roman ZmyślonyUniwersytet Zielonogórski

Własności algebr Jordana (Jordan 1934) lub kwadratowych podprze-strzeni (Seely 1977, Zmyślony 1980) beda omawiane z punktu widzeniastatystycznych zastosowań do wnioskowania w jedno- i wielowymiarowychmodelach normalnych. Zostana zaprezentowane zarówno estymacja, jak itestowanie hipotez. Szczególne przypadki losowych efektów w modelu wie-lowymiarowym z blokowo-symetryczna macierza kowariancji (BCS) dlapodwójnie wielowymiarowych obserwacji (m wymiarowy wektor obserwa-cji ponownie mierzony ze wzgledu u lokacji badź punktów czasowych), cojest wielowymiarowym uogólnieniem symetrycznej macierzy kowariancjidla wielowymiarowych danych (Rao (1945, 1953)).

Literatura[1] Arnold, S. F., Linear Models with Exchangeably Distributed Errors,Journal of the American Statistical Association Volume 74, 1979 - Issue365. 1979.

[2] Covas R., Mexia J.T. , Zmyślony R., Latices in Jordan Algebra, LinearAlgebra and Its Applications 432 (2010), 2679-2690. 2010

[3] Drygas, H.„ The Coordinate-Free Approach to Gauss-Markov Estima-tion, Berlin, Heidelberg: Springer. 1970

[4] Jordan, P., Neumann, von, J. and Wigner, E., On an algebraic generali-zation of the quantum mechanical formalism, The Annals of Mathematics,35(1), 29-64. 1934

[5] Rao, C. R., Familial correlations or the multivariate generalizations ofthe intraclass correlation, Current Science Volume 14, Pages 66-67. 1945

[6] Rao, C. R., Discriminant functions for genetic differentiation and se-lection, SankhyaVolume 12, Pages 229-246. 1953

[7] Roy, A., Leiva, R., Ivan Zezula and Daniel Klein, Testing the equality of

71

mean vectors for paired doubly multivariate observations in blocked compo-und symmetric covariance matrix setup, Journal of Multivariate Analysis,137, 50-60. 2014

72

Lista uczestników

1. dr Magdalena Alama-BućkoUniwersytet Technologiczno-Przyrodniczy w [email protected]

2. prof. Tadeusz BednarskiUniwersytet Wrocł[email protected]

3. dr hab. Mariusz BieniekInstytut Matematyki [email protected]

4. dr hab. Malgorzata BogdanUniwersytet Wrocł[email protected]

5. dr Jacek BojarskiWydział Matematyki, Informatyki i Ekonometrii, Uniwersytet Zielonogó[email protected]

6. prof. Tadeusz CalińskiUniwersytet Przyrodniczy w [email protected]

7. dr Bogdan ĆmielAkademia Gó[email protected]

8. dr hab. Łukasz DębowskiInstytut Podstaw Informatyki [email protected]

73

9. dr Anna DudekAkademia Gó[email protected]

10. dr hab. Katarzyna FilipiakPolitechnika Poznań[email protected]

11. dr hab. Konrad FurmańczykWydział Zastosowań Informatyki i Matematyki [email protected]

12. dr Barbara GołubowskaInstytut Podstawowych Problemów Techniki [email protected]

13. dr hab. Tomasz GóreckiWydział Matematyki i Informatyki, Uniwersytet im. Adama Mickiewiczaw [email protected]

14. dr Agnieszka GoroncyWydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika [email protected]

15. dr Mariusz GrządzielUniwersytet Przyrodniczy we Wrocł[email protected]

16. dr hab. Przemysław GrzegorzewskiWydział Matematyki i Nauk Informacyjnych Politechniki [email protected]

17. prof. Tadeusz InglotWydział Matematyki Politechniki Wrocł[email protected]

18. dr Krzysztof JasińskiUniwersytet Mikołaja Kopernika w Toruniu, Wydział Matematyki i [email protected]

19. dr Joanna Karłowska-PikWydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika [email protected]

74

20. mgr Katarzyna KobylińskaUniwersytet [email protected]

21. dr hab. Wasyl KowalczukInstytut Podstawowych Problemów Techniki [email protected]

22. prof. Mirosław KrzyśkoWydział Matematyki i Informatyki [email protected]

23. mgr Mariusz KubkowskiPolitechnika [email protected]

24. dr Agnieszka KulawikInstytut Matematyki, Uniwersytet Śląski w [email protected]

25. prof. Teresa LedwinaInstytut Matematyczny [email protected]

26. dr Piotr MajerskiAGH Akademia Górniczo-Hutnicza w [email protected]

27. mgr Szymon MajewskiInstytut Matematyczny [email protected]

28. dr hab. Marek MęczarskiInstytut Ekonometrii, Szkoła Głowna Handlowa w [email protected]

29. dr Błażej MiasojedowInstytut Matematyczny PAN oraz Instytut Matematyki Stosowanej i Me-chaniki Uniwersytetu [email protected]

30. dr hab. Andrzej MichalskiKatedra Matematyki, Uniwersytet Przyrodniczy we Wrocł[email protected]

31. mgr Adam MieldziocUniwersytet Przyrodniczy w [email protected]

75

32. prof. Jan MielniczukInstytut Podstaw Informatyki PAN i Wydział Matematyki i Nauk Infor-macyjnych [email protected]

33. mgr Monika MokrzyckaZespół Szkół Komunikacji w Poznaniumonika [email protected]

34. prof. Wojciech NiemiroWydział Matematyki Stosowanej i Mechaniki, Uniwersytet [email protected]

35. dr Karol OparaInstytut Badań Systemowych [email protected]

36. mgr Luiza PańczykInstytut Matematyki [email protected]

37. mgr Agnieszka PiliszekWydział Matematyki i Nauk Informacyjnych [email protected]

38. dr hab. Piotr PokarowskiUniwersytet [email protected]

39. mgr Łukasz RajkowskiWydział Matematyki, Informatyki i Mechaniki, Uniwersytet [email protected]

40. dr Wojciech RejchelUniwersytet [email protected]

41. dr Ewa Eliza RożkoInstytut Podstawowych Problemów Techniki [email protected]

42. mgr Krzysztof RudaśPolitechnika [email protected]

43. prof. Tomasz RychlikInstytut Matematyczny [email protected]

76

44. mgr Norbert RyciakPolitechnika [email protected]

45. mgr Agnieszka SiedlaczekUniwersytet [email protected]

46. mgr Maria SkupieńUniwersytet Pedagogiczny w [email protected]

47. dr Łukasz SmagaWydział Matematyki i Informatyki, Uniwersytet im. Adama [email protected]

48. dr Agnieszka SołtysUniwersytet [email protected]

49. dr Ewa Strzałkowska-KominiakPolitechnika Krakowska, Instytut [email protected]

50. dr Piotr SulewskiInstytut Matematyki, Akademia Pomorska. Sł[email protected]

51. mgr Maria SzpakInstytut Matematyki [email protected]

52. dr Magdalena SzymkowiakPolitechnika Poznań[email protected]

53. dr Paweł TeisseyreInstytut Podstaw Informatyki [email protected]

54. mgr Mateusz WilkWydział Matematyki i Informatyki [email protected]

55. mgr Jakub WojdyłaWydział Matematyki Stosowanej [email protected]

77

56. dr Grzegorz WyłupekInstytut Matematyczny, Uniwersytet Wrocł[email protected]

57. dr hab. Aleksander ZaigrajewUniwersytet M.Kopernika w [email protected]

58. prof. Roman ZmyślonyUniwersytet Zielonogó[email protected]

78

Documents

XLIII Konferencja Statystyka Matematyczna · Estymacja i testowanie hipotez w wielowymiarowych modelach normalnych (str. 71) 15:40–16:00 Mariusz Grządziel O nieujemnej, minimalnie