143
Leíró és matematikai statisztika Matematika alapszak, matematikai elemz ˝ o szakirány Varga László Valószín˝ uségelméleti és Statisztika Tanszék Matematikai Intézet Természettudományi Kar Eötvös Loránd Tudományegyetem Honlap: vargal4.elte.hu E-mail: [email protected] Szoba: D 3-309 2017. július 3. Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 1 / 139

Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

  • Upload
    others

  • View
    20

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró és matematikai statisztikaMatematika alapszak, matematikai elemzo szakirány

Varga László

Valószínuségelméleti és Statisztika TanszékMatematikai Intézet

Természettudományi KarEötvös Loránd Tudományegyetem

Honlap: vargal4.elte.huE-mail: [email protected]

Szoba: D 3-309

2017. július 3.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 1 / 139

Page 2: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Tudnivalók a tantárgyról

Kötelezo irodalom: az eloadásokon elhangzottak – a bemutatottmódszerek, definíciók, tételek, bizonyítások, példák, ellenpéldák,feladatok, feladatok, feladatok, feladatok. Ja, és a feladatok.Ajánlott irodalom:

Korpásné: Általános statisztika I. tankönyv leíró statisztikáhozMolnárné-Tóthné: Általános statisztika példatár I. példatár leíróstatisztikáhozBolla-Krámli: Statisztikai következtetések elmélete. tankönyvmatematikai statisztikáhozFazekas (szerk.): Bevezetés a matematikai statisztikába. tankönyvmatematikai statisztikáhozMóri-Szeidl-Zempléni: Matematikai statisztika példatár.Pröhle-Zempléni: Statistical Problem Solving in R. Elérési helye:http://zempleni.elte.hu/Stat_R_Prohle_Zempleni R programnyelv bevezeto, a benne szereplo statisztikai témák erosenátfednek az eloadással

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 2 / 139

Page 3: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Tudnivalók a tantárgyrólGyakorlat

Gyakjegy szükséges ahhoz, hogy vizsgázhass.A gyakjegy feltételeirol majd a gyakorlaton...A folyamatos gyakorlás, feladat-, problémamegoldás nagyonfontos, anélkül nem lehet elsajátítani a tananyagot!

Vizsga: írásbeli, 2-3 órás, 100 pontosNagy része feladatmegoldás (tesztes és kifejtos feladatok)Definíciók, tételek, bizonyítások, módszerek bemutatásaR nyelvu számítógépes output-ok, számítások végeredményeinekkiértékelése, szöveges értelmezéseKét részes:

I. rész: 40 pontos, minimum 60%-ot (24 pontot) el kell érni – tesztfeladatok,definíciók, tételek, rövid keresztkérdésekII. rész: 60 pontos: foleg kifejtos kérdések

Számológép (6= mobiltelefon) használható

Osztályozás:

karó (1) 0 – 34,99elégséges (2) 35 – 49,99közepes (3) 50 – 64,99jó (4) 65 – 79,99jeles (5) 80 – 100

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 3 / 139

Page 4: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A tananyagról

Tervezett tematika: a honlapomon – ld. syllabusA Statisztika két fo ága:

Leíró statisztika (3-4 héten keresztül)Matematikai statisztika (9-10 héten keresztül)Néhol van/lesz átfedés

A matematika a táblán fog megszületni; a leíró statisztikaianyagrészek nagy része, közérdeku infók, feladatok szövegei,érdekességek, szimulációk, egyéb ábrák lesznek kivetítveMindig gondold végig, hogy amit kiszámoltál, hogyan tudodszövegesen, értelmes és szép, kerek magyar mondatbanértelmezni!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 4 / 139

Page 5: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Szimulációkhoz használt szoftver/programnyelv: RStatisztikai modellezésre, adatok elemzésére kiválóan alkalmasprogramnyelvGyakorlaton mindenki használni fogjaNyílt forráskódú, ma már alig van probléma, feladat, aminek amegoldására ne lenne valamilyen package – akár több isNépszerusége 2017 februárjában az összes programozási nyelvmezonyében:

9. hely – PYPL index16. hely – TIOBE index

Jelenleg a legelterjedtebb matematikai célú programnyelvA gyakorlaton mindenki használni fogja, az eloadáson ezzelmutatok be szimulációkat, a vizsgán kell R-es output-otelemezni/értelmezni (a gyakomon is lesznek R-es beadandók)

Letöltési helye: https://cran.r-project.org/Szövegszerkesztésre ajánlott szoftver: RStudioletöltési helye: https://www.rstudio.com/products/rstudio/download3/

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 5 / 139

Page 6: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A statisztika történeteKezdetek: népszámlálások az ókorban (Kína, Római Birodalom)A statisztika szó eredete (vitatott):

status [latin]: állapotStaat [német]: állam Sokáig a statisztika az állam állapotáról fontos információkbegyujtését jelentette.Tudománnyá válásának kezdete: 17. század – demográfia(népesség/társadalomstatisztika)A 19. századtól

a statisztika mindenféle információ begyujtésének, feldolgozásának ésértelmezésének a tudományává váltÖsszekapcsolódás a valószínuségelmélettel

A számítógépek megjelenésével fejlodése felgyorsult ésjelentosége megnottA statisztika megítélése vegyes, az eredményeket mindig kritikusankell szemlélni Churchill: "I only believe in statistics that I doctoredmyself " (Csak azoknak a statisztikáknak hiszek, amiket én magamhamisítottam.)

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 6 / 139

Page 7: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Motiváció

Kérdések, amikre statisztikai eszközökkel – bizonyos mértékig –választ tudunk adni:

Az idei egy nagyon hideg január volt a Kárpát-medencében.Állíthatjuk-e, hogy nincs is globális felmelegedés?A dohányzás mennyivel növeli annak az esélyét, hogy valaki 70éves koráig tüdorákban betegszik meg?A legutóbbi USA-beli elnökválasztáson a közvélemény-kutatókWisconsin államban közvetlenül a választás elott átlagosan6,5%-os Clinton-elonyt mértek. Mi az esélye, hogy Wisconsin-banTrump fog gyozni? [ 0,7%-kal Trump nyert]Vajon állíthatjuk-e, hogy egy év során a bizonyos méretetmeghaladó napfoltok száma Poisson-eloszlást követ? Elore tudjukjelezni a múltbeli adatok alapján, hogy 2017-ben hány napfoltotfognak észlelni?

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 7 / 139

Page 8: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A statisztika fogalma és ágai

Statisztika: a valóság tömör, számszeru jellemzésére szolgálótudományos módszertan, illetve gyakorlati tevékenység.Ágai:

Leíró statisztika: magában foglalja az információk összegyujtését,összegzését, tömör, számszeru jellemzését szolgáló módszereketMatematikai statisztika: matematikai tudomány, a valószínuségiváltozókkal jellemezheto jelenségek leíró adatainak feldolgozásáról,értelmezésérol és felhasználásáról szóló tudományos módszertan

Megjegyzés: a statisztika szó másik jelentése – matematikaistatisztikai értelemben a statisztika egy valószínuségi (vektor)változó,amit a mintából számolunk (késobb bovebben)

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 8 / 139

Page 9: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró statisztikai alapfogalmak I.

Statisztikai egység: a statisztikai vizsgálat tárgyát képezo egyedStatisztikai sokaság: a megfigyelés tárgyát képezo egyedekösszessége, halmaza. Röviden: sokaság.Statisztikai adat: valamely sokaság elemeinek száma vagy asokaság valamilyen másféle számszeru jellemzoje, mérésieredmény.Statisztikai ismérv: a sokaság egyedeit jellemzo tulajdonság.Röviden: ismérv.Ismérvváltozatok: az ismérvek lehetséges kimenetelei.Minta: a sokaság véges számosságú részhalmaza. [A minta másértelmezéseirol késobb...]

Statisztikai következtetés: a valóságban a teljes sokaságot nemtudjuk vagy akarjuk megfigyelni, ezért csak az egyedek egy szukebbcsoportját figyeljük meg. A viszonylag kisszámú egyedre vonatkozóinformációk alapján szeretnénk a teljes sokaság egészére, egyesjellemzoire, tulajdonságaira érvényes következtetéseket kimondani.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 9 / 139

Page 10: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró statisztikai alapfogalmak

Példák:

Sokaság: most a teremben lévo homo sapiensekStatisztikai egység: a teremben lévo oktatóAdat: a legmagasabb hallgató testtömegindexeIsmérv: nem

Ismérvváltozatok: férfi (→ 1), no (→ 0)Minta: 5 véletlenül választott hallgató

Sokaság: az ELTE TTK Matematikai szakgyujteményébenlévo könyvek

Statisztikai egység: a BF 13873 raktári jelzetu könyvAdat: a szakgyujteményben lévo könyvek számaIsmérv: oldalak száma

Ismérvváltozatok: 631, 321, 153, 463, . . .Minta: a Rényi: Valószínuségszámítás címu könyvek

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 10 / 139

Page 11: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró statisztikai alapfogalmakA sokaságok csoportosítása:

1.) A sokaság egységeinek megkülönböztethetosége szerint:diszkrét: a sokaság egységei elkülönülnek egymástólfolytonos: a sokaság egységeit nem tudjuk természetes módonelkülöníteni (pl. bauxittermelés)

2.) A sokaság idopontra vagy idotartamra értelmezheto-e:álló: csak egy adott idopontra értelmezhetomozgó: csak egy adott idotartamra értelmezheto

3.) A sokaság számossága szerint:véges (a gyakorlatban általában ilyenekkel foglalkozunk)végtelen

A statisztikai adatok fajtái:Alapadatok: közvetlenül a sokaságból származnak (méréssel,megszámlálással)Leszármaztatott adatok: alapadatokból muveletek eredményekéntadódnak (pl. átlagolással, osztással)

A statisztikai adatok nem mindig pontosak – a mért és a ténylegesadat eltérhet egymástól, például kerekítési okokból.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 11 / 139

Page 12: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E1.) Döntsd el, hogy az alábbiak egy sokaságot definiálnak, a sokaságegy-egy egyedére vonatkoznak, vagy statisztikai adatok! A sokaságokés az adatok esetében határozd meg azok típusát!a.) az épület melletti parkolóban álló autók számab.) az épület melletti parkolóban álló autókc.) az épület melletti parkolóban álló ASY-766 rendszámú Opel Vectrad.) az épület melletti parkolóban álló Opelek arányae.) az egy hét alatt legyártott selejtes termékekf.) bankszámlámon jóváírt kamatok

g.) az oszi ELTE 5 km-en legjobb idot eléro másodéves hallgató (nemvolt holtverseny)

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 12 / 139

Page 13: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró statisztikai alapfogalmak

Az ismérvek típusai I.◦ minoségi ismérv: az egyedek számszeruen nem mérheto tulajdonsága◦ mennyiségi ismérv: az egyedek számszeruen mérheto tulajdonsága. Két

fajtájukat különböztetjük meg:� diszkrét: véges vagy megszámlálhatóan sok értéket vehet fel� folytonos: egy adott intervallumon belül kontinuum számosságú értéket felvehet

◦ idobeli ismérv: az egységek idobeli elhelyezésére szolgáló rendezoelvek◦ területi ismérv: az egységek térbeli elhelyezésére szolgáló rendezoelvekAz ismérvek típusai II.◦ közös ismérvek: tulajdonságok, amik szerint a sok. egyedei egyformák◦ megkülönbözteto ismérv: azok a tulajdonságok, amik szerint a sokaság

egyedei különböznek egymástól

Legyen a sokaság: a teremben lévo hallgatók. Példák ismérvekre:minoségi: szemszín, nem közös: orrok számadiszkrét mennyiségi: testvérek száma megkülönbözteto: testsúlyfolytonos mennyiségi: testmagasságidobeli: születési idoterületi: születési hely

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 13 / 139

Page 14: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró statisztikai alapfogalmak

Mérési skálák (mérési szintek):Névleges (nominális): a számok csak ún. kódszámok, amik asokaság egyedeinek azonosítására szolgálnak. Ezek közöttmatematikai relációkat és muveleteket nincs értelme végezni. Pl. ahallgatók neme.Sorrendi (ordinális): a sokaság egyedeinek valamely tulajdonságalapján sorba való rendezése. Az egyedek tulajdonsága közöttikülönbséget nem lehet mérni. Pl. a hallgatók jegyei egy tárgyból.Intervallumskála: a skálaértékek különbségei is valós információtadnak a sokaság egyedeirol. A skálán a nullpont meghatározásaönkényes. Ilyen skálákhoz mértékegység is tartozik. Pl.homérséklet.Arányskála: a skálának van valódi nullpontja is. Mindenmatematikai muvelet elvégezheto ezekkel a számokkal. Pl. ahallgatók magassága.

[Metrikus skála: intervallum- és arányskála közös neve – ritkábbanhasználatos elnevezés]

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 14 / 139

Page 15: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró statisztikai alapfogalmak

Az ismérvek és a mérési skálák kapcsolódása:

Területi // Nominális

Minoségi

55

// Ordinális

Mennyiségi

55

//

))

Különbségi

Idobeli

55

Arány

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 15 / 139

Page 16: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E2.) Határozd meg, hogy a következo ismérvek milyen típusúak éshogy milyen skálán mérhetok! Mennyiségi ismérvek esetén állapítsdmeg, hogy az adott ismérv diszkrét vagy folytonos!a.) szemszínb.) testmagasságc.) homérsékletd.) munkahelye.) születési idof.) egy vállalat bérköltsége

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 16 / 139

Page 17: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró statisztikai alapfogalmak

Statisztikai sor: a sokaság egyes jellemzoinek felsorolása.Az ismérvek fajtája szerint beszélhetünk minoségi, mennyiségi, idobeliés területi sorokról.A statisztikai sorok további csoportosítása:

Csoportosító sor: a sokaság egy megkülönbözteto ismérv szerintiosztályozásának eredménye; az adatok összegezhetok (van’Összesen’ sor)Összehasonlító sor: a sokaság egy részének a sokaságot egymegkülönbözteto ismérv szerinti osztályozásának eredménye; azadatok nem összegezhetokLeíró sor: különbözo fajta, gyakran eltéro mértékegységustatisztikai adatokat tartalmaz

Például ha egy statisztikai sor tartalmazza az osztályteremben ahallgatókat nemek szerint, akkor ez a sor minoségi csoportosító sor.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 17 / 139

Page 18: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró statisztikai alapfogalmak

Statisztikai tábla: a statisztikai sorok összefüggo rendszere.A statisztikai táblák fajtái:

Egyszeru tábla: nem tartalmaz csoportosítást, nincs benneösszegzo sorCsoportosító tábla: egyetlen csoportosító sort tartalmazKombinációs tábla vagy kontingenciatábla vagy kereszttábla:legalább két csoportosító sort tartalmaz

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 18 / 139

Page 19: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E3.) Milyen típusúak az alábbi táblák és milyen típusú sorokattartalmaznak? Határozd meg a táblázatbeli csoportosítás alapjátképzo ismérvek típusát és azok mérési skáláját!a.) Egy vállalatnak 10 telephelye van. Három telephely dolgozóinak

megoszlása életkor szerint:Életkor (év) 2. telephely 8. telephely 9. telephely18–30 20 20 3031–40 20 30 2041–50 20 30 5050–62 20 20 10Összesen 80 100 110

b.) Egy golfklub tagjainak megoszlása nem és testtömegindex szerint:Testtömegindex Férfi No Összesen

–25 30 20 5025–30 10 5 1530– 5 2 7Összesen 45 27 72

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 19 / 139

Page 20: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

c.) A szobámban lévo sok növény közül két növény néhány jellemzoje:A növény neve Súly (kg) Magasság (cm) Tüskék száma (db)Miss Jukka 2,4 52 0Mr. Kaktusz 1,1 43 1111

E4.) Az alábbi mondatokban milyen viszonyszámok rejtoznek? Azokmilyen típusúak? Add meg kiszámításuk pontos képletét!a.) Egy 25 fos csoportban a lányok részaránya 40%.b.) Idén 180, a tavalyihoz képest 10%-kal kevesebb hallgató vette fel a

Diszkrét matematika tantárgyat.c.) Marika összesen 2000 km-es nyaralása alatt autója

átlagfogyasztása 8 l/100 km volt.d.) Az ELTE-n 4000 oktató van, az egy oktatóra jutó hallgatók száma

20.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 20 / 139

Page 21: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Leíró statisztikai alapfogalmak

A statisztikai elemzések egyik legfontosabb eszközei a viszonyszámok(alias: indikátorok). A viszonyszám két statisztikai adat hányadosa.Jelölések:

V = AB

ahol V : viszonyszám; A: a viszonyítás tárgya; B: a viszonyítás alapja.A viszonyszámok fajtái:

Megoszlási: a sokaság egy részének a sokaság egészéhez valóviszonyításaKoordinációs: a sokaság egy részének a sokaság egy másikrészéhez való viszonyításaDinamikus: két idopont vagy idoszak adatának hányadosaIntenzitási: különbözo fajta adatok viszonyítása egymáshoz;gyakran a mértékegységük is eltéro.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 21 / 139

Page 22: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A statisztikai elemzés lépései

1.) Tervezésa.) Mit vizsgálunk, mi a probléma/feladatb.) Hogyan gyujtjük az adatokatc.) Elozetes sejtések, hipotézisek megfogalmazása

2.) Terepmunka – adatgyujtés3.) Adatbevitel, kódolás (ha szükséges)4.) Adatok validálása (biztosan rossz értékek kiszurése, mint például

életkornál a 9999)5.) Adatelemzés, adatellenorzés: leíró statisztikákkal, grafikonok

készítése6.) Hibás adatok kijavítása vagy kihagyása7.) Adatelemzés, statisztikai következtetések levonása – a

matematikai statisztika módszereivel8.) Az eredmények értelmezése, visszacsatolás

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 22 / 139

Page 23: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A grafikus megjelenítés szerepe

A statisztikus legfobb kommunikációs eszközei a diagramok.Az emberek többsége utálja a

barokkos körmondatokkal teletuzdelt statisztikai jelentéseket.számokkal teli táblázatokat.

Az adatokban rejlo információk gyorsabb kinyerését ésfeldolgozását segítik az azokból készített különféle ábrák,diagramok:

kördiagram: megoszlás érzékeltetéséreoszlopdiagram: idosorok ábrázolásáravonaldiagram: idosorok ábrázolásárahisztogram: mennyiségi sorok ábrázolásárastb.

Milyen a jó diagram?illeszkedik az ábrázolt adatok fajtájához és a probléma jellegéheza célközönség meg tudja érteniáttekintheto, olvashatók rajta a feliratok, jelölésekkreatív, esztétikus

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 23 / 139

Page 24: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Összetett viszonyszámok

Adott egy sokaság és annak m része.Jelölje Vi = Ai

Biaz i . részsokaságra vonatkozó viszonyszámot

(i = 1, . . . ,m).Nevük: részviszonyszámok.Jelölje a teljes sokaságra számolt viszonyszámot V .Neve: összetett viszonyszám.

Kiszámítási lehetoségek: V =

m∑i=1

Ai

m∑i=1

Bi

=

m∑i=1

BiVi

m∑i=1

Bi︸ ︷︷ ︸súlyozott

számtani átlag

=

m∑i=1

Ai

m∑i=1

AiVi︸ ︷︷ ︸

súlyozottharmonikus átlag

A leíró statisztikai szakirodalomban az i indexeket – pongyolamódon – le szokták hagyni: V =

∑A∑B =

∑BV∑B =

∑A∑ AV

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 24 / 139

Page 25: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E5.) Egy szálloda 2016-os vendégforgalmáról az alábbiakat ismerjük:

Származási Vendég- Egy vendég- Egy vendégreország éjszakák éjszakára jutó jutó vendég-szerint száma szállás díja éjszakák számaa vendég (éj) (Ft/éj) (éj/fo)Belföldi 5000 16000 4Külföldi 4000 12000 2Összesen 9000 . . . . . .

Határozd meg a teljes hotelre vonatkozóan az egy vendégéjszakárajutó szállás díjat és az egy vendégre jutó vendégéjszakák számát!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 25 / 139

Page 26: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Idosorok elemzése [leíró statisztikai eszközök]

Véges idosor: y1, y2, . . . , yn

Az idosorok fajtái:állapotidosor: a benne lévo adatok egy-egy adott idopontravonatkoznak (pl. egy cég raktárkészlete adott napokon);tartamidosor: a benne lévo adatok idoszakra vonatkoznak (pl. egycég havi nyereségei).

Az idosor értékeibol számítható dinamikus viszonyszámok:Bázisviszonyszámok: bt = yt

yB, ahol t = 1, . . . ,n; B fix, neve:

bázisidoszak (tipikusan B = 1);Láncviszonyszámok: lt = yt

yt−1, ahol t = 2, . . . ,n.

l1-et nem értelmezzük, táblázatban kihúzandó!A bázisviszonyszámokból ki lehet számítani a láncviszonyszámokat ésfordítva:

láncból bázis: bt = lB+1 · lB+2 · ... · lt (t = 1, . . . ,n);bázisból lánc: lt = bt

bt−1(t = 2, . . . ,n).

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 26 / 139

Page 27: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Idosorok elemzése [leíró statisztikai eszközök]

Az idosor átlagos értékének kiszámítása:

tartamidosor esetén sima számtani átlaggal: y =

n∑t=1

yt

n

állapotidosor esetén kronologikus átlaggal: yK =

12 y1+

n−1∑t=2

yt +12 yn

n−1

Az idosor átlagos változásának vizsgálata (állapotidosor eseténértelmes):

a fejlodés átlagos mértéke: d = yn−y1n−1

a fejlodés átlagos üteme: l = n−1√

yny1

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 27 / 139

Page 28: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E6.) Egy vállalat bankszámláján lévo pénz az egyes években január1-jén (millió forint):

Év Pénzösszeg (M Ft) Év Pénzösszeg (M Ft)2009 190 2013 2602010 200 2014 2802011 210 2015 3002012 225 2016 310

a.) Határozd meg a fent látható statisztikai sor típusát!b.) Határozd meg a bázisviszonyszámokat 2010-es bázissal, valamint

a láncviszonyszámokat!c.) 2010-ben átlagosan hány forint volt a cég bankszámláján?d.) A 2010. január elsejét követo 5 évben (2010 és 2015 között)

átlagosan hány forint volt a cég bankszámláján?e.) 2010. január elsejérol 2016. január elsejére évente átlagosan

mennyivel változott a cég pénzvagyona? Értelmezd szövegesenaz eredményt!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 28 / 139

Page 29: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Mennyiségi sorok elemzéseAdatok mennyiségi sorba helyezése:

ha a mennyiségi ismérv diszkrét és az ismérvváltozatok száma"kevés", akkor gyakorisági sort készítünk:

Ismérvértékek Gyakoriságokx1 f1...

...xk fk

Összesen n

a

n: minta mérete

k : különbözo ismérvértékekszáma

fi : hányszor fordul elo az i-edikismérvérték (i = 1, . . . , k )

ha a mennyiségi ismérv folytonos vagy "sok" ismérvváltozat van,akkor osztályközös gyakorisági sort készítünk:

Ismérvértékek Gyakoriságokx1,a – x1,f f1

......

...xk ,a – xk ,f fk

Összesen n

a

xi,a: az i-edik osztályköz alsóhatára

xi,f : az i-edik osztályköz felsohatára

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 29 / 139

Page 30: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Mennyiségi sorok elemzéseOsztályközös gyakorisági sor létrehozása nem egyértelmu

Hány osztályköz legyen?Mik legyenek az osztályközök?

Hüvelykujjszabály:Osztályközök száma: k = blog2 ncAzonos hosszúságú osztályközök, hosszuk: h = xmax−xmin

kJelölések (osztályközös) gyakorisági soroknál:

xi =xi,a+xi,f

2 az i . osztályközép/ismérvérték

fi gyakorisági∑

k=1

gi = fi∑i

fi relatív gyak.

i∑k=1

si = xi · fi értékösszegi∑

k=1

f ′i =i∑

k=1fk kumulált gyak.

g′i =i∑

k=1gk kumulált rel. gyak.

s′i =i∑

k=1sk kum. értékösszeg

zi = si∑i

si relatív értékösszeg z ′i =

i∑k=1

zk kum. rel. értékö.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 30 / 139

Page 31: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Példa - magyarországi jövedelmek 2015-benDecilis jövede- Bruttó éves átlag- Személyek gi g′i si zi z′ilemosztály jövedelem (e Ft) száma (e fo) (%) (%) (Mrd Ft) (%) (%)1 366 965 10 10 353 3 32 652 967 10 20 630 5 73 886 970 10 30 859 6 134 1025 964 10 40 989 7 205 1210 971 10 50 1175 8 296 1368 964 10 60 1318 9 387 1489 969 10 70 1443 10 498 1771 965 10 80 1710 12 619 2164 967 10 90 2092 15 7610 3470 967 10 100 3355 24 100Összesen 1440 9669 100 – 13924 100 –

Megjegyzések:

A KSH (Központi Statisztikai Hivatal) háztartásokra összegezte a jövedelmeket, majdszámolt átlagjövedelmet, így az átlagkeresetek gyerekekre is vonatkoznak, pedig ok nyilvánnem dolgoznak.

Ezek csak a legális jövedelmek, nincs bennük becslés az illegális jövedelmekre.

A táblázatban lévo számok kerekített értékek.

Forrás: https://www.ksh.hu/docs/hun/xstadat/xstadat_eves/i_zhc014a.html?down=1634

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 31 / 139

Page 32: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Mennyiségi sorok elemzése

Koncentráció: a sokasághoz tartozó teljes értékösszeg jelentos részea sokaság kevés egységére összpontosul.Legyen a sokaság n elemu, a különbözo ismérvértékek x1, . . . , xk ,ezek gyakoriságai f1, . . . , fk .

Gini-együttható: G = 1n(n−1)

k∑i=1

k∑j=1

fi fj |xi − xj |.

A koncentráció mutatószámai:Koncentrációs együttható: L = G

2xEz nem más, mint a koncentrációs terület (ld. következo fólia)2-szerese.Értéke 0 és 1 között van; minél nagyobb, annál erosebb akoncentráció.

Herfindahl-index : HI =k∑

i=1z2

i

Értéke 1k és 1 közötti; minél nagyobb, annál erosebb a koncentráció.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 32 / 139

Page 33: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Mennyiségi sorok elemzése

Lorenz-görbe – a koncentráció mértékét szemlélteto ábraVízszintes tengely: g′i kumulált relatív gyakoriságokFüggoleges tengely: z ′i kumulált relatív értékösszegekA 45 fokos egyenest (átló) berajzolásaKoncentrációs görbe berajzolása:(0; 0), (g′1; z ′1), (g′2; z ′2), . . . , (g′k−1; z ′k−1), (g′k ; z ′k ) = (1; 1) pontokösszekötésével kapott töröttvonalKoncentrációs terület : a koncentrációs görbe és az átló általközbezárt területEros a koncentráció, ha a koncentrációs görbe közel van a négyzetoldalaihoz. Gyenge a koncentráció, ha a koncentrációs görbe közelvan az átlóhoz.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 33 / 139

Page 34: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Példa – magyarországi jövedelmek 2015-ben

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Lorenz−görbe

Kumulált relatív gyakoriság

Kum

ulál

t rel

atív

ért

ékös

szeg

Kék: koncentrá-ciós terület

Piros: koncent-rációs görbe (tö-röttvonal)

L = 0,3089

HI = 0,1340,1 ≤ HI ≤ 1

Mihez viszonyít-suk a koncentrá-ció mértékét?

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 34 / 139

Page 35: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Példa – Lorenz-görbe

A tejágazat koncentrációja különbözo országokban

Forrás:http://docplayer.hu/189090-A-magyar-tejagazat-helyzete-es-fejlodesenek-lehetseges-iranya.html

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 35 / 139

Page 36: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E7.) Egy piacon 4 azonos méretu vállalat muködik (a piaci forgalombólazonos mértékben részesednek). Számszerusítsük aHerfindahl-indexszel a piaci koncentráció változását, ha az egyik cégfelvásárolja a másikat!

E8.) Legyen az X valószínuségi változóa.) eloszlása P(X = 0) = P(X = 2) = P(X = 3) = 1

3 ;b.) suruségfüggvénye f (x) = (2x − 2)I(1 < x < 2).Határozd meg X kvantilisfüggvényét!

E9.) Határozzuk meg a standard normális eloszlás móduszát,mediánját, ferdeségét és lapultságát!

E10.) Határozzuk meg a standard Cauchy-eloszlás (Cauchy(0;1)) és aPareto-eloszlás várható értékét!

E11.) Legyenek X ∼ Γ(α, λ), Y ∼ Γ(β, λ) függetlenek! Mutassuk meg,hogy U = X + Y és V = X

X+Y függetlenek, és határozzuk meg azeloszlásukat!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 36 / 139

Page 37: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Eddig megismert eloszlásokJelölése Eloszlása EX D2X

Ind(p) P(X = 1) = pP(X = 0) = 1− p p p(1− p)

Hipgeo(N,M, n) P(X = k) =

(Mk

)(N−Mn−k

)(

Nn

)k = 0, 1, . . . ,min(n,M)

n MN n M

N

(1− M

N

)(1− n−1

N−1

)Bin(n, p) P(X = k) =

(nk

)pk (1 − p)n−k k =

0, 1, . . . , n np np(1− p)

Geo(p) P(X = k) = p(1− p)k−1

k = 1, 2, . . .1p

1−pp2

NegBin(n, p) P(X = k) =(k−1

n−1

)pn(1 − p)k−n k =

n, n + 1, . . .np

n(1−p)

p2

Poi(λ) P(X =k)= λk

k!e−λ k =0,1, . . . λ λ

Jelölése Eloszlásfüggvény Suruségfüggvény EX D2X

E(a, b)

0 ha x ≤ ax−ab−a ha a < x ≤ b1 ha b < x

{1

b−a ha a < x ≤ b0 különben

a+b2

(b−a)2

12

N(m, σ2) . . . 1√2πσ

e−(x−m)2

2σ2 x ∈ R m σ2

Exp(λ)

{1− e−λx ha x ≥ 00 különben

{λe−λx ha x ≥ 00 különben

1λ2

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 37 / 139

Page 38: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

További abszolút folytonos eloszlásokEloszlásneve

Jelölése Eloszlásfüggvény Suruségfüggvény EX D2X

Cauchy Cauchy(a, b)a ∈ R, b > 0

arctg(

x−ab

)+ 1

21

πb[

1+( x−a

b

)2] x ∈ R A∃ A∃

Pareto∗ Pareto(α, β)α, β > 0

{1−

(βx

)αha x ≥ β

0 ha x < β

αβ

(βx

)α+1ha x ≥ β

0 ha x < β

αβα−1

β2α(α−1)2(α−2)

∗ A Pareto-eloszlásnak akkor van véges várható értéke a képletnek megfeleloen, ha α > 1, szórásnégyzete pedigakkor, ha α > 2.

Eloszlásneve

Jelölése Suruségfüggvény EX D2X

Lognor-mális

LN(m, σ2)m∈R, σ>0

1x√

2πσe− (log x−m)2

2σ2 ha x ≤ 0

0 hax < 0em+σ2/2 (eσ

2−1)e2m+σ2

Gamma Γ(α, λ)α, λ > 0

{1

Γ(α)λαe−λx xα−1 ha x ≥ 0

0 ha x < 0αλ

α

λ2

Béta Beta(α, β)α, β > 0

{Γ(α+β)

Γ(α)Γ(β)xα−1(1− x)β−1 x ∈ [0, 1]

0 különbenαα+β

αβ

(α+β)2(α+β+1)

Khí-négyzet

χ2k k ∈ N 1

2k/2Γ(k/2)xk/2−1e−x/2 x ∈ R k 2k

Student tν ν > 0Γ(ν+1

2

)√πνΓ

(ν2

) (1 + x2ν

)− ν+12 0 (ha

ν > 1)νν−2 (ha ν > 2)

Fisher Fd1,d2d1, d2 > 0

Γ

(d1+d2

2

(d12

(d22

)(d1d2

) d12 x

d12−1

(1+

d1d2

x)− d1+d2

2d2

d2−2 (ha

d2 > 2)

2d22 (d1+d2−2)

d1(d2−2)2(d2−4)

(ha d2 > 2)

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 38 / 139

Page 39: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Vastag szélu (fat tailed) eloszlások

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Standard normálisStandard Cauchy

3.0 3.2 3.4 3.6 3.8 4.0

0.00

00.

005

0.01

00.

015

0.02

00.

025

0.03

0 Standard normálisStandard Cauchy

végtelen vagy nem létezik a szórásfontos vastag szélu eloszlások:

Cauchy-eloszlásPareto-eloszlásStudent-féle t-eloszlás alacsonyszabadságfok esetén

"extrém" események, példáulnagy természeti katasztrófák,atomeromu-katasztrófák,globális pénzügyi válságok,az Internet összeomlása,sejtekben ritka mutációk stb.

valószínuségének becslésére jóvalalkalmasabbak a normáliseloszlásnál

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 39 / 139

Page 40: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Standard normális versus vastag szélu eloszlások

Legyenek X ∼N(0;1), Y ∼Cauchy(0;1), U∼Pareto(2; 1

2

)és V ∼ t2

Ekkor a hYi = P(Y>i)

P(X>i) , hUi = P(U>i)

P(X>i) és hVi = P(V>i)

P(X>i) hányadosokalakulása:

i hYi hU

i hVi

2 6,5 2,7 4,03 7,6 · 101 2,1 · 101 3,5 · 101

4 2,5 · 103 4,9 · 102 9,0 · 102

5 2,2 · 105 3,4 · 104 6,6 · 104

6 5,3 · 107 7,0 · 106 1,4 · 107

7 3,5 · 1010 4,0 · 109 7,7 · 109

8 5,9 · 1013 5,9 · 1012 1,1 · 1013

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 40 / 139

Page 41: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Karl Pearson (1857 – 1936)

angol matematikus, statisztikusa matematika statisztika atyjahisztogramPearson-féle korreláció éskapcsolata a lineárisregresszióvalmomentum módszerhipotézisvizsgálat elméleténeklefektetése, p-értékχ2-próbafokomponens analízis (principalcomponent analysis, PCA)"Statistics is the grammar ofscience."

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 41 / 139

Page 42: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Ronald Fisher (1890 – 1962)

angol statisztikus ésbiológusF -eloszlás, Student-félet-eloszláselégséges statisztikaFisher-információa statisztika bayes-imegközelítése

diszkriminancia analízisextrémérték-elmélet (extreme value theory)újramintavételezés – Fisher-féle permutációs teszt

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 42 / 139

Page 43: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Mintavétel a gyakorlatban

Az adatokkal szemben támasztott követelmények:pontosság – ne legyenek hibásak és a szükséges pontosságbanálljanak rendelkezésregyorsaság – hamar be lehessen oket szereznigazdaságosság – az adatgyujtés legyen "olcsó"

Az adatgyujtés fajtái:teljes köru – például a népszámlálásrészleges – a gyakorlatban ez a jellemzo

A részleges adatgyujtés fajtái:reprezentatív (mintavételes): a teljes sokaság jellemzoitmegfeleloen tükrözo részsokaságból, ún. mintasokaságbólszerezzük be az adatokatmonográfia: egy vagy néhány kiemelt egyed részletes vizsgálataegyéb – például önkéntes kitöltésen alapuló internetes teszt

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 43 / 139

Page 44: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Az adatelemzés elemei1.) Adathibák keresése, irreális adatok, értékek törlése. Ha lehet, akkor

a hibák korrigálása.2.) Ha sok a különbözo adat, akkor alkalmas osztályközös gyakorisági

sor készítése3.) Középértékek kiszámítása:

átlag (számtani vagy mértani – amelyiknek értelme van)helyzeti középértékek: módusz (az osztályközös gyakorisági sorból) ésmedián

4.) Szóródási mutatók kiszámítása:szórás és relatív szórásterjedelem és interkvartilis terjedelem

5.) Alakmutatók kiszámítása:ferdeségcsúcsosság

6.) Ábrák készítése:hisztogram/suruséghisztogramboxplot ábraLorenz-görbe (értékösszeg sor esetén)

7.) Visszacsatolás a felfedezett adathibák javításaVarga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 44 / 139

Page 45: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Tapasztalati eloszlás

Tapasztalati eloszlás: minden megfigyeléshez azonos, 1n súlyt

rendelünk ⇒ ez egy diszkrét eloszlásA mintaátlag éppen ennek a várható értékeA tapasztalati eloszlás eloszlásfüggvényét hívjuk tapasztalatieloszlásfüggvénynek, ami egy tiszta ugrófüggvény, értéke mindenmintaelem helyén 1

n nagyságot ugrik felfelé.A tapasztalati eloszlásfüggvény az x helyen:

I(x1 < x) + I(x2 < x) + . . .+ I(xn < x)

n=

n∑i=1

I(xi < x)

n

Azt mutatja meg, hogy a mintaelemek hányad része kisebb x-nél.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 45 / 139

Page 46: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Középértékek számításaAdott az n elemu x = (x1, x2, . . . , xn) tapasztalati minta; osztályközösgyakorisági sor esetén k jelöli az osztályok számát, xi azosztályközepeket, fi pedig a gyakoriságokat.Mintaátlag: az adatok átlagos értéke

Számítása közvetlenül az adatokból: x =

n∑i=1

xi

nSzámítása osztályközös gyakorisági sorból: x =

k∑i=1

fi xi

n

Módusz: a legtöbbször eloforduló ismérvértékSzámítása osztályközös gyakorisági sorból:

Mo= xmo,a + dada+df

· hmo, ahola móduszt tartalmazó osztályköz: amelyikben egységnyi osztályközhosszra a legnagyobb gyakoriság jut ( korrigált gyakoriságok!)xmo,a: a móduszt tartalmazó osztályköz alsó értékehmo: a móduszt tartalmazó osztályköz hosszada: a móduszt tartalmazó osztályköz korrigált gyakorisága mínusz amóduszt közvetlenül megelozo osztályköz korrigált gyakoriságadf : a móduszt tartalmazó osztályköz korrigált gyakorisága mínusz amóduszt közvetlenül követo osztályköz korrigált gyakoriságaVarga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 46 / 139

Page 47: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Középértékek számításaAdott az n elemu x = (x1, x2, . . . , xn) tapasztalati minta; osztályközösgyakorisági sor esetén k jelöli az osztályok számát, xi azosztályközepeket, fi pedig a gyakoriságokat.Mintaátlag: az adatok átlagos értéke

Számítása közvetlenül az adatokból: x =

n∑i=1

xi

nSzámítása osztályközös gyakorisági sorból: x =

k∑i=1

fi xi

n

Módusz: a legtöbbször eloforduló ismérvértékSzámítása osztályközös gyakorisági sorból:

Mo= xmo,a + dada+df

· hmo, ahola móduszt tartalmazó osztályköz: amelyikben egységnyi osztályközhosszra a legnagyobb gyakoriság jut ( korrigált gyakoriságok!)xmo,a: a móduszt tartalmazó osztályköz alsó értékehmo: a móduszt tartalmazó osztályköz hosszada: a móduszt tartalmazó osztályköz korrigált gyakorisága mínusz amóduszt közvetlenül megelozo osztályköz korrigált gyakoriságadf : a móduszt tartalmazó osztályköz korrigált gyakorisága mínusz amóduszt közvetlenül követo osztályköz korrigált gyakoriságaVarga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 46 / 139

Page 48: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Középértékek számítása

Jelölje x∗1 ≤ x∗2 ≤ . . . ≤ x∗n a rendezett tapasztalati mintát.Medián: azon ismérvérték, amelynél ugyanannyi kisebb vagy egyenlo,mint nagyobb vagy egyenlo ismérvérték fordul elo a mintában (a"középso" elem)

Számítása közvetlenül az adatokból:

Me=

x∗n+12, ha n páratlan

x∗n2

+x∗n2 +1

2 , ha n páros

Számítása osztályközös gyakorisági sorból – két lépésben lineárisinterpolációval:

1. Melyik osztályközben van a medián: azon i , amire f ′i−1 ≤n2 és f ′i ≥

n2

2. Me = xi,a +n2−f ′i−1

fi· hi , ahol

xi,a: a mediánt tartalmazó osztályköz alsó értékehi : a mediánt tartalmazó osztályköz hosszaf ′i−1: a mediánt közvetlenül megelozo osztályköz kumulált gyakoriságafi : a mediánt tartalmazó osztályköz gyakorisága

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 47 / 139

Page 49: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Tapasztalati kvantilisek számítása

Tapasztalati y -kvantilis: azon ismérvérték, amelynél a mintaelemeky -ad része kisebb vagy egyenlo, míg (1− y)-ad része nagyobb vagyegyenlo, 0 < y < 1Számítása nem egyértelmu, mi mindig az egyik interpolációs módszertalkalmazzuk két lépésben:1. hányadik mintaelem a keresett kvantilis sorszám: s := (n + 1)y2. lineáris interpolációval a kvantilis kiszámítása

Számítása közvetlenül az adatokból1. Sorszám: s = e + t (e: egészrész, t : törtrész)2. qy = x∗e + t(x∗e+1 − x∗e )

Számítása osztályközös gyakorisági sorból – két lépésben lineárisinterpolációval:

1. Melyik osztályközben van az s-edik elem: jelölje ezt i , azaz f ′i−1 ≤ s ésf ′i ≥ s

2. qy = xi,a +s−f ′i−1

fihi , ahol

xi,a, hi , f ′i−1 és fi ugyanazokat jelöli, mint az elozo fólia alján, csak azadott y -kvantilisre vonatkozóan

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 48 / 139

Page 50: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Tapasztalati kvantilisek számítása

Tapasztalati y -kvantilis: azon ismérvérték, amelynél a mintaelemeky -ad része kisebb vagy egyenlo, míg (1− y)-ad része nagyobb vagyegyenlo, 0 < y < 1Számítása nem egyértelmu, mi mindig az egyik interpolációs módszertalkalmazzuk két lépésben:1. hányadik mintaelem a keresett kvantilis sorszám: s := (n + 1)y2. lineáris interpolációval a kvantilis kiszámítása

Számítása közvetlenül az adatokból1. Sorszám: s = e + t (e: egészrész, t : törtrész)2. qy = x∗e + t(x∗e+1 − x∗e )

Számítása osztályközös gyakorisági sorból – két lépésben lineárisinterpolációval:

1. Melyik osztályközben van az s-edik elem: jelölje ezt i , azaz f ′i−1 ≤ s ésf ′i ≥ s

2. qy = xi,a +s−f ′i−1

fihi , ahol

xi,a, hi , f ′i−1 és fi ugyanazokat jelöli, mint az elozo fólia alján, csak azadott y -kvantilisre vonatkozóan

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 48 / 139

Page 51: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Nevezetes kvantilisek

A szakirodalomban a tapasztalati és az elméleti értékek között nemtesznek különbséget, mindegyiket nagy betuvel írják (ami néhameglehetosen zavaró...). Jelölje qy a tapasztalati y -kvantilist.

tercilisek: T1 = q1/3, T2 = q2/3

kvartlisek:Q1 = q1/4 (alsó kvartilis)Q2 = Me = q2/4 (középso kvartilis vagy medián)Q3 = q3/4 (felso kvartilis)

kvintilisek: K1 = q1/5, K2 = q2/5, K3 = q3/5, K4 = q4/5

decilisek: Di = qi/10, i = 1,2, . . . ,9percentilisek: Pi = qi/100, i = 1,2, . . . ,99

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 49 / 139

Page 52: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Szóródási mutatók számítása

Terjedelem: R = x∗n − x∗1 (R=range)

Interkvartilis terjedelem: IQR = Q3 −Q1

Tapasztalati szórás: az átlagtól való átlagos eltérés abszolútmértékegységben

Számítása közvetlenül az adatokból: sn =

√n∑

i=1(xi−x)2

n

Számítása osztályközös gyakorisági sorból: sn =

√k∑

i=1fi (xi−x)2

nKorrigált tapasztalati szórás: az átlagtól való átlagos eltérés abszolútmértékegységben

Számítása közvetlenül az adatokból: s∗n =

√n∑

i=1(xi−x)2

n−1

Számítása osztályközös gyakorisági sorból: s∗n =

√k∑

i=1fi (xi−x)2

n−1ezt "szeretjük" a legjobban, minden szoftver, programcsomagszórás számításánál ezt veszi alapértelmezettnek

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 50 / 139

Page 53: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Szóródási mutatók számítása

Relatív szórás vagy szórási együttható: az átlagtól való átlagoseltérés százalékban; lehet a korrigált és a korrigálatlan tapasztalatiszórásnégyzetbol is számítani:

V =s∗nx

vagy V =sn

x

Kevésbé gyakran használt, szóródást méro mutatók:

átlagos abszolút eltérés:

n∑i=1|xi−x |

n

Gini-együttható: G = 1n(n−1)

n∑i=1

n∑j=1|xi − xj |.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 51 / 139

Page 54: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Alakmutatók számítása

A szórást ezeknél is választhatjuk a tapasztalati vagy a korrigálttapasztalati szórásnak egyaránt.

Tapasztalati ferdeség

Számítása közvetlenül az adatokból:

n∑i=1

(xi−x)3

(sn)3

Számítása osztályközös gyakorisági sorból:

n∑i=1

fi (xi−x)3

(sn)3

Tapasztalati csúcsosság

Számítása közvetlenül az adatokból:

n∑i=1

(xi−x)4

(sn)4 − 3

Számítása osztályközös gyakorisági sorból:

n∑i=1

fi (xi−x)4

(sn)4 − 3

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 52 / 139

Page 55: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Fontos leíró statisztikai ábrák

Hisztogram – Ha a mennyiségi ismérv folytonos vagy sok ismérvértékvan, akkor alkalmas módon osztályokat képezünk, majd minden egyesadatot pontosan egy osztályhoz rendeljük. A hisztogram az osztályokgyakoriságait ábrázolja.

az osztályok száma: k = blog2 ncha azonos hosszúságú (h)osztályközöket akarunk létrehozni,akkor h =

x∗n−x∗1k

az fi gyakoriságokat ábrázoljuk afüggoleges tengelyensuruséghisztogramnál a gi = fi

nrelatív gyakoriságokat ábrázoljuk afüggoleges tengelyen Lemerülési ido (óra)

Gya

koris

ágok

12 14 16 18 20 22

01

23

45

ha az osztályközök különbözo hosszúságúak, akkor agyakoriságokat egy közös hosszra kell arányosítani

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 53 / 139

Page 56: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Fontos leíró statisztikai ábrák

Boxplot ábra (Box&Whiskers diagram) – ez fekvo, de lehet álló is

A betuk a következo értékeket jelentik:A = max{x∗1 ,Q1 − 1,5 · IQR}B = Q1C = MeD = Q3E = min{x∗n ,Q3 + 1,5 · IQR}F : kieso érték (outlier) azokat az adatpontokat tüntetjük fel, amikA-n vagy E-n kívülre esnek

ahol IQR = Q3 −Q1 az interkvartilis terjedelemVarga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 54 / 139

Page 57: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E12.) Azonos felhasználási körülmények között megmérték 15 azonostípusú mobiltelefon akkumulátorának lemerülési idejét teljesfeltöltöttségrol: (óra)18 16 15 20 12 16 -15 2314 11 17 15 200 19 18 20

a.) Nézd át nagy vonalakban az adatokat, reálisak-e! Próbáld megkijavítani az esetleges adathibákat!

b.) Ábrázold a tapasztalati eloszlásfüggvényt! Számítsd ki ésértelmezd a 16 helyen!

c.) Készíts alkalmas sávszélességu hisztogramot!d.) Elemezd a lemerülési idot az alapstatisztikák: az átlag, a korrigált

tapasztalati szórás, szórási együttható és boxplot ábra (kvartilisek)segítségével! Számítsd ki a tapasztalati ferdeséget éscsúcsosságot! Értelmezd is az eredményeket!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 55 / 139

Page 58: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Megoldás (értelmezések)a.) Adatjavítás: -15 és 200, a helyes értékek vélhetoen 15 és 20b.) Az akkumulátorok 3/8-ad része 16 óránál hamarabb merült le.d.) Az akkumulátorok átlagosan 16,8 óra alatt merültek le. Az egyes

akkumulátorok lemerülési ideje az átlagos lemerülési idotolátlagosan 3,19 órával, azaz 18,96%-kal tért el.Az akkumulátorok egynegyede legfeljebb 15 óra alatt lemerült, mígháromnegyede legalább 15 órán keresztül ébren volt. Azakkumulátorok egyik fele legfeljebb 16,5 óra alatt lemerült, mígmásik fele legalább 16 és fél órán keresztül tudta árammal ellátni atelefont. Az akkumulátorok 75%-a legfeljebb 19,75 óra alattlemerült.Az akkumulátorok lemerülési idejének eloszlása nagyjábólszimmetrikus, csúcsossága a normális eloszláséhoz viszonyítvalaposabb.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 56 / 139

Page 59: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Tipikus rossz értelmezések: (válogatások a tavalyi beadandókból, amostani feladat szövegkörnyezetébe ültetve)

Az akkumulátorok átlaga 16,8 óra. A lemerülési ido szórása 3,19óra. Az alsó kvartilis 15 óra.Az adatok átlaga 16,8 óra.A minta relatív szórása 4,8%, tehát az átlagtól való eltérés 4,8%.A relatív szórás azt fejezi ki, hogy az egyes ismérvértékekátlagosan hány százalékkal térnek el az átlagtól.A medián 16,5, ami a középso mintaelem a rendezett mintában (azelemek nemcsökkeno sorban helyezkednek el). Az alsó kvartilis 15,ami a legkisebb és a medián között középen elhelyezkedo adatszámértéke a rendezett mintában.A standard normális elosztáshoz képest a nikkel elosztása0,002%-kal jobbra ferdül és 0,836%-kal laposabb.A hármas kvartilis értéke 19,75 óra, azaz ...

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 57 / 139

Page 60: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E13.) Egy megyében a kistermelo gazdaságok termoterület szerintimegoszlása:

Termoterület Gazdaságok(hektár) száma

– 4 2004 – 10 90

10 – 20 8020 – 30 6030 – 50 1050 – 10

Összesen 450

a.) Készíts hisztogramot! Milyen az eloszlás ferdesége?b.) Jellemezd (szövegesen is) a kistermelok termoterület szerinti

eloszlását alapstatisztikák (mintaátlag, korrigált tapasztalatiszórás, tapasztalati módusz és kvartilisek) segítségével!

c.) Mennyire koncentrálódik a termoterület? Készíts Lorenz-görbét!Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 58 / 139

Page 61: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Motiváció – becsléselméletAz Asus kicseréli táblagépeit, amennyiben a vevok 8-nál több pixelhibátjelentenek be vásárlástól számítva 3 napon belül. A Samsung már egyetlen,3 napon belül bejelentett pixelhiba esetén is új készüléket biztosít. ASony-nál legalább 2 pixelhiba esetén jár új táblagép.Hogyan tudnánk megbecsülni, hogy a gyártónak éves szinten milyen mértékuvesztesége származik ezekbol a cserékbol?

Kulcskérdés: mi az esélye, hogy egy, a gyártósorról véletlenszeruenleemelt készüléket pixelhiba miatt ki kell cserélni?

Ha X a pixelhibák száma, akkor a kérdéses valószínuség például aSony-nál: P(X ≥ 2)

Milyen eloszlású lehet X (Poisson?) illeszkedésvizsgálat

Ha tudom, hogy Poisson-eloszlású, akkor hogyan becsüljem meg aparamétert? pontbecslés

Milyen intervallumban lesz "nagy" valószínuséggel a becsült paraméter? intervallumbecslés

Ezután készítheto a kérdéses valószínuségre intervallumbecslés, abbólpedig egy intervallumbecslés a várható veszteségre.

Forrás: http://www.origo.hu/techbazis/20130329-ra-lehet-fazni-a-pixelhibas-okosmobillal.htmlVarga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 59 / 139

Page 62: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Motiváció – becsléselméletAz Asus kicseréli táblagépeit, amennyiben a vevok 8-nál több pixelhibátjelentenek be vásárlástól számítva 3 napon belül. A Samsung már egyetlen,3 napon belül bejelentett pixelhiba esetén is új készüléket biztosít. ASony-nál legalább 2 pixelhiba esetén jár új táblagép.Hogyan tudnánk megbecsülni, hogy a gyártónak éves szinten milyen mértékuvesztesége származik ezekbol a cserékbol?

Kulcskérdés: mi az esélye, hogy egy, a gyártósorról véletlenszeruenleemelt készüléket pixelhiba miatt ki kell cserélni?

Ha X a pixelhibák száma, akkor a kérdéses valószínuség például aSony-nál: P(X ≥ 2)

Milyen eloszlású lehet X (Poisson?) illeszkedésvizsgálat

Ha tudom, hogy Poisson-eloszlású, akkor hogyan becsüljem meg aparamétert? pontbecslés

Milyen intervallumban lesz "nagy" valószínuséggel a becsült paraméter? intervallumbecslés

Ezután készítheto a kérdéses valószínuségre intervallumbecslés, abbólpedig egy intervallumbecslés a várható veszteségre.

Forrás: http://www.origo.hu/techbazis/20130329-ra-lehet-fazni-a-pixelhibas-okosmobillal.htmlVarga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 59 / 139

Page 63: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Fontos becslések tulajdonságai

Tétel. Legyen X1, . . . ,Xn i.i.d. minta egy ϑ paraméteru eloszláscsaládból,h : R→ R (mérheto) függvény. Tegyük fel, hogy a táblázatban szereploösszes várható érték/szórás létezik minden ϑ esetén.

Mit be- Ha mivel Torzí- Aszimptotikusan Gyengén/csülünk? becsüljük? tatlan? torzítatlan? erosen

g(ϑ) Tn(X) konzisztens?

EϑX1 X =

n∑i=1

Xi

n igen igen igen

D2ϑX1 S2

n =

n∑i=1

(Xi−X)2

n nem igen igen

D2ϑX1 (S∗n )2 =

n∑i=1

(Xi−X)2

n−1 igen igen igen

Fϑ(x) Fn(x) =

n∑i=1

I(Xi<x)

n igen igen igen

Eϑh(X1)

n∑i=1

h(Xi )

n igen igen igen

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 60 / 139

Page 64: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E14.) El szeretnénk dönteni egy érmérol, hogy az szabályos-e, avagycinkelt. Írjuk fel a problémát leíró statisztikai mezot!

E15.) Legyen X1, . . . ,Xn i.i.d. Bin(4; p) eloszlású valószínuségiváltozó, ahol p ∈ (0; 1) ismeretlen valós paraméter.a.) Adjuk meg a mintateret és a paraméterteret!b.) Határozzuk meg az ismeretlen paraméter ML-becslését!c.) Határozzuk meg az ismeretlen paraméter momentum becslését!d.) Torzítatlan, illetve konzisztens az ML-becslés? Amennyiben nem

torzítatlan, tegyük azzá!e.) Adj torzítatlan becslést g(p) = p2(1− p)2-re!

E16.) Legyen X1 Bin(2; p) eloszlású (egyelemu) minta, ahol p ∈ (0; 1)ismeretlen valós paraméter. Adj X1 segítségével torzítatlan becsléstg(p) = 1

p -re!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 61 / 139

Page 65: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E17.) Minden nap a Mester utca megállónál szállok fel a 4-es/6-osvillamosok valamelyikére. E hét munkanapjain az alábbi várakozásiidoket mértem (perc): 1,2 2 1,5 3 2,1A várakozási idorol tegyük fel, hogy exponenciális eloszlású.a.) Adjuk meg a mintateret és a paraméterteret!b.) Határozzuk meg az ismeretlen paraméter ML-becslését!c.) Határozzuk meg az ismeretlen paraméter momentum-becslését!d.) Szimulációval vizsgáljuk meg, hogy 10, 20, 50 és 100 elemu

exponenciális mintából számolt ML-becslés torzítatlanul becsüli-eaz ismeretlen paramétert!

e.) Torzítatlan, illetve konzisztens az ML-becslés? Amennyiben nemtorzítatlan, tegyük azzá!

f.) Mutassuk meg, hogy az S(X) = n · X ∗1 statisztika torzítatlan, denem konzisztens becslése g(ϑ) = 1

λ -nak!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 62 / 139

Page 66: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

E18.) Legyen X1, . . . ,Xn i.i.d. abszolút folytonos valószínuségiváltozók sorozata.a.) Adjuk meg az i-edik rendezett mintaelem, azaz X ∗i eloszlás- és

suruségfüggvényét (1 ≤ i ≤ n)!b.) Milyen eloszlású X ∗i , amennyiben a mintaelemek (0; 1)-en

egyenletesek? Határozzuk meg az EX ∗i mennyiséget!

E19.) Egy véletlen szám generátorral 20 véletlen számot állítunk eloegy ismeretlen (a,b) intervallumból. A kapott véletlen számoksorrendbe téve és (egyszeruség kedvéért) egészre kerekítve:5 11 12 13 13 14 17 19 21 2223 24 25 27 31 31 32 35 36 38

a.) Adjuk meg a mintateret és a paraméterteret!b.) Határozzuk meg az ismeretlen paraméterek maximum likelihood

becslését!c.) Határozzuk meg a paraméterek momentum-becslését! Értékeljük

a kapottakat!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 63 / 139

Page 67: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Suruségfüggvény becslése – magfüggvényesmódszer (Parzen-Rosenblatt becslés)

fn(x) = 1n·hn

n∑i=1

K(

x−Xihn

), ahol

K : R→ R páros függvény, neve: magfüggvényhn sávszélesség, rendszerint hn = nc , ahol −1 < c < 0 valós szám

A leggyakoribb magfüggvények suruségfüggvény becslésére:

Magfüggvény neve K (x)

Gauss 1√2π

e−x22

Téglalap (rectangular) 12 I(|x | ≤ 1)

Háromszög (triangular) (1− |x |) · I(|x | ≤ 1)

Bartlett–Epanechnikov 34(1− x2) · I(|x | ≤ 1)

Cosinus π4 cos

(π2 x)· I(|x | ≤ 1)

Mi az "optimális" sávszélesség? Mi az, hogy "optimális"? amivelfn(x) "legjobban" közelíti a valódi suruségfüggvényt.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 64 / 139

Page 68: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A Fisher-információ alkalmazásai

hatásos becslés keresése az információs határ segítségével

Cramér-Rao egyenlotlenség: D2ϑ(T (X)) ≥ (g′(ϑ))2

In(ϑ)︸ ︷︷ ︸információs határ

Ha egy g(ϑ)-ra nézve torzítatlan T statisztika esetén egyenloségteljesül, akkor az a statisztika hatásos becslése g(ϑ)-nak.az ML-becslés eloszlásban egy olyan normális eloszláshoz tart,aminek a szórásnégyzete a Fisher-információ inverzeintervallumbecslés az ML-becslésrekísérlettervezésbayes-i statisztika – Jeffrey-féle apriori eloszlás számításáhozneurális hálók, machine learningszámítógépes agykutatás

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 65 / 139

Page 69: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Az információs határ felfedezoi/névadói

Harald Cramér (1893 – 1985) C. R. Rao (1920 – )

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 66 / 139

Page 70: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Hatásos becslés keresése az információs határral

E20.) Legyen X1, . . . ,Xn i.i.d. Ind(p) eloszlású.a.) Határozzuk meg a mintában lévo Fisher-információ értékét!b.) Mutassuk meg, hogy a relatív gyakoriság hatásos becslése a

valószínuségnek!

E21.) Legyen X1, . . . ,Xn i.i.d. Exp(λ) eloszlású.a.) Határozzuk meg a mintában lévo Fisher-információ értékét!b.) Mutassuk meg, hogy a mintaátlag hatásos becslése 1

λ -nak!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 67 / 139

Page 71: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Intervallumbecslések normális eloszlású minta esetén

Legyen X1, . . . ,Xn ∼ N(m, σ2) i.i.d. minta, α > 0 "kicsi" valós szám.

Kétoldali (1− α)-konfidenciaintervallumok:m-re

ha σ ismert, akkor X ± uα2

σ√n

[68.1.]

ha σ ismeretlen, akkor X ± tn−1,α2S∗n√

n [68.2.]

σ2-re:[

(n−1)·(S∗n )2

χ2n−1,1−α2

, (n−1)·(S∗n )2

χ2n−1, α2

][68.3.]

Egyoldali (alsó) (1− α)-konfidenciaintervallumok:m-re

ha σ ismert, akkor[−∞ , X + uα σ√

n

][68.4.]

ha σ ismeretlen, akkor[−∞ , X + tn−1,α

S∗n√n

][68.5.]

σ2-re:[−∞ , (n−1)·(S∗n )2

χ2n−1,α

][68.6.]

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 68 / 139

Page 72: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Intervallumbecslések lefedési valószínusége

E22.) Generáljunk n = 5,10,20,50,100 elemu mintáta.) N(1,22);b.) Exp(2);c.) E(1; 5)eloszlásból 104 alkalommal, majd becsüljük meg a várható értékreadott x ± σ√

n uα/2 intervallum lefedési valószínuségét α = 0,01, 0,05

és 0,1 esetén, ahol uα/2 = Φ−1(1− α/2)!

E23.) Generáljunk n = 5,10,20,50,100,200,500,1000 elemu mintátExp(λ) eloszlásból 104 alkalommal, majd adjunk az ismeretlen λparaméter ML-becslésére intervallumbecslést annak aszimptotikuseloszlása segítségével! Becsüljük meg az intervallumok lefedésivalószínuségét α = 0,01, 0,05 és 0,1 esetén!

Kifejtés után: λn ±λ0·uα/2√

n ≈ λn ±λn·uα/2√

n = λn ·(

1± uα/2√n

)Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 69 / 139

Page 73: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Hipotézisvizsgálati alapfogalmak

Hipotézis: egy állítás, aminek igazságát vizsgálni szeretnénk.Egy hipotézist vagy elfogadunk, vagy elutasítunk/elvetünk.A paraméterteret diszjunkt részekre bontjuk: Θ = Θ0 ∪∗ Θ1

A hipotézisvizsgálati alapfeladat (absztraktul, a gyakorlatbankonkretizálni szoktuk)H0 : ϑ ∈ Θ0 nullhipotézisH1 : ϑ ∈ Θ1 ellenhipotézis vagy alternatív hipotézisA nullhipotézis esetén az elfogadás helyett helyesebb azt mondani,hogy nem tudjuk elvetni. Az okokról késobb.A H0 hipotézisnek azon állítást szokás választani,

ami sok éves tapasztalatnak felel megamit "remélünk", hogy teljesülamit elutasítva, gyakran negatív következményekkel jár (büntetés,bírság, jobb modell keresésének kényszere stb.)

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 70 / 139

Page 74: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Hipotézisvizsgálati alapfogalmak

Hogyan döntsünk? Vajon H0 igaz, vagy H1? jó lenne valamilyenmatematikai eljárás

Statisztikai próba vagy röviden próba: az a módszer/eljárás, amelysorán a minta segítségével döntést hozunk a hipotézis(ek)rol.Paraméteres próba: Olyan próba, amely során a feladatban lévoismeretlen eloszlás jellege ismert, és a nullhipotézis az eloszlásvalamely paraméterére (vagy annak egy minket érdeklofüggvényére) vonatkozik.

Mintatér felbontása két diszjunkt részre: X = Xe ∪∗ Xk

Xk : kritikus tartomány – azon x megfigyelések halmaza, amikreelutasítjuk a nullhipotézistXe: elfogadási tartomány – azon x megfigyelések halmaza,amikre elfogadjuk a nullhipotézist

Ez oké, de mi alapján rakjunk egy x megfigyelt mintát Xk -ba vagyXe-be? 2 fóliával késobb

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 71 / 139

Page 75: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Hipotézisvizsgálati alapfogalmak

Döntési mátrix hipotézisvizsgálat esetén:Döntés H0-t

"Valóság" elfogadjuk (Xe) elutasítjuk (Xk )H0 teljesül (Θ0) helyes döntés elsofajú hibaH0 nem teljesül (Θ1) másodfajú hiba helyes döntés

Elsofajú hiba (type I. error): a nullhipotézist elvetettük, de nemszabadott volna, mert a H0-beli állítás igazValószínusége: α(ϑ) := Pϑ(Xk ), ahol ϑ ∈ Θ0További szokásos jelölések: α(ϑ) = Pϑ∈Θ0(Xk ) = PH0(Xk ) = P0(Xk )

Másodfajú hiba (type II. error): a nullhipotézist elfogadtuk, de nemszabadott volna, mert a H0-beli állítás hamisValószínusége: β(ϑ) := Pϑ(Xe), ahol ϑ ∈ Θ1További szokásos jelölések: β(ϑ) = Pϑ∈Θ1(Xe) = PH1(Xe) = P1(Xe)

Erofüggvény: ψ(ϑ) := Pϑ(Xk ), ahol ϑ ∈ Θ1

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 72 / 139

Page 76: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Hipotézisvizsgálati alapfogalmak

Terjedelem: α := supϑ∈Θ0

α(ϑ)

Hosszabban: a próba pontos terjedelmének is hívjákA hipotézisvizsgálati feladat elején rögzíteni szokás a terjedelmet,tipikusan 5%-on (esetleg más szám 1% és 10% között). Ezáltaldöntésünket

5%-os elsofajú hiba valószínusége mellett, vagy másképp:95%-os megbízhatósággal

fogjuk meghozni.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 73 / 139

Page 77: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Hipotézisvizsgálati alapfogalmak

Legyen H0 : ϑ ∈ ΘH0 egyszeru, ha |Θ0| = 1 (egyelemu)H0 összetett, ha |Θ0| > 1 (legalább kételemu)

Kétoldali próba: H0 : ϑ = ϑ0 H1 : ϑ 6= ϑ0Egyoldali próba: H0 : ϑ = ϑ0 H1 : ϑ > ϑ0 (vagy H1 : ϑ < ϑ0)Próbastatisztika: Olyan alkalmas statisztika, amely segítségével akritikus tartományt meghatározzuk.

Ez jellemzoen úgy szokott menni, hogy valós értéku T : X → Rpróbastatisztikát választunk, majd az alábbi alakú kritikus tartományokközül keressük valamelyiket:Xk = {x ∈ X : T (x) > c} (egyoldali próbánál)Xk = {x ∈ X : T (x) < c} (egyoldali próbánál)Xk = {x ∈ X : |T (x)| > c} (kétoldali próbánál)

c neve: kritikus érték, ami jellemzoen függ a próba terjedelmétol, ezértcα-val jelöljük. Ez általában arra utal, hogy cα a T (X) valószínuségiváltozó α-kvantilise.A próba meghatározása: elore rögzített α terjedelemhez azt a cα értéketkeressük, amire a próba terjedelme éppen α: sup

ϑ∈Θ0

Pϑ(T (X) > cα) = α.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 74 / 139

Page 78: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E24.) Minoségellenorként az a feladatunk, hogy a gyártósorokatszükség esetén leállítsuk, amennyiben túl sok selejtes termék kerül leróluk. A megengedett selejtarány legfeljebb 5%. Összesen 25terméket vizsgálunk meg. Ha a selejtesek száma legalább k , akkorleállítjuk a gyártósort. Amennyiben kevesebb selejtesünk van k -nál,akkor a termelés mehet tovább.a.) Írjuk fel a hipotéziseket és a próbát!b.) Határozzuk meg az elsofajú hibát!c.) Mely k érték esetén lesz az elsofajú hiba valószínusége

legközelebb 5%-hoz? Adjuk meg azt a véletlenített próbát, amivela terjedelem pontosan 5%!

A továbbiakban tegyük fel, hogy a vizsgált gyártósoron a termékekmeghibásodásának valószínusége 0,1.d.) Határozzuk meg a másodfajú hibát!e.) Ábrázoljuk az erofüggvényt különbözo k értékek esetén!f.) Mely k érték esetén lesz az elsofajú és a másodfajú hiba

valószínuségének összege minimális?Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 75 / 139

Page 79: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E25.) Az (A) gép által termelt termékek egy bizonyos jellemzojeN(11,12), míg a (B) gépen termelt termékeké N(13,42) eloszlású.LegyenekH0 : a mintánk az (A) gépen készültH1 : a mintánk a (B) gépen készültHa egy 16 elemu minta átlaga legfeljebb 12, akkor elfogadjuk H0-t,különben elvetjük.a.) Mekkora az elsofajú és a másodfajú hiba valószínusége?b.) Milyen c értéket adjunk meg a 12 helyett ahhoz, hogy 0,05 legyen

a próba terjedelme? Ekkor mennyi a másodfajú hibavalószínusége?

c.) Milyen c értéket adjunk meg a 12 helyett ahhoz, hogy az elsofajúés a másodfajú hiba valószínuségének összegét minimalizáljuk?

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 76 / 139

Page 80: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A hipotézisvizsgálat menete I.

1.) A terjedelem (α) lefixálása, ami jellemzoen 1% és 10% közötti,tipikusan 5%Megbízhatóság= 1− α, általában %-osan írjuk

2.) Nullhipotézis (H0) felírása – sokévi, megszokott, elvárt értékeknekmegfelelo paramétertartomány

3.) Alternatív hipotézis (H1) felírása – a minta alapján bennünketérdeklo kérdésnek megfelelo paramétertartomány

4.) A probléma megoldására alkalmas próba vagy próbák kiválasztása– feltételek ellenorzése

5.) Próbastatisztika kiszámítása6.) Kritikus érték kiszámítása, kritikus tartomány (Xk ) megállapítása7.) Döntés:

x ∈ Xk eros döntés, H1-et elfogadjuk, H0-t elvetjük/elutasítjukx ∈ Xe gyenge döntés, H1-et elutasítjuk, H0-t nem tudjukelutasítani

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 77 / 139

Page 81: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A hipotézisvizsgálat menete II.

1.) A terjedelem (α) lefixálása2.) Nullhipotézis (H0) felírása3.) Alternatív hipotézis (H1) felírása4.) A probléma megoldására alkalmas próba vagy próbák kiválasztása5.) Számítógéppel dolgozva, az elozo fólián lévo 5.)-6.)-7.) helyett

dönthetünk az ún. p-érték alapján is:p-érték < α ⇔ x ∈ Xk ⇔ H1-et elfogadjuk

p-érték: az a terjedelem, amire a kritikus érték megegyezik apróbastatisztikával

Ha például p-érték= 0.06, akkor 5%-os elsofajú hiba valószínuségemellett nem tudjuk elvetni H0-t, de 10%-os elsofajú hiba valószínuségeesetén már elvetjük H0-t.Ha például p-érték= 0.16, akkor a hagyományos, értelmes – 90% és99% közötti – megbízhatósági szinteken nem tudjuk elvetni H0-t.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 78 / 139

Page 82: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Nevezetes paraméteres próbák – áttekintés

Próbák a normális eloszlás várható értékére vonatkozóan:Egymintás u-próba, egymintás t-próbaKétmintás próbák:

a két minta a két mintafüggetlen nem független

σ1 és σ2 kétmintás u-próba egymintás u-próbaismert a különbségekre

elozetes F -próbaσ1 és σ2 σ1 = σ2 σ1 6= σ2 egymintás t-próbaismeretlen kétmintás t-próba Welch-próba a különbségekre

Próbák normális eloszlás szórásnégyzetére vonatkozóan:Egymintás próba: χ2-próbaKétmintás próba: F -próba

Összefüggo (páros) minták: Xi és Yi ugyanahhoz, az i-edik személy-hez, tárgyhoz, objektumhoz tartozó véletlen mennyiség, i = 1,2, . . .

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 79 / 139

Page 83: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Nevezetes paraméteres próbák

Egymintás u-próba

X1, . . . ,Xn ∼ N(m, σ2), ahol σ ismert, m ismeretlen paraméter

Kétoldali: H0 : m = m0H1 : m 6= m0

Próbastatisztika: T (X) = u :=√

n X−m0σ

H0 esetén∼ N(0,1)Kritikus tartomány: Xk = {x : |u| > uα/2}

Egyoldali próbák esetén H0 és a próbastatisztika ugyanaz marad, csakH1, és ezáltal a kritikus tartomány változik.Egyoldaliak: H1 : m > m0 H1 : m < m0Kritikus tartomány: Xk = {x : u > uα} Xk = {x : u < −uα}

Áttekintés

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 80 / 139

Page 84: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Nevezetes paraméteres próbák

Egymintás t-próba

X1, . . . ,Xn ∼ N(m, σ2), ahol m és σ ismeretlen paraméterek

Kétoldali: H0 : m = m0H1 : m 6= m0

Próbastatisztika: T (X) = t :=√

n X−m0S∗n

H0 esetén∼ tn−1

Kritikus tartomány: Xk = {x : |t | > tn−1,α/2}

Egyoldali próbák esetén H0 és a próbastatisztika ugyanaz marad, csakH1, és ezáltal a kritikus tartomány változik.Egyoldaliak: H1 : m > m0 H1 : m < m0Kritikus tartomány: Xk = {x : t > tn−1,α} Xk = {x : t < −tn−1,α}

Áttekintés

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 81 / 139

Page 85: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Nevezetes paraméteres próbák

Kétmintás u-próba

X1, . . . ,Xn ∼ N(m1, σ21)

Y1, . . . ,Ym ∼ N(m2, σ22) független minták

ahol m1, m2 ismeretlen paraméterek, σ1, σ2 ismert

Kétoldali: H0 : m1 = m2H1 : m1 6= m2

Próbastatisztika: T (X,Y) = u := X−Y√σ2

1n +

σ22

m

H0 esetén∼ N(0,1)

Kritikus tartomány: Xk = {(x,y) : |u| > uα/2}Egyoldali próbák esetén H0 és a próbastatisztika ugyanaz marad, csakH1, és ezáltal a kritikus tartomány változik.Egyoldaliak: H1 : m1 > m2 H1 : m1 < m2Kritikus tartomány: Xk = {(x,y) : u > uα} Xk = {(x,y) : u < −uα}Áttekintés

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 82 / 139

Page 86: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Nevezetes paraméteres próbák

Kétmintás t-próba

X1, . . . ,Xn ∼ N(m1, σ21)

Y1, . . . ,Ym ∼ N(m2, σ22) független minták

ahol m1, m2, σ1 = σ2 ismeretlen paraméterek

Kétoldali: H0 : m1 = m2H1 : m1 6= m2

Próbastatisztika: T (X,Y)= t :=√

nmn+m

X−Y√(n−1)(S∗1 )2+(m−1)(S∗2 )2

n+m−2

H0 esetén∼ tn+m−2

Kritikus tartomány: Xk = {(x,y) : |t | > tn+m−2,α/2}Egyoldali próbák esetén H0 és a próbastatisztika ugyanaz marad, csakH1, és ezáltal a kritikus tartomány változik.Egyoldaliak: H1 : m1 > m2 H1 : m1 < m2Krit. tart.: Xk = {(x,y) : t > tn+m−2,α} Xk = {(x,y) : t < −tn+m−2,α}Áttekintés

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 83 / 139

Page 87: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Nevezetes paraméteres próbák

Welch-próbaX1, . . . ,Xn ∼ N(m1, σ

21) és Y1, . . . ,Ym ∼ N(m2, σ

22) független minták

ahol m1, m2, σ1 6= σ2 ismeretlen paraméterekKétoldali: H0 : m1 = m2

H1 : m1 6= m2

Próbastatisztika: T (X,Y) = t ′ := X−Y√(S∗1 )2

n +(S∗2 )2

m

H0 esetén∼ tf , ahol

1f = c2

n−1 + (1−c)2

m−1 , c =(s∗1 )2

n(s∗1 )2

n +(s∗2 )2

m

, ha s∗1 > s∗2 (így csináljuk)

Kritikus tartomány: Xk = {(x,y) : |t | > tf ,α/2}Egyoldali próbák esetén H0 és a próbastatisztika ugyanaz marad, csakH1, és ezáltal a kritikus tartomány változik.Egyoldaliak: H1 : m1 > m2 H1 : m1 < m2Krit. tartomány: Xk = {(x,y) : t > tf ,α} Xk = {(x,y) : t < −tf ,α}Áttekintés

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 84 / 139

Page 88: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Nevezetes paraméteres próbák

χ2-próba (normális eloszlás szórására)

X1, . . . ,Xn ∼ N(m, σ2), ahol m és σ ismeretlen paraméterek

Kétoldali: H0 : σ = σ0H1 : σ 6= σ0

Próbastatisztika: T (X) = h := (n−1)(S∗n )2

σ20

H0 esetén∼ χ2n−1

Kritikus tartomány: Xk ={

x : h < χ2n−1,α/2 vagy h > χ2

n−1,1−α/2

}Egyoldali próbák esetén H0 és a próbastatisztika ugyanaz marad, csakH1, és ezáltal a kritikus tartomány változik.Egyoldaliak: H1 : σ > σ0 H1 : σ < σ0Kritikus tartomány: Xk = {x : h > χ2

n−1,1−α} Xk = {x : h < χ2n−1,α}

Áttekintés

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 85 / 139

Page 89: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Nevezetes paraméteres próbák

F -próba

X1, . . . ,Xn ∼ N(m1, σ21)

Y1, . . . ,Ym ∼ N(m2, σ22) független minták

ahol m1, m2, σ1, σ2 ismeretlen paraméterek

Kétoldali: H0 : σ1 = σ2H1 : σ1 6= σ2

Próbastatisztika: T (X,Y) = F =(S∗1 )2

(S∗2 )2H0 esetén∼ Fn−1,m−1

Kritikus tartomány:Xk = {(x,y) : F < Fn−1,m−1,α/2 vagy F > Fn−1,m−1,1−α/2}Egyoldali próbák esetén H0 és a próbastatisztika ugyanaz marad, csakH1, és ezáltal a kritikus tartomány változik.Egyoldaliak: H1 : σ1 > σ2 H1 : σ1 < σ2Krit. tart.: {(x,y) : F >Fn−1,m−1,1−α} {(x,y) : F <Fn−1,m−1,α}Áttekintés

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 86 / 139

Page 90: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E26.) A fogyasztóvédelmi hatóság többszöri lakossági bejelentéstkapott, hogy a Portokall nevu, fél literes kiszerelésu narancsitalokban aflakonra írt 500 ml-nél jóval kevesebb üdíto van. Ez alapján vizsgálatotkezdtek, a fogyasztóvédelem munkatársa vásárolt a boltban 10darabot, majd megnézte a benne lévo édes nedu térfogatát (ml):483, 502, 498, 496, 502, 483, 494, 491,505, 486.Tegyük fel, hogy egy fél literes üdítos üvegbe töltött narancslémennyisége normális eloszlást követ.Állíthatjuk-e 95%-os megbízhatóság esetén, hogy a Portokall gyártójaát akarja verni a vevoket?

E27.) Használjuk az elso eloadáson kitöltött kérdoív eredményeit, éspróbáljunk meg az alapján a TTK hallgatóira vonatkozólagkövetkeztetéseket levonni! Állíthatjuk-e, hogy a TTK-na.) a fiúk legalább 10 cm-rel magasabbak a lányoknál;b.) a lányok magasságának szórása k cm, ahol k = 1,2, . . . ,15?

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 87 / 139

Page 91: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E28.) Bálint gazdának 66 tehene van, teheneit reggel kitereli nagybirtokára, és egész nap ott legelésznek. Este összefut a helyikocsmában a szomszéd gazdálkodóval, Máté gazdával, aki elmeséli, atehenei tejének tejzsírszázaléka jelentosen megnott, mióta szilázzsalis eteti oket minden nap. Ezen felbuzdulva, Bálint gazda úgy dönt,hogy 6 kedvenc tehenén kipróbálja ezt a "diétát" – egy hónaponkeresztül szilázzsal is etette oket, majd megnézte a tejüktejzsírszázalékát:

Mit ettek Julcsa Bogár Riska Csendes Bimbó MulaCsak füvet 3,84 3,79 3,78 4,00 3,83 3,84Szilázst is 3,90 4,05 3,8 4,01 3,81 3,9

Vizsgáljuk meg alkalmas statisztikai próbával, hogy a szilázs növeli-e atej tejzsírszázalékát!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 88 / 139

Page 92: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

Az elozo feladat végeredménye (számítógéppel megoldva):p-érték= 0,0867 (egymintás t-próba a különbségekre)

Helyes, a szövegkörnyezetbe ágyazott szöveges értelmezések:95%-os megbízhatósággal elutasíthatjuk, hogy a szilázzsal valóetetés növeli a tehenek tejének tejzsírszázalékát. ( H1-et elvetjük)5%-os elsofajú hiba valószínusége mellett nem tudjuk elutasítani,hogy a szilázzsal való etetés nem változtat a tehenek tejénektejzsírszázalékán. ( H0-t nem tudjuk elvetni)90%-os megbízhatóság esetén azt mondhatjuk, hogy a szilázzsalvaló etetés növeli a tehenek tejének tejzsírszázalékát.

Nem teljesen korrekt értelmezés:5%-os elsofajú hiba valószínusége mellett azt mondhatjuk, hogy aszilázzsal való etetés nem változtat a tehenek tejénektejzsírszázalékán. ( H0-t elfogadjuk)

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 89 / 139

Page 93: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

Helytelen, hibás szöveges értelmezések:95%-os valószínuséggel elvethetjük, hogy a szilázzsal való etetésnöveli a tehenek tejének tejzsírszázalékát.5%-os valószínuséggel nem tudjuk elutasítani, hogy a szilázzsalvaló etetés nem változtat a tehenek tejének tejzsírszázalékán.8,67% az esélye, hogy a szilázzsal való etetés növeli a tehenektejének tejzsírszázalékát.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 90 / 139

Page 94: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A próbafüggvény

Próbafüggvény: ϕ: X → [0; 1] ennyi valószínuséggel vetem el aminta alapján a nullhipotézist

ϕ(x) := I(x ∈ Xk ) =

{1 ha x ∈ Xk

0 ha x ∈ Xe

a próbafüggvény is egy statisztikaa próbafüggvény egyértelmuen meghatározza a próbát, ezértgyakran a próbát magával a ϕ függvénnyel azonosítják

tipikusan ϕ(x) =

{1 ha T (x) ≥ cα0 ha T (x) < cα

alakú,

ahol T egy alkalmas statisztika,cα pedig a kritikus érték, amit úgy határozunk meg, hogyPϑ∈Θ0(Xk ) = Eϑ∈Θ0 (ϕ(X)) = Pϑ∈Θ0(T (X) ≥ cα) = α teljesüljöndiszkrét eloszlású minták esetén rendszerint nem lehet úgymeghatározni cα-t, hogy a terjedelem pontosan α legyen, ezért apróbafüggvény fogalmának általánosítására, úgynevezettvéletlenítésre (randomizálásra) van szükség ilyen esetek miatt.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 91 / 139

Page 95: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A próbafüggvény

Véletlenített próbafüggvény: ϕ: X → [0; 1]

ϕ(x) := I(x ∈ Xk ) =

1 ha x ∈ Xk

p ha x ∈ Xr

0 ha x ∈ Xe

, ahol

Xr neve: véletlenítési vagy "randomizálási" tartomány; p ∈ [0; 1]

Tipikusan ϕ(x) =

1 ha T (x) > cαpα ha T (x) = cα0 ha T (x) < cα

alakú,

ahol T egy alkalmas statisztika,cα a kritikus érték és pα ∈ [0; 1], amiket úgy határozunk meg, hogyEϑ∈Θ0 (ϕ(X)) = Pϑ∈Θ0(T (X) > cα) + pα · Pϑ∈Θ0(T (X) = cα) = αteljesüljönAz ilyen próbafüggvénnyel végrehajtott próbát véletlenítettpróbának hívjuk.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 92 / 139

Page 96: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Próbák tulajdonságai

Torzítatlan próba (legfeljebb α terjedelemmel):Pϑ(X ∈ Xk ) ≤ α ∀ϑ ∈ Θ0-ra ésPϑ(X ∈ Xk ) ≥ α ∀ϑ ∈ Θ1-re

Megfontolás a definíció mögött: ha nem teljesül H0, akkor a mintaalapján az elvetés valószínusége legalább annyi legyen, minthaigaz lenne H0.Konzisztens próba (α terjedelemmel): olyan próba, aminek α aterjedelme és a mintaméret növelésével az erofüggvény 1-hezkonvergál. Formálisan felírva:Pϑ∈Θ0(X ∈ Xk ) = α ésψn(ϑ)

n→∞−→ 1 ∀ϑ ∈ Θ1-re, aholψn az n elemu mintához tartozó erofüggvényMegj.: ha az erofüggvény 1-hez konvergál, akkor ebbol következik,hogy a másodfajú hiba valószínusége 0-hoz tart.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 93 / 139

Page 97: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Próbák tulajdonságai

Legyenek ϕ1 és ϕ2 torzítatlan próbák. A ϕ1 próba erosebb ϕ2próbánál, ha ϕ1 próba erofüggvénye ∀ϑ ∈ Θ1 esetén nagyobb vagyegyenlo, mint ϕ2 próba erofüggvényeMegj.: nem biztos, hogy két próba közül az egyik erosebb amásiknálEgyenletesen legerosebb próba: az adott hipotézisvizsgálatifeladat esetén minden más torzítatlan próbánál erosebbMegj.: nem biztos, hogy létezik egyenletesen legerosebb próba azadott feladatraMikor létezik egyenletesen legerosebb próba? Ha létezik, akkorhogyan találjuk meg?

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 94 / 139

Page 98: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Legerosebb próba keresése

Ha mind H0, mind H1 egyszeru, akkor adott α terjedelemhez lehetlegerosebb próbát találni, ezt pedig úgy hívják, hogyvalószínuség-hányados próba.A hipotézisek folytonos esetre (diszkrétre a suruségfüggvény helyett akonkrét eloszlást kell írni):H0 : f = f0H1 : f = f1

A próba kritikus tartománya: Xk =

{x :

T (x)︷ ︸︸ ︷f1(x)

f0(x)> cα

}Tehát azokat az x-eket, amikre a T (x) = f1(x)

f0(x) statisztika nagy, bepakol-juk a kritikus tartományba egészen addig, míg az adott α terjedelmet elnem érjük. Diszkrét esetben ehhez általában véletlenítésre van szük-ség, azaz bizonyos x-ek esetén nem 1 vagy 0, hanem egy, e két számközé eso (jelöljük pα-val) valószínuséggel vetjük el a nullhipotézist.A valószínuség-hányados próba elméleti hátterét a Neyman-Pearson(alap)lemma biztosítja.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 95 / 139

Page 99: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E29.) Legyen X1, . . . ,Xn minta az f (x) =

{2xa2 ha 0 ≤ x ≤ a0 különben

suruségfüggvényu eloszlásból, ahol a ismeretlen paraméter. Adjunkmeg α terjedelemhez egyenletesen legerosebb próbát az alábbihipotézisek esetén:H0 : a = 1H1 : a = 1

2

E30.) Legyen két megfigyelésünk a (3; p) paraméteru binomiáliseloszlásból. Adjuk meg a legjobb (egyenletesen legerosebb) 0,04terjedelmu próbát az alábbi hipotézisekre:H0 : p ≥ 1

2H1 : p < 1

2

E31.) Mutassuk meg, hogy a kétoldali, egymintás u-próba torzítatlanés konzisztens!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 96 / 139

Page 100: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E32.) Keressünk n elemu N(m, σ2) független minta eseténegyenletesen legerosebb α terjedelmu próbát aH0 : m = m0H1 : m > m0hipotézisvizsgálati feladatra, ha σ ismert!Határozzuk meg a kritikus értéket, ha a próbastatisztikaT (X) =

√n X−m0

σ ! Ez alapján kimondható a következoTétel: az egyoldali u-próba egyenletesen legerosebb a H0 : m = m0,H1 : m > m0 hipotézisvizsgálati feladatra. (H1 : m < m0-re is)

Mi történik, ha az u-próbák, illetve t-próbák feltételei közül nem teljesülaz, hogy a minta normális eloszlású, mi mégis hagyományos módonvégrehajtjuk a próbát?E33.) Vizsgáljuk meg szimulációval a kétoldali, egymintás t-próbaterjedelmét, amennyiben a minta n = 10,20,50,100,200 elemu,független normális, illetve exponenciális eloszlású!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 97 / 139

Page 101: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Motiváció – χ2-próbával vizsgálható problémák

Szabályos-e egy érme/kocka?Normális eloszlást követ-e a magyar nok testmagassága?Lehet-e exponenciális eloszlású az az ido, amit a Blaha Lujza térimegállóban a következo villamosra várakozással töltünk?Állíthatjuk-e, hogy a nok és a férfiak vérnyomása ugyanolyaneloszlást követ?Független-e a diákok matematika és irodalom érdemjegye? Aki jómatekból, általában jó magyarból is?Független-e egymástól az emberek szemszíne és hajszíne? Igaz-e,hogy a szoke hajúak foleg kék szemuek?

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 98 / 139

Page 102: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A χ2-próba

Legyen A1, . . . ,Ar teljes eseményrendszer.Végezzünk n darab független megfigyelést, jelölje az i-edik eseménybekövetkezési gyakoriságát Ni (i = 1, . . . , r ). A megfigyelések egyeseredményei segítségével definiálható az Xi valószínuségi változó, amivegyen fel olyan értéket, amelyik számú esemény a teljeseseményrendszerbol bekövetkezett. Ezáltal formálisan

Ni =n∑

j=1I(Xj = i) és

r∑i=1

Ni = n

H0: P(Ai) = pi , i = 1, . . . , r tfh. pi > 0 ∀i , p1 + . . .+ pr = 1H1: a nullhipotézis tagadása

Próbastatisztika: Tn(X) :=r∑

i=1

(Ni−npi )2

npi

H0 esetén−→n→∞

χ2r−1 eloszlásban

Kritikus tartomány: Xk ={

x : Tn(X) > χ2r−1;1−α

}Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 99 / 139

Page 103: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A χ2-próbaAlkalmazásai:

illeszkedésvizsgálat: egy minta adott eloszlást követ-e

homogenitásvizsgálat: két minta eloszlása megegyezik-e

függetlenségvizsgálat: két szempont, ismérv, tulajdonság független-eegymástól

Megjegyzések:

a χ2-próba aszimptotikus próba, ami azt jelenti, hogy "nagy"mintaelemszámra lehet végrehajtani. "Kicsi" minták esetén a kritikus értéknem használható, azt szimulálni kell a konkrét minta alapján.

Mikor elég "nagy" már egy minta – hüvelykujjszabály: ha legalább 100elemu. Egyébként eloszlásfüggo, legalább mekkora n-re van szükség,hogy kritikus értéknek a χ2-eloszlás kvantiliseit lehessen használni.

Végrehajtásának további feltétele, hogy minden osztályban "elegendo"mennyiségu gyakoriság legyen.

A próbastatisztikában lévo összeg tagjai (O−E)2

E alakúak, ahol E : elméletigyakoriságok, O: tapasztalati gyakoriságok

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 100 / 139

Page 104: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Illeszkedésvizsgálat

H0: a minta egy adott eloszlásból származikH1: a minta nem ilyen eloszlású

Végrehajtása:grafikusan módszerek ("szemmel" jónak tunik-e az illeszkedés):

Q-Q plotP-P plothisztogram/magfüggvényes suruségfüggvény-becslés, valamint azillesztett suruségfüggvény egy ábrában

statisztikai próbák:diszkrét eloszlás esetén χ2-próbafolytonos eloszlás esetén több statisztikai próba közül lehet választani

diszkretizálás (mesterséges osztályok létrehozása) révén χ2-próbaKolmogorov-Szmirnov próbaCramér-von Mises próbaAnderson-Darling próbaShapiro-Wilk próba: kizárólag normalitásvizsgálatra, amire ez a legjobb

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 101 / 139

Page 105: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Illeszkedésvizsgálat grafikusanQ-Q plot (kvantilis-kvantilis ábra)

Az illesztett eloszlás kvantiliseit vetjükössze a tapasztalati kvantilisekkel,azaz a következo pontokat ábrázoljuk:(

F−1(

kn+1

), x∗k)

k = 1, . . . ,nahol

F : az illesztett eloszláseloszlásfüggvényex∗k a k. rendezett mintaelem

Be szokták húzni a 45 fokos egyenestés minél jobban rásimulnak a pontokaz egyenesre, annál jobbnak tekinthetoaz illeszkedés.Felnagyítja az eloszlás szélein azeltéréseket, ezért szinte mindig elony-ben részesítik a P-P plot-tal szemben.

−3 −2 −1 0 1 2 3

−3

−1

12

3

Theoretical Quantiles

Sam

ple

Qua

ntile

s

−3 −2 −1 0 1 2 30

12

34

5

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 102 / 139

Page 106: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Illeszkedésvizsgálat grafikusan

P-P plot (percentilis-percentilis ábra)Az illesztett eloszlás egyes valószínuségeit vetjük össze atapasztalati valószínuségekkel, azaz a következo pontokatábrázoljuk:(

kn+1 ,F

(x∗k))

k = 1, . . . ,n ahol

F : az illesztett eloszlás eloszlásfüggvényex∗k a k. rendezett mintaelem

Be szokták húzni a 45 fokos egyenest és minél jobban rásimulnak apontok az egyenesre, annál jobbnak tekintheto az illeszkedés.Felnagyítja az eloszlás közepén az eltéréseket

A Q-Q plot és P-P plot nem helyettesíti a formális tesztelést, inkábbkiegészíti azt!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 103 / 139

Page 107: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Illeszkedésvizsgálat χ2-próbával

Osztályok 1 2 . . . r ÖsszesenValószínuségek p1 p2 . . . pr 1Gyakoriságok N1 N2 . . . Nr n

H0 : a valószínuségek: p=(p1, . . . ,pr )H1: nem ezek a valószínuségek

Próbastatisztika: Tn(X) =r∑

i=1

(Ni−npi )2

npi

H0 esetén−→ χ2r−1 elo.-ban, ha n→∞

Kritikus tartomány: Xk = {x : Tn(x) > χ2r−1,1−α}

Becsléses illeszkedésvizsgálat: csak annyit "sejtünk", hogy a mintavalamilyen eloszlású, viszont a paramétereirol nincs sejtésünk.Ilyenkor amennyiben ML-módszerrel becsüljük meg az s darab

ismeretlen paramétert, akkor a próbastatisztika: Tn(X)H0 esetén−→ χ2

r−1−seloszlásban, ha n→∞.A χ2-próba végrehajtásának feltételei (hüvelykujjszabály): Ni ≥ 4 ésnpi ≥ 4 minden i-re. Ha ezek nem teljesülnek, akkor osztályokat kellösszevonni.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 104 / 139

Page 108: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Illeszkedésvizsgálat Kolmogorov-Szmirnov próbával

H0 : FX1(x) = F (x) ∀x ∈ R ahol F egy adott eloszlás elofv.-eH1: a nullhipotézis tagadása

Próbastatisztika: Dn(X) = supx∈R|Fn(x)− F (x)|

A próbastatisztika√

n-szeresének eloszlása H0 esetén az ún.Kolmogorov-eloszláshoz tart (n→∞). Jelöljük Kα-val aKolmogorov-eloszlás α-kvantilisét.

Kritikus tartomány: Xk = {x :√

nDn(x) > K1−α}

Megjegyzések:Dn kiszámításához elég csak a mintapontokban tekinteni azeltérést.Nem lehet használni a határeloszlást, ha paramétereket kellbecsülnünk! Ilyen esetben a kritikus értéket szimulációval kaphatjukmeg.

A Kolmogorov-eloszlás eloszlásfüggvénye: 1− 2∞∑

k=1(−1)k−1e−2k2x2

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 105 / 139

Page 109: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

E34.) Egy gyártó megfigyelte, hogy 100, általa eloállított SSDmerevlemezen 5 év használat után hány hibás szektort talál az ezekfelkutatására készített szoftver:

Hibás szektorok száma 0 1 2 3 4 5 7 ÖsszesenGyakoriságok 45 35 12 5 1 1 1 100

Vizsgáljuk meg, hogy a szektorhibák száma Poisson-eloszlást követ-e!

E35.) Nézzük meg P-P plot-tal és Q-Q plot-tal, majd diszkretizálásután χ2-próbával, valamint Kolmogorov-Szmirnov próbával, hogy akövetkezo minta:4,3 2.0 5,6 8,1 3,2 0,6 5,4 8,9 7,5 9,39,6 6,7 4,4 2,9 1,0 6,5 4,0 6,6 4,2 1,9

származhat-e az alábbi eloszlásokból:a.) E(0; 10);

b.) N(

5;(

5√3

)2)

.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 106 / 139

Page 110: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Homogenitásvizsgálat

Adott két független minta, mindketto egy közös szempont szerint rosztály egyikébe sorolva.

Osztályok 1 2 . . . r Összesen1. minta Valószínuségek p1 p2 . . . pr 1

Gyakoriságok N1 N2 . . . Nr n2. minta Valószínuségek q1 q2 . . . qr 1

Gyakoriságok M1 M2 . . . Mr m

H0: a két minta azonos eloszlású, azaz (p1, . . . ,pr ) = (q1, . . . ,qr )H1: a nullhipotézis tagadása

Próbastatisztika: Tn,m(X,Y) = nmr∑

i=1

(Nin −

Mim

)2

Ni +Mi

H0 esetén−→n→∞

χ2r−1 eloszlásban

Kritikus tartomány: Xk = {(X,Y) : Tn,m(X,Y) > χ2r−1,1−α}

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 107 / 139

Page 111: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Függetlenségvizsgálat

Feladat: van egy minta, két ismérv szerint csoportosítva. Azt kelleldönteni, hogy a két szempont független-e egymástól.

pi,j = P(egy megfigyelés az (i , j) osztályba kerül)Ni,j =ennyi megfigyelés kerül az (i , j) osztályba

2. szempont1 . . . j . . . s Összesen

1 N11 . . . N1j . . . N1s N1•...

......

......

1. szempont i Ni1 . . . Nij . . . Nis Ni•...

......

......

r Nr1 . . . Nrj . . . Nrs Nr•Összesen N•1 . . . N•j . . . N•s n

ahol Ni• =s∑

j=1Nij és N•j =

r∑i=1

Nij

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 108 / 139

Page 112: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Függetlenségvizsgálat

Itt formálisan a mintánk két dimenziós: a megfigyelések az(X1,Y1)T , . . . , (Xn,Yn)T párok, ahol az X -ek r , az Y -ok pedig skülönbözo értéket vehetnek fel nemnulla valószínuséggel:pi,j = P(X1 = xi ,Y1 = yj), ahol i = 1, . . . , r és j = 1, . . . , s.

Továbbá Ni,j =r∑

k=1

s∑l=1

I(Xk = xi ,Yl = yj).

H0 : az ismérvek függetlenek, azaz pi,j = pi• · p•j ∀i , j-reH1: az ismérvek nem függetlenek

Próbast.: Tn(X,Y) = n

(r∑

i=1

s∑j=1

N2i,j

Ni•N•j− 1

)H0 esetén−→

n→∞χ2

(r−1)(s−1) elo.-ban

Kritikus tartomány: Xk = {(X,Y) : Tn(X,Y) > χ2(r−1)(s−1),1−α}

Ha r = s = 2, akkor a próbastatisztika Tn = n · (N11N22−N12N21)2

N1•N2•N•1N•2-re

egyszerusödik, az aszimptotikus eloszlás pedig 1 szabadságfokú χ2.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 109 / 139

Page 113: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

E36.) Egy webtervezo azt gyanítja, hogy az általa létrehozottinternetes vásárlás honlapján a vásárlások mértéke összefügg azzal,hogy milyen nap van a héten. Ennek a sejtésnek az ellenorzésére egyhéten keresztül adatokat gyujt – összesen 3758 látogatót számláltmeg:

Vásárlás H K Sz Cs P Sz V Össz.Nem vásárolt 399 261 284 263 393 531 502 26331 vásárlás 119 72 97 51 143 145 150 777Több vásárlás 39 50 20 15 41 97 86 348Összesen 557 383 401 329 577 773 738 3758

Alkalmas statisztika próbával döntsünk arról, hogy helyes-e awebtervezo sejtése!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 110 / 139

Page 114: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Regresszióelemzés, lineáris modell – motiváció

Gyakorlati szempontból a félév egyik legfontosabb témája!Az 1. órai kérdoíves felmérés alapján mennyire magyarázható jól

a hallgatók testmagassága a súlyuk segítségével?a hallgatók testmagassága a súlyuk és a cipoméretük segítségével?a hallgatók statisztika érdemjegye a testmagasságuk segítségével?

Egy részvény holnapi árfolyamát hogyan jelezzük elore a tegnapi,tegnapelotti, stb. árfolyamadatok segítségével?Egy gazda földvásárlási dilemmája – egy bizonyos földterületen avárható termésátlag mennyire jelezheto elore a földterületfontosabb jellemzoi alapján (a talaj kémhatása, a CaCO3megjelenési mélysége, a humusztartalom, topográfiai helyzet)?Meg lehet-e becsülni annak az esélyét, hogy valaki élete soránmegbetegszik tüdorákban? Hogyan modellezzük ezt? Például:megbetegedés esélye←− dohányzik-e, hány éven át dohányzottélete során, van-e tüdorákos a közeli rokonságban, van-e egyébtüdobetegsége, poros/füstös helyen dolgozik-e

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 111 / 139

Page 115: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Regresszióelemzés – bevezetés

Legyenek Y , X1, . . . ,Xp véges szórású valószínuségi változók, amikegy véletlen jelenség egy-egy jellemzoi.

A regresszióelemzés célja: a bennünket különösen érdeklo Yvalószínuségi változó "minél jobb" közelítése az X1, . . . ,Xpvalószínuségi változók segítségével.

Y elnevezései: eredményváltozó, függo változó, endogén változóXi -k elnevezései: magyarázó változók, független változók, exogénváltozók

Általában megfigyeléseink vannak, amik az (Y ,X1, . . . ,Xp)T

valószínuségi vektorváltozó realizációinak tekinthetok:(yi , xi,1, . . . , xi,p)T i = 1,2, . . . ,n általában n >> pFeltehetjük, hogy az yi megfigyelések rendszerint mérési eredmények,amik sajnos pontatlanok. A mérési hibát εi -vel fogjuk jelölni, amiroltermészetes feltétel, hogy legyen 0 várható értéku és egy véges σszórású valószínuségi változó.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 112 / 139

Page 116: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Regresszióelemzés – bevezetés

Legyenek Y , X1, . . . ,Xp véges szórású valószínuségi változók, amikegy véletlen jelenség egy-egy jellemzoi.

A regresszióelemzés célja: a bennünket különösen érdeklo Yvalószínuségi változó "minél jobb" közelítése az X1, . . . ,Xpvalószínuségi változók segítségével.

Y elnevezései: eredményváltozó, függo változó, endogén változóXi -k elnevezései: magyarázó változók, független változók, exogénváltozók

Általában megfigyeléseink vannak, amik az (Y ,X1, . . . ,Xp)T

valószínuségi vektorváltozó realizációinak tekinthetok:(yi , xi,1, . . . , xi,p)T i = 1,2, . . . ,n általában n >> pFeltehetjük, hogy az yi megfigyelések rendszerint mérési eredmények,amik sajnos pontatlanok. A mérési hibát εi -vel fogjuk jelölni, amiroltermészetes feltétel, hogy legyen 0 várható értéku és egy véges σszórású valószínuségi változó.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 112 / 139

Page 117: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Regresszióelemzés

Legyenek Y , X , X1, . . . ,Xp véges szórású valószínuségi változók,c,a,b1, . . . ,bp valós számok.Jelölje X = (X1, . . . ,Xp)T , b = (b1, . . . ,bp)T vektorokat.

Feladat Megoldása.) min

cE(Y − c)2 c = EY [Steiner-tétel]

b.) minf :R→Rmérheto fv.

E(Y − f (X ))2 f (X ) = E(Y |X )

c.) mina,b

E(Y − (a + bX ))2 b = cov(X ,Y )D2X , a = EY − bEX

d.) minf :Rp→Rmérheto fv.

E(Y − f (X1, . . . ,Xp))2 f (X1, . . . ,Xp) = E(Y |X1, . . . ,Xp)

e.) mina,b1,...,bp

E(

Y−(a+p∑

i=1biXi)

)2

b = (cov(X,X))−1 cov(X,Y )

[Többváltozós lineáris regresszió] a = EY −p∑

i=1biEXi

E(Y |X ): feltételes várható érték – jövo félévbenVarga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 113 / 139

Page 118: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Lineáris modell

A modell: y = Xb + ε

F := ImX X képterer :=rang(X ), általánosan r ≤ p, teljes rangú esetben r = pParaméterbecslés: b = (X T X )−1X T yProjekció az F altérre: PF = X (X T X )−1X T

Becsült értékek: y := X bReziduálisok: ε = y− y

Reziduális négyzetösszeg: RNÖ := ‖ε‖2 =n∑

i=1ε2

i =n∑

i=1(yi − yi)

2

Teljes négyzetösszeg: NÖ =n∑

i=1(yi − y)2

Determinációs együttható: R2 = 1− RNÖNÖ

= NÖ−RNÖNÖ

azeredményváltozó változékonyságának hány %-át magyarázza aregressziós modellÉrtéke 0 és 1 között lehet. Minél nagyobb, annál jobb.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 114 / 139

Page 119: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Lineáris modell

Korrigált determinációs együttható: R2adj = 1− n−1

n−r−1SSRSS egy

lehetséges modellválasztási kritérium, minél nagyobb, annál jobbAkaike-féle információs kritérium: AIC = 2(p + 1)− 2 log L, ahol L alikelihood-függvény értéke akkor, ha az ML-becslést használjuk(normális eloszlású hibáknál ez megegyezik a legkisebb négyzetesbecsléssel)Ez is egy lehetséges modellválasztási kritérium, minél kisebb, annáljobb.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 115 / 139

Page 120: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Regresszióelemzés

A regresszióelemzés lépéseiaz eredményváltozó(k) és a lehetséges magyarázóváltozókkiválasztásaadatgyujtésadattisztítás, adathibák korrekciójapontdiagrammal a potenciális modellek kiválasztása (lineáris,négyzetes, logisztikus stb.)paraméterbecslésmodelldiagnosztika – az együtthatók szignifikanciája, a modellegyüttes jóságalegjobb modell kiválasztása, "modellépítés" – több módszer/mutatóközül választhatunk: korrigált R2, cross-validation, AIC/BICinformációs kritériumok stb.elorejelzés

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 116 / 139

Page 121: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A regressziós modell "felépítése"

Ha p magyarázóváltozónk van, akkor 2p modell közül kell a legjobbatkiválasztani. Nagy számú magyarázóváltozó esetén ez nemlehetséges, több módszer közül lehet választani:

Nagyról kicsire (hátulról elore): eloször az összesmagyarázóváltozót bevesszük, majd egyenként a legkevésbészignifikánsat kivesszük egészen addig, míg mindegyik szignifikánsleszKicsirol nagyra (elölrol hátulra): egyesével azt vesszük hozzá,amelyikkel a legjobban illeszkedo modellt kapjuk a következolépésben.Vége: ha bármelyik, még a modellen kívüli magyarázóváltozótbevéve, már nem javul a modell illeszkedése.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 117 / 139

Page 122: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E37.) Tekintsünk az alábbi regressziós modellekre lineáris modellként,és becsüljük meg a paramétereket! Jelölések: (yi , xi) a megfigyelések,εi a mérési hiba (i = 1, . . . ,n), a becsülendo paraméterek pedig a,b, c.

a.) yi = a + bxi + εi (egyszeru) kétváltozós regressziób.) yi = a + bxi + cx2

i + εi négyzetes regresszióc.) yi = a + b sin xi + c cos xi + εi harmonikus regresszió

Határozzuk meg a becsült paramétereket R segítségével és ábrázoljuka megfigyeléseket az illesztett görbével együtt, ha a megfigyelések akövetkezok:

yi -0,82 1,72 2,72 1,14 0,96 0,93 -0,08 0,29 3,38 3,36xi 3,92 2,63 1,68 2,57 2,61 2,78 3,81 2,89 0,28 0,94

Értékeljük az egyes modelleket önmagukban, és egymáshoz képest is!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 118 / 139

Page 123: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E38.) Az év eleji kérdoíves felmérés alapján célunk a hallgatóktestmagasságának minél jobb magyarázása.a.) Tekintsük az alábbi modelleket:

I.) Testmagasság = Testsúly + Hiba , ami aTestmagasság = a0 + a1· Testsúly + Hiba kiírás rövidítettváltozata (a többinél hasonlóan)

II.) Testsúly = Testmagasság + HibaIII.) Testmagasság = Testsúly + Lábméret + HibaIV.) Testmagasság = Nem + Hiba

b.) Vizsgáljuk meg a korrelációs mátrixot! Keressük meg a legjobbanilleszkedo modellt!

c.) Adjunk elorejelzést a legjobbnak tuno modell(ek) alapján egy olyanfiú hallgató testmagasságára, aki 70 kg-os, 45-ös a cipomérete,5-öse volt valszámból, 25 percet utazik az egyetemre és heti 12órát tanul!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 119 / 139

Page 124: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Ismérvek közti kapcsolat vizsgálata (leíró statisztika)

Jelölje a D ismérv lehetséges (elméleti) értékeit X , az E ismérvlehetséges értékeit pedig Y .Az ismérvek közti kapcsolat fajtái az összefüggés iránya szerint:

Ok-okozati összefüggés – az egyik ismérv magyarázó változónak, amásik függo változónak tekintheto (pl. tanulási ido→ ZH-n szerzettpontszám) jóval gyakoribbKölcsönös kapcsolat – mindegyik ismérv hatással van a másikra(pl. ár és kereslet)

A kapcsolat a kapcsolat erossége (E-t magyarázzuk D-vel) szerint:függetlenség: attól, hogy ismerjük D értékeit, semmit se tudunkmondani E értékeirolfüggvényszeru kapcsolat: ha ismerjük D értékeit, abbólegyértelmuen meg lehet mondani E értékeit; lehet lineáris,négyzetes, exponenciális stb.sztochasztikus kapcsolat: a fenti ketto közötti, D értékeibol tudunkkövetkeztetni arra, hogy E milyen értéket vesz fel, de ez akövetkeztetés bizonytalansággal jár

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 120 / 139

Page 125: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Ismérvek közti kapcsolat vizsgálata

A kapcsolat fajtája az ismérvek típusa (E-t magyarázzuk D-vel) szerint:asszociáció: E és D egyaránt nominális/sorrendi skálán mértismérvek (≈ Y és X diszkrét v.v.-k)vegyes kapcsolat: E intervallum vagy arányskálán mért ismérv (≈Y abszolút folytonos valószínuségi változó), D nominális/sorrendiskálán mért ismérv (≈ X diszkrét v.v.)korreláció: E és D egyaránt intervallum vagy arányskálán mértismérvek (Y és X is abszolút folytonos v.v.)

Az alkalmazandó megközelítések/módszerek összefoglalása:

Az eredményváltozódiszkrét abszolút folytonos

A diszkrét asszociáció vegyes kapcsolatmagya- χ2-próba t-próba, ANOVArázó- absz. folyt. osztályozási eljárások, korrelációváltozó diszkriminancia analízis regresszió

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 121 / 139

Page 126: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

AsszociációE ismérv

1 . . . j . . . s Összesen1 f11 . . . f1j . . . f1s f1•...

......

......

D ismérv i fi1 . . . fij . . . fis fi•...

......

......

r fr1 . . . frj . . . frs fr•Összesen f•1 . . . f•j . . . f•s n

ahol fi,j : gyakoriságok száma az (i , j) osztályban

fi• =s∑

j=1fij és f•j =

r∑i=1

fij

függetlenség esetén fij =fi•·f•j

n minden i-re és j-refüggvényszeru kapcsolat esetén minden sorban egyetlengyakoriság nem nulla, a többi nulla

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 122 / 139

Page 127: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Az asszociáció méroszámai

Cramér-féle asszociációs együttható:

C =

√√√√ r∑i=1

s∑j=1

(fij−f∗ij )2

f∗ij

n·(min(r ,s)−1) , ahol f ∗ij =fi•·f•j

n

Yule-féle asszociációs együttható: r = s = 2 esetén számolható

Y = f11·f22−f12·f21f11·f22+f12·f21

Tulajdonságaik:C = 0 vagy Y = 0 esetén a két ismérv független egymástólC = 1 vagy Y = ±1 esetén a két ismérv között függvényszerukapcsolat van0 < C < 1 vagy 0 < |Y | < 1 esetén a két ismérv közöttsztochasztikus kapcsolat vaneros a kapcsolat, ha C vagy |Y | 1-hez van közel és gyenge akapcsolat, ha 0-hoz

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 123 / 139

Page 128: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A vegyes kapcsolat elemzése – szóráselemzés

Elnevezései: szóráselemzés = variancia-analízis = ANOVA(analysis of variance)A lineáris modell egyik legfontosabb alkalmazásaGyakorlatban az egyik leggyakoribb probléma

Motivációs példák:Hatással van-e egy vállalatnál a (bruttó) fizetésekre az, hogy valaki no-e,avagy férfi?Egymástól eltéro összetételu trágyák esetén megnézték a termésátlagotegy nagyobb földterület különbözo részein. Vajon hatással van-e atrágya fajtája a termésátlagra?Hatással van-e a valszám gyakorlati összpontszámra, hogy ahallgatónak ki a gyakorlatvezetoje?

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 124 / 139

Page 129: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A vegyes kapcsolat méroszáma

Szórásnégyzet-hányados

H2 = 1− SSBSST = SSK

SST

Megjegyzés: ez nem más, mint a regressziónál az R2

Tulajdonságai:H2 = 0 esetén a két ismérv között nincs kapcsolat, DE (!!) ekkornem feltétlen függetlenek egymástól (analógia: korrelálatlanságbólnem következik a függetlenség)H2 = 1 esetén a két ismérv között függvényszeru kapcsolat van0 < H2 < 1 esetén a két ismérv között sztochasztikus kapcsolat vaneros a kapcsolat, ha H2 közel van 1-hez és gyenge a kapcsolat, ha0-hoz

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 125 / 139

Page 130: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Szóráselemzés (ANOVA)

A szóráselemzési feladat fo kér-dése: hatással van-e az ered-ményváltozó értékére, hogy a fak-tor melyik szintjén vagyunk?

H0 : b1 = b2 = . . . = bpH1 : nem igaz H0

ANOVA táblázat:

Szóródás Szabadság- Négyzet- Tapasztalatiforrása fok összegek szórásnégyzetekKülso p − 1 SSK MSK = SSK

p−1 F =SSKp−1SSBn−pBelso n − p SSB MSB = SSB

n−pTeljes n − 1 SST –

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 126 / 139

Page 131: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Szóráselemzés (ANOVA)

Állítás: y i•−bi√MSB

√ni ∼ tn−p és

y i•−y j•−(bi−bj )√MSB

√ni nj

ni +nj∼ tn−p

Ezek alapján konfidenciaintervallumokat lehet készíteni biegyütthatókra és a bi − bj különbségekre.

Konfidenciaintervallumok:bi -re: y i• ± tn−p;α/2

√MSB

ni

bi − bj -re: y i• − y j• ± tn−p;α/2√

MSB√

ni +njni nj

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 127 / 139

Page 132: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A szóráselemzés egy lehetséges kiterjesztése – aszórás az egyes csoportokban eltérhet

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 128 / 139

Page 133: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E39.) A következo táblázatok a 2016/2017-es oszi félévValószínuségszámítás nevu tárgy hallgatóinak megoszlását mutatjákaszerint, hogy a hallgató milyen szakos és a vizsgán hányast szerzett(csak azok szerepelnek, akik legalább 1-szer próbálkoztak).

a.)

Szakirány Karó 2-es 3-as 4-es 5-ös ÖsszesenElemzo 16 13 10 0 2 41Infó A 4 3 7 1 7 22Összesen 20 16 17 1 9 63

b.)

Szakirány Karó Legalább 2-es ÖsszesenElemzo 16 25 41Infó A 4 18 22Összesen 20 43 63

Vizsgáljuk meg alkalmas mutatószámmal, a megszerzett érdemjegyrehatással volt-e az, hogy a hallgató milyen szakra jár!

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 129 / 139

Page 134: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

FeladatokE40.) A következo táblázat az elozo félévben tanár szakos BSc-shallgatóknak tartott 4 bevezeto valszám gyakorlat év végi, 100-ra skálázottvégso pontszámait tartalmazza:

Gyakvezér Pontszámok

Cs. V. 98 87 102 92 52 46 95 60 81 55 60 9481 58 80 93 70 66 49 94 50 88 74

W. G. 77 46 54 57 50 45 39 63 26 107 7566 52 109 91 35 65

B. Á.86 94 54 61 42 59 88 81 81 80 102 7288 96 58 90 110 58 80 90 84 80 94

V. L. 66 60 72 49 52 54 80 56 36 91 6860 51 40 38 54 62

a.) Vizsgáljuk meg, az év végi pontszám függ-e attól, hogy a hallgató melyikcsoportba jár! Hány %-ban magyarázza a pontszámok változékonyságátaz, hogy a hallgatók melyik csoportba járnak?

b.) Adjunk intervallumbecslést az egyes csoportok várható pontszámára!c.) Állíthatjuk-e, hogy Cs. V. és B. Á. csoportjának átlagpontszámai

(statisztikailag) egyenlok?

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 130 / 139

Page 135: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Érték-, ár- és volumenindexek

Index vagy indexszám: közvetlenül nem összesítheto, degazdaságilag összetartozó adatok átlagos változását mutató összetettviszonyszám.

Tegyük fel, hogy m különbözo terméket értékesítünk két különbözoidoszakban, és az értékesítés árbevételét szeretnénk elemezni.

Jelölések:q0,j : a j . termékbol eladott mennyiség a bázisidoszakbanq1,j : a j . termékbol eladott mennyiség a tárgyidoszakbanp0,j (p1,j): az j . termék egységára a bázis- (tárgy)idoszakbanv0,j : a j . termék értékesítésébol származó árbevétel (tágabbértelemben termelési érték ) a bázisidoszakban, számítása:v0,j = q0,j · p0,j

v1,j : a j . termék értékesítésébol származó árbevétel atárgyidoszakban, számítása: v1,j = q1,j · p1,j

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 131 / 139

Page 136: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Érték-, ár- és volumenindexek

Egyedi indexek – mostantól a j indexeket lehagyjukEgyedi volumenindexek: iq,j =

q1,jq0,j iq = q1

q0

Egyedi árindexek: ip,j =p1,jp0,j ip = p1

p0

Egyedi értékindexek: iv ,j =v1,jv0,j

=q1,j ·p1,jp1,j ·p0,j

iv = v1v0

= q1p1q0p0

= ip · iq

Összetett indexek:Bázisidoszaki Tárgyidoszaki

Index fajtája súlyozású vagy súlyozású vagy Fisher-féleLaspeyres-féle Paasche-féle

, Árindexek I0p =

∑q0p1∑q0p0

I1p =

∑q1p1∑q1p0

IFp =

√I0p · I1

p

, Volumenindexek I0q =

∑q1p0∑q0p0

I1q =

∑q1p1∑q0p1

IFq =

√I0q · I1

q

, Értékindex M Iv =∑

q1p1∑q0p0

=

m∑j=1

q1,j p1,j

m∑j=1

q0,j p0,j

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 132 / 139

Page 137: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Érték-, ár- és volumenindexek

Állítás: az elozo fóliákon bevezetett jelölésekkel igazak a következoösszefüggések (indexek különbözo átlagformulái):

Iv = I0q · I1

p = I1q · I0

p =∑

q0p0·iv∑q0p0

= q1p1∑ q1p1iv

I0p =

∑q0p0·ip∑q0p0

=∑

q0p1∑ q0p1ip

I1q =

∑q0p1·iq∑q0p1

=∑

q1p1∑ q1p1iq

Megjegyzés: az egyes összetett indexek a megfelelo saját egyediindexeik átlagai

Az indexek képleteiben lévo osztások helyett különbségeket is lehetképezni, ekkor az I és i helyett K -t és k -t írunk. Példáulkq = q1 − q0

K 0p =

∑q0p1 −

∑q0p0.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 133 / 139

Page 138: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Érték-, ár- és volumenindexek

Gyakorlati alkalmazásaik:Értékindexek:

vállalatok árbevételének, forgalmának alakulásaexport és import értékének változásaenergiafelhasználás értékének változása

Árindexek:fogyasztói árindex – az infláció méroszáma, a lakosság által vásároltfogyasztási cikkek és szolgáltatások árainak átlagos változását fejezi kicserearányindex: egy ország által exportált termékek árindexe osztva azáltala importált termékek árindexével (itt tehát árindexekbol számítunktovábbi indexeket)

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 134 / 139

Page 139: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

E41.) Ágnes asszony háromféle, saját termelésu termékeket árul aLehel téri piac ostermeloi részlegén: tojásokat, krumplikat éshagymákat. Az idei (2017-es) és a tavalyi (2016-os) áprilisi forgalmátszeretné összevetni egymással. Eladásairól a következoket jegyeztefel:

Termékfajta A forgalom értéke Az árak Az eladott mennyiség2017-ben (e Ft) alakulása, 2017/2016 (%)

Tojás 280 95 110Krumpli 80 110 160Hagyma 20 120 120

a.) Számíts érték-, ár- és volumenindexet a kofa forgalmáravonatkozóan! Értelmezd szövegesen az egyes indexeket!

b.) A forgalom értékének növekedésébol hány forint volt az ár- és avolumenváltozás hatása?

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 135 / 139

Page 140: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Feladatok

Szöveges értelmezések Iv -re, I1p -re és I0

q -ra:Ágnes asszony 2017 áprilisában 16,1%-kal több bevételre tett szert,mint 2016 áprilisában. Ez két részbol tevodött össze: egyrészt azeladott termékek árai – 2017-es eladott mennyiségekkel számolva –átlagosan 1,1%-kal csökkentek, másrészt az értékesítés volumene –bázisévi árakkal számolva – 17,4%-kal bovült.

Szöveges értelmezések K 1p -re és K 0

q -ra:Az árak átlagos csökkenése – 2017-es eladott mennyiségekkelszámolva – a forgalom értékének csökkenéséhez 4.131 Ft-tal járulthozzá. Az eladott mennyiségek átlagos növekedése – bázisévi árakkalszámolva – a forgalom értékének növekedéséhez 56.845 Ft-tal járulthozzá.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 136 / 139

Page 141: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A vizsga

Gyakorlati jegy megléte szükséges.Nem elvárás az ünnepi öltözet. Nyugodtan gyertek kényelmes,hétköznapi utcai ruhában.A 2-eshez a teljes anyagból kell minimális ismeretekkel rendelkezni.Ha megtanulod 5-ösre az elso 7 eloadás anyagát, a többibol pedignem tudsz semmit, akkor P(megbuksz a vizsga I. részén) = 1.Mindenki kap majd egy vizsgasegédletet, amin a legfontosabbképletek szerepelnek. A képletek jelentését, használatát magadtólkell tudni, az azokban lévo "betuk", jelek értelmezését avizsgasegédlet nem tartalmazza!Számológép ( 6= mobiltelefon) használható

100 pontos, osztályozás:

karó (1) 0 – 34,99elégséges (2) 35 – 49,99közepes (3) 50 – 64,99jó (4) 65 – 79,99jeles (5) 80 – 100

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 137 / 139

Page 142: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

A vizsga

Bizonyos anyagrészeket nem kérek számon. Az eloadásnaplóbanpirossal kiemeltem, melyek ezek az anyagrészek, lásdhttp://vargal4.elte.hu/EaNaploLeiroMatStat17.pdf

írásbeli, legfeljebb 180 percig írhatjátokFeladattípusok:

tesztes vagy kifejtos számolós példák – a nagy többségDefiníciók, tételek, bizonyítások, módszerek bemutatásaA tananyag átlátását, megértését leméro keresztkérdésekR nyelvu számítógépes output-ok, ábrák kiértékelése, szövegesértelmezése

Két részes:I. rész: 40 pontos, minimum 60%-ot (24 pontot) el kell érni –tesztfeladatok, definíciók, tételek, rövid keresztkérdések az alapvetoismeretekrolII. rész: 60 pontos: nagyobb lélegzetvételu feladatok, bizonyítások,számítógépes output-ok kiértékelése

Egy próbavizsga: a honlapomon lesz, hamarosan

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 138 / 139

Page 143: Leíró és matematikai statisztika - vargal4.elte.huvargal4.elte.hu/StatEA_2017tavasz.pdf · Leíró és matematikai statisztika Matematika alapszak, matematikai elemzo szakirány˝

Konzultációs és vizsgaidopontok

Nap Idopont Helykonzultáció máj. 29.,hétfo 10:00 D 3-3091. vizsga máj. 30., kedd 10:00 D 0-822konzultáció jún. 12., hétfo 10:00 D 3-3092. vizsga jún. 13., kedd 10:00 D 0-822konzultáció jún. 26.,hétfo 10:00 D 3-3093. vizsga jún. 27., kedd 10:00 D 0-822

A vizsga megtekintése: a vizsga napján 14:00-kor a D 3-309-esszobában (kicsit késobb, ha addigra nem végeztem a javításokkal)vagy a konzultáció idopontjában. Ha egyik se jó, akkor egy E-mail-benegyeztetett, mindkettonknek megfelelo idopontban.

Varga László (ELTE) Leíró és matematikai statisztika 2017. július 3. 139 / 139