Ing. Andrej Trnka, PhD.fmk.sk/download/ucebnica-ZSMMV-2.pdf · Obsahuje základné deskriptívne štatistické metódy a postupy, ktoré sú potrebné na zrealizovanie marketingového

Ing. Andrej Trnka, PhD.

Základné štatistické metódy

marketingového výskumu

2016

Základné štatistické metódy marketingového výskumu

Autor: Ing. Andrej Trnka, PhD.

Recenzenti: prof. Ing. Pavol Tanuška, PhD.

prof. Ing. Anna Zaušková, PhD.

Vydanie vysokoškolskej učebnice bolo schválené Edičnou radou a Vedeckou radou Fakulty

masmediálnej komunikácie UCM v Trnave a bolo podporené projektom VEGA 1/0283/15

„Aspekty marketingovej komunikácie v oblasti procesu tvorby hodnoty zákazníka na trhu

B2C v kontexte s maximalizáciou trhového podielu v nákupnom spáde maloobchodu“

Vydala: Fakulta masmediálnej komunikácie, Univerzita sv. Cyrila a Metoda v Trnave

Náklad: 150 ks

Učebnica neprešla jazykovou korektúrou.

ISBN 978-80-8105-768-7

Sú tri stupne lži - lož, nehanebná lož a štatistika.

Disraeli

Obsah

Zoznam obrázkov ...................................................................................................... 6

Zoznam tabuliek ...................................................................................................... 10

Úvod ........................................................................................................................ 11

Základné pojmy v štatistike a rozdelenie štatistiky ................................................. 14

Základné pojmy v štatistike ................................................................................ 14

Rozdelenie štatistiky ........................................................................................... 18

Otázky ................................................................................................................. 20

Deskriptívna štatistika a jej metódy ......................................................................... 21

Jednorozmerná deskriptívna štatistika ................................................................ 21

Frekvenčná tabuľka ........................................................................................ 21

Koláčový graf ................................................................................................. 22

Stĺpcový graf ................................................................................................... 24

Kumulatívny stĺpcový graf ............................................................................. 26

Spojnicový graf ............................................................................................... 27

Histogram ....................................................................................................... 28

Opisné charakteristiky .................................................................................... 33

Škatuľový graf ................................................................................................ 57

Základný štatistický rozbor ............................................................................. 66

Dvojrozmerná deskriptívna štatistika .................................................................. 69

Bodový graf .................................................................................................... 69

Regresná analýza ............................................................................................. 71

Korelačná analýza ............................................................................................ 82

Kontingenčná tabuľka...................................................................................... 87

Kontingenčný graf ........................................................................................... 91

Otázky .................................................................................................................. 93

Induktívna štatistika a jej základné metódy použiteľné v marketingu ..................... 94

Testovanie hypotéz .............................................................................................. 94

Základný postup pri testovaní hypotéz ............................................................ 95

Štatistická významnosť ........................................................................................ 96

Často používané testy hypotéz v marketingovom výskume ................................ 97

Otázky .................................................................................................................. 98

Určenie veľkosti výberovej vzorky .......................................................................... 99

Terminológia pri určovaní veľkosti výberovej vzorky ...................................... 100

Výpočet veľkosti výberovej vzorky ................................................................... 102

Otázky ................................................................................................................ 104

Dolovanie dát – vytváranie pokročilých analýz ..................................................... 105

Prehľad štatistických funkcií v MS Excel .............................................................. 107

Záver....................................................................................................................... 111

Resumé ................................................................................................................... 112

Zoznam bibliografických zdrojov .......................................................................... 114

Zoznam elektronických zdrojov ............................................................................. 115

Zoznam obrázkov

obr. 1 Členenie premenných .................................................................................... 16

obr. 2 Zovšeobecniteľnosť výberového súboru ....................................................... 19

obr. 3 Označenie oblasti pre vytvorenie koláčového grafu ..................................... 23

obr. 4 Voľba grafu – Koláčový................................................................................ 23

obr. 5 Výber vhodného typu koláčového grafu ....................................................... 23

obr. 6 Výber rozloženia grafu .................................................................................. 24

obr. 7 Koláčový graf ................................................................................................ 24

obr. 8 Výber vhodného typu stĺpcového grafu ........................................................ 25

obr. 9 Stĺpcový graf ................................................................................................. 25

obr. 10 Úprava zdrojových údajov grafu ................................................................. 26

obr. 11 Prepnutie riadku alebo stĺpca v grafe .......................................................... 26

obr. 12 Kumulatívny stĺpcový graf .......................................................................... 27

obr. 13 Výber vhodného typu spojnicového grafu .................................................. 28

obr. 14 Spojnicový graf ........................................................................................... 28

obr. 15 Časť vstupných údajov ................................................................................ 30

obr. 16 Výber nástroja Data Analysis ...................................................................... 30

obr. 17 Okno Data Analysis (Histogram) ................................................................ 30

obr. 18 Okno Histogram .......................................................................................... 31

obr. 19 Výstupná tabuľka histogramu ..................................................................... 31

obr. 20 Histogram vytvorený pomocou MS Excel .................................................. 31

obr. 21 Histogram vytvorený v programe Minitab ................................................... 32

obr. 22 Prehľad opisných charakteristík ................................................................... 34

obr. 23 Argumenty funkcie AVERAGE .................................................................. 36

obr. 24 Argumenty funkcie GEOMEAN.................................................................. 37

obr. 25 Argumenty funkcie HARMEAN ................................................................. 38

obr. 26 Argumenty funkcie MEDIAN ..................................................................... 39

obr. 27 Argumenty funkcie MODE.SNGL .............................................................. 40

obr. 28 Argumenty funkcie PERCENTILE.INC ...................................................... 42

obr. 29 Argumenty funkcie PERCENTRANK.INC ................................................. 43

obr. 30 Argumenty funkcie QUARTILE.INC .......................................................... 44

obr. 31 Argumenty funkcie MAX ............................................................................ 46

obr. 32 Argumenty funkcie MIN .............................................................................. 46

obr. 33 Argumenty funkcie VAR.S .......................................................................... 48

obr. 34 Reprezentácia smerodajnej odchýlky pri normálnom rozložení .................. 49

obr. 35 Argumenty funkcie STDEV.S ..................................................................... 50

obr. 36 Symetrické rozdelenie .................................................................................. 51

obr. 37 Pravostranná šikmosť ................................................................................... 52

obr. 38 Ľavostranná šikmosť .................................................................................... 53

obr. 39 Argumenty funkcie SKEW .......................................................................... 54

obr. 40 Normálne rozloženie .................................................................................... 55

obr. 41 Studentovo rozloženie .................................................................................. 55

obr. 42 Trojuholníkové rozdelenie ........................................................................... 56

obr. 43 Rovnomerné rozdelenie............................................................................... 56

obr. 44 Argumenty funkcie KURT .......................................................................... 57

obr. 45 Škatuľový graf (vertikálne umiestnenie) ..................................................... 58

obr. 46 Vstupné údaje a vypočítané veľkosti oblastí ............................................... 58

obr. 47 Skladaný stĺpcový graf – základ pre škatuľový graf ................................... 60

obr. 48 Chybové úsečky – tvorba úsečiek v škatuľovom grafe ............................... 60

obr. 49 Formátovanie chybových úsečiek – voľba pre maximum........................... 61

obr. 50 Definovanie chybovej úsečky pre maximum .............................................. 61

obr. 51 Pridanie úsečky maximum .......................................................................... 62

obr. 52 Definovanie chybovej úsečky pre minimum ............................................... 63

obr. 53 Škatuľový graf pred formátovaním ............................................................. 63

obr. 54 Formátovanie grafu – Výplň tvaru .............................................................. 64

obr. 55 Škatuľový graf (horizontálne umiestnenie) ................................................. 65

obr. 56 Škatuľový graf s vyznačeným aritmetickým priemerom ............................ 65

obr. 57 Okno Data Analisys (Descriptive Statistics) ............................................... 66

obr. 58 Okno Descriptive Statistics ......................................................................... 67

obr. 59 Výber bodového grafu ................................................................................. 70

obr. 60 Bodový graf ................................................................................................. 70

obr. 61 Vyrovnávajúca regresná priamka ................................................................ 74

obr. 62 Pridanie vyrovnávajúcej regresnej priamky ................................................ 75

obr. 63 Formátovanie vyrovnávajúcej regresnej priamky ....................................... 76

obr. 64 Argumenty funkcie INTERCEPT ............................................................... 77

obr. 65 Argumenty funkcie SLOPE ......................................................................... 78

obr. 66 Okno Data Analysis (Regression) ................................................................ 78

obr. 67 Okno Regression .......................................................................................... 79

obr. 68 Vyrovnávajúca regresná priamka vygenerovaná nástrojom Regression ...... 80

obr. 69 Odchýlka v regresnom modeli pri extrémnych hodnotách .......................... 82

obr. 70 Rozličné hodnoty koeficienta R ................................................................... 83

obr. 71 Argumenty funkcie PEARSON ................................................................... 84

obr. 72 Argumenty funkcie RSQ .............................................................................. 85

obr. 73 Rozličné závislosti s koeficientom R=0,7 .................................................... 86

obr. 74 Okno Data Analysis (Correlation) ............................................................... 86

obr. 75 Okno Correlation.......................................................................................... 87

obr. 76 Výber kontingenčnej tabuľky....................................................................... 89

obr. 77 Vstupné údaje kontingenčnej tabuľky .......................................................... 90

obr. 78 Definovanie polí kontingenčnej tabuľky (sekcia polí a sekcia rozloženia) . 91

obr. 79 Voľba „Kontingenčný graf“ ......................................................................... 92

obr. 80 Kontingenčný graf........................................................................................ 92

obr. 81 Model dolovania dát pre vykonanie analýzy nákupného košíka ................ 106

Zoznam tabuliek

tab. 1 Príklad frekvenčnej tabuľky .......................................................................... 22

tab. 2 Charakteristika základných štatistík .............................................................. 66

tab. 3 Základný štatistický rozbor............................................................................ 68

tab. 4 Výstup nástroja Regression ........................................................................... 80

tab. 5 Výstup nástroja Correlation – regresná matica .............................................. 87

tab. 6 Kontingenčná tabuľka.................................................................................... 88

tab. 7 Chyby testovania hypotéz .............................................................................. 96

11

Úvod

Táto vysokoškolská učebnica, ako už vyplýva z jej názvu, je určená pre

študentov študujúcich marketingovú komunikáciu a odbory príbuzné. Prináša

pohľad na vedný odbor štatistika a jej použitie v marketingovej komunikácii.

Obsahuje základné deskriptívne štatistické metódy a postupy, ktoré sú potrebné na

zrealizovanie marketingového výskumu. Edukačné využitie učebnice je pri písaní

záverečných prác, hlavne diplomových a dizertačných. Praktické využitie je

premietnutím výsledkov do praxe.

Štatistika je chápaná ako strašiak medzi vedami. Študenti si pod týmto

pojmom predstavujú kopec vzorcov, ktorým (poniektorí) nerozumejú alebo nechápu

ich význam. Presnejšia definícia štatistiky môže znieť takto: Je to veda zaoberajúca

sa zberom, analýzou, interpretáciou a prezentáciou dát získaných z pozorovaní

alebo experimentov. V tejto definícii je zahrnutý celý proces od zberu, až po

prezentáciu dát. V oblasti marketingovej komunikácie sa budeme zaoberať dátami,

ktoré boli získané zo zberu, resp. pozorovania. Aplikovanie experimentov v tejto

oblasti by bolo nehumánne. Je treba si uvedomiť, že z nesprávne stanoveného

a vykonaného zberu dát nemusíme dostať správne výsledky, resp. ich vypovedacia

hodnota môže byť nulová. Výsledky štatistickej analýzy nebudú lepšie ako je

kvalita vstupných dát. Bohužiaľ, ani tu nie je možné vytvoriť perpeetum mobile.

Preto je veľmi dôležité klásť dôraz nielen na správne použitie štatistických metód

a postupov, ale aj na správne vytvorenie celého výskumu. Zo správne

analyzovaných údajov je možné získať informácie potrebné pre podporu

rozhodovania.

Aj napriek počiatočnému odporu voči štatistike ako vede, je možné po

pochopení základných princípov a metód využiť získané výsledky v marketingovej

komunikácii. Či už na spracovanie marketingového výskumu alebo na stanovenie

predpovedí správania sa sledovaného objektu.

12

Študenti sa pri štúdiu, ale aj v živote stretávajú so štatistickými postupmi

a ani si neuvedomujú, že sa skutočne jedná o štatistiku. Vo väčšine prípadov sú to

rôzne typy grafov, tabuliek, vyjadrení alebo interpretácií. Táto kategória štatistiky

sa nazýva deskriptívna štatistika. Nerobí nič iné, len opisuje skutkový stav.

Samozrejme, že aj tu je potrebná (čiastočná) znalosť teoretických východísk

a vzorcov, ale od študenta sa nevyžaduje presné napísanie vzorca. Základom je

pochopenie jednotlivých metód a ich správne použitie. Vzorec je možné vyhľadať

v ľubovoľnej publikácii venujúcej sa štatistike, ale jeho nesprávne pochopenie

môže viesť k dezinterpretácii výsledkov. Preto aj táto učebnica má za úlohu

študenta vtiahnuť do problematiky štatistiky a viesť ho k pochopeniu a správnej

interpretácii štatistických postupov. Problémom študentov býva to, že sú nútení

použiť štatistické postupy bez toho, aby ich chápali. Potom na základnú otázku typu

„akú štatistickú metódu ste použili“ nevedia odpovedať. Nesystematicky a bez

rozmýšľania používajú rôzne vzorce alebo nesprávne grafické vyjadrenie. Následne

si môžeme stanoviť otázku, či je takýto absolvent vhodný pre prax. Stačí si

porovnať reálne marketingové výskumy a výstupy niektorých študentov. Ich kvalita

a vyjadrenie je na nízkej úrovni. Preto je potrebné študentov oboznámiť so

základnými štatistickými metódami a postupmi so zreteľom na ich aplikáciu

v marketingu.

V určitých prípadoch budeme využívať aj vzorce, ale budeme sa snažiť

použiť aj softvérové vybavenie. Skoro všetky príklady v tejto učebnici je možné

vytvoriť pomocou vhodného softvéru. Medzi základné softvérové nástroje pre

štatistickú analýzu patrí MS Excel (a jemu podobné open-source produkty). Pre

účely demonštrácie príkladov v tejto učebnici použijeme MS Excel 2010. Postupy

popísané v tejto učebnici môžu byť odlišné v iných verziách MS Excel, preto

odporúčame mať nainštalovanú verziu 2010. K pokročilejším softvérovým

nástrojom je možné zaradiť produkty od spoločnosti SPSS alebo SAS. V prípade

13

nutnosti budeme na demonštráciu využívať softvérový produkt Minitab. Minitab

umožňuje komplexnú štatistickú analýzu dát.

Samozrejme, že štatistika nie je v živote všetko, ale tam kde má byť

použitá, musí byť použitá správne.

Vysokoškolská učebnica je rozdelená do viacerých častí, ktoré na seba

nadväzujú. Pre správne pochopenie je potrebné venovať sa každej časti, od definície

základných pojmov počínajúc.

Všetky použité bibliografické zdroje sú uvedené na konci učebnice

a študentovi poskytujú tak možnosti získania ďalších vedomostí a skúseností

z oblasti štatistiky.

14

Základné pojmy v štatistike a rozdelenie štatistiky

V tejto časti sa budeme venovať rozdeleniu štatistiky, definícii pojmov

používaných v štatistike, vysvetlíme si základné postupy a metódy a v neposlednom

rade sa budeme snažiť správne interpretovať získané dáta.

Základné pojmy v štatistike

Štatistika skúma vždy viac objektov, udalostí (príp. procesov) súčasne.

Z toho dôvodu môžeme konštatovať, že štatistika sa zaoberá skúmaním

hromadných javov. Pri skúmaní hromadných javov sa zaoberáme skúmaním

vlastností, správania a vývoja sledovaného javu. Množina skúmaných objektov sa

nazýva štatistický súbor. Štatistický súbor je množina štatistických jednotiek.

Štatistická jednotka je potom prvok štatistického súboru. Konkrétne sa môže

jednať o osobu, krajinu, rozličnú udalosť, výrobok atď. Na štatistickej jednotke

pozorujeme konkrétne vlastnosti hromadnej udalosti. Štatistická súbor, ale aj

štatistická jednotka musia byť presne vymedzené z vecného priestorového

a časového hľadiska. Vecné vymedzenie definuje objekt štatistickej jednotky alebo

súboru. Môže ísť napr. o osobu, výrobok, firmu, atď. Z priestorového hľadiska sa

musí definovať územie, na ktorom sa štatistické jednotky, ktoré patria do

štatistického súboru, nachádzajú. Tu môžeme hovoriť napr. o meste, kraji,

konkrétnej firme atď. Pri časovom hľadisku musí byť vymedzený časový okamih,

ku ktorému sa štatistický súbor definuje. Jedná sa napr. o časové rozpätie

sledovania štatistickej jednotky – týždeň, mesiac, konkrétny časový úsek atď.

Počet štatistických jednotiek, ktoré patria do štatistického súboru, sa nazýva

veľkosť štatistického súboru alebo rozsah štatistického súboru. Z tohto pohľadu

môžeme štatistický súbor rozdeliť na štatistický súbor ktorý obsahuje:

konečný rozsah štatistických jednotiek,

nekonečný rozsah štatistických jednotiek.

15

Konečný rozsah štatistických jednotiek znamená, že v štatistickom súbore

môže byť konečný počet štatistických jednotiek. V nekonečnom rozsahu

štatistických jednotiek nie je počet štatistických jednotiek ohraničený.

Ďalšie členenie štatistického súboru (častejšie používané) je:

základný štatistický súbor,

výberový štatistický súbor.

Základný štatistický súbor predstavuje množinu všetkých vymedzených

jednotiek štatistického súboru. Iné označenie pre základný štatistický súbor je

populácia. Výberový štatistický súbor (vzorka) predstavuje podmnožinu

základného štatistického súboru a môže byť použitý na stanovenie záverov

o základnom štatistickom súbore (populácie). Používa sa vtedy, keď skúmanie

vlastností pri všetkých štatistických jednotkách nie je reálne možné. Výberový

súbor by mal byť najvhodnejším predstaviteľom základného štatistického súboru.

Pri výskumoch rozličných druhov sa stretávame aj s pojmom veľkosť vzorky. Nie

je to nič iné ako počet štatistických jednotiek výberového štatistického súboru.

Niekedy je ťažko stanoviť, či je štatistický súbor základný alebo výberový.

Všetko to závisí od konkrétnej skúmanej udalosti. Napr. štatistický súbor všetkých

zamestnancov určitej firmy z konkrétneho odvetvia môže byť chápaný ako

základný, z ktorého je možné vybrať určitú skupinu, ktorá potom predstavuje

výberový štatistický súbor. Na druhej strane, ten istý štatistický súbor je možné

považovať za výber zo štatistického súboru zamestnancov všetkých firiem z tej istej

oblasti.

Každá štatistická jednotka nesie v sebe rad rozličných vlastností,

parametrov, atribútov, ktoré je možné skúmať. Tieto vlastnosti sa súhrnne nazývajú

štatistické znaky. Štatistický znak môžeme nazvať tiež premennou alebo

atribútom. V ďalšom texte budeme používať premenná. Premenná u každej

štatistickej jednotky nadobúda hodnotu, ktorá môže byť iná ako hodnota u inej

štatistickej jednotky. Štatistickým údajom potom môžeme nazvať záznamy

16

o hodnotách jedného alebo viacerých štatistických znakov v štatistickom súbore.

Klasifikácia premenných z rôznych hľadísk je zobrazená na obr.1. Vychádza

z rôznych pohľadov na štatistické znaky a ich vlastnosti. Toto členenie je dôležité aj

z pohľadu štatistického spracovania údajov v štatistickom softvéri.

obr. 1 Členenie premenných

Pre možnú zložitosť členenia premenných podľa obr. 1 budeme používať

členenie premenných podľa spôsobu vyjadrenia a podľa škály merania hodnôt.

Základné členenie premenných podľa spôsobu vyjadrenie je:

kvalitatívne premenné (kategorické, slovné),

kvantitatívne premenné (číselné).

17

Keďže používanie cudzích slov v názvoch premenných by mohlo študentov

hneď na začiatku odradiť od štúdia štatistiky, budeme používať zrozumiteľnejšie

označenie. Pre správne prvotné zaradenie typu premenných môžeme použiť

jednoduchú pomôcku. Na číselné premenné sa dá opýtať otázkou „Koľko?“. Patrí

sem napr. výška, hmotnosť, vek, príjem, výdavky, objem atď. Na kategorické

premenné sa dá spýtať otázkou „Aký typ?“. Sem patrí napr. farba, pohlavie,

národnosť, rodinný stav. Pre tieto typy premenných nemôžeme vypočítať napr.

priemer alebo maximálnu hodnotu, aj keď môžu byť v štatistickom softvéri

kódované formou čísel (muž –1, žena – 2). Tento spôsob zápisu je preferovaný

kvôli prehľadnosti. Toto základné členenie vo väčšine prípadov nevyhovuje, preto

je nutné typy premenných členiť podľa tzv. škál merania.

Členenie premenných podľa škál merania obsahuje viacero typov:

intervalové premenné (kardinálne),

poradové premenné (ordinálne),

nominálne premenné.

Pomocou intervalovej premennej (jeden typ kardinálnej premennej) sa

štatistické jednotky zoradia podľa hodnôt premennej. Tento typ premennej

umožňuje aj kvantifikáciu veľkosti rozdielov medzi hodnotami štatistických

jednotiek. Môžeme sa pýtať otázkou „O koľko?“. Ako príklad môžeme uviesť vek.

Vieme povedať že 45 ročný muž je starší ako 25 ročný muž. Ďalej vieme však

povedať aj to, že 45 ročný muž je o 20 rokov starší ako 25 ročný. Čiže vieme určiť

poradie, ale aj rozdiely medzi jednotlivými štatistickými údajmi. Medzi ďalšie

typické príklady patrí čas určitej aktivity, výška, hmotnosť, príjem, počet detí,

výdavky atď.

Poradová premenná (ordinálna) umožňuje zoradiť štatistické jednotky

podľa hodnôt premennej. Na rozdiel od intervalovej premennej neumožňuje

kvantifikovať rozdiely medzi hodnotami štatistických jednotiek. Ak poznáme iba

18

poradie, vieme povedať, kto bol lepší a kto bol horší. Nevieme však určiť aké sú

rozdiely medzi jednotlivými hodnotami. Hodnoty tejto premennej predstavujú

kategórie, ktoré sa dajú použiť na hodnotenie dôležitosti (1 – najnižšia dôležitosť, 5

– najvyššia dôležitosť). Typickými príkladmi sú napr. prospech škole, hodnotenie

stavu, hodnotenie spokojnosti, vzdelanie, miera súhlasu s určitým výrokom atď.

Nominálna premenná predstavuje škálu, pomocou ktorej môžeme zaradiť

štatistickú jednotku do určitej skupiny alebo kategórie. Určovanie poradia v tejto

kategórii však nemá význam a hodnoty sa nedajú usporiadať. Typickými príkladmi

sú pohlavie, farba, národnosť, bydlisko atď.

Toto členenie (intervalová, poradová a nominálna premenná) je len hrubé.

Existuje viacero špecifických typov premenných, ale pre jednoduchosť ich

neuvádzame.

Rozdelenie štatistiky

Definícia štatistiky ako vedy bola uvedená v úvode tejto učebnice. Pre

pochopenie samotného pojmu štatistika je potrebné uviesť viacero pohľadov.

Štatistiku môžeme chápať ako:

vednú disciplínu,

praktickú činnosť (zber údajov),

štatistické údaje (výsledky výpočtov),

štatistický vzorec.

Použitie slova štatistika a jeho konkrétny význam závisí od situácie v akej

sa používa.

Štatistiku ako vednú disciplínu môžeme rozdeliť do dvoch hlavných

kategórií:

deskriptívna štatistika,

19

induktívna štatistika.

Deskriptívnu štatistiku, inak povedané opisnú, predstavujú metódy na

vytvorenie prehľadu o získaných údajoch pomocou opisných charakteristík, grafov

a tabuliek. Na základe toho, koľko premenných chceme skúmať súčasne

rozdeľujeme deskriptívnu štatistiku na:

jednorozmernú (jedna premenná),

dvojrozmernú (dve premenné),

viac rozmernú (tri a viac premenných).

Pomocou induktívnej štatistiky sa zasa dajú na základe informácií

získaných z náhodných vzoriek robiť závery o celých štatistických súboroch z

ktorých vzorky pochádzajú. To znamená, že je možné zovšeobecniť úsudky

o vlastnostiach populácie na základe informácií získaných zo vzorky. Pre lepšie

pochopenie slúži obr. 2.

obr. 2 Zovšeobecniteľnosť výberového súboru

20

Aj induktívnu štatistiku je možné podľa počtu súčasne skúmaných

premenných rozdeliť do rovnakých kategórií ako deskriptívnu štatistiku. Avšak

použité metódy sú úplne odlišné.

Štatistická indukcia sa zaoberá odhadmi parametrov (nie je súčasťou tejto

učebnice) a štatistickým testovaním hypotéz1. Základnou podmienkou použitia

ľubovoľnej induktívnej štatistickej metódy je náhodný výber. Tento výber musí

spĺňať dve základné kritériá:

1. Pravdepodobnosť zaradenia do vzorky je pre všetky štatistické jednotky

nenulová.

2. Štatistické jednotky sú do vzorky vyberané nezávisle jedna od druhej.

Otázky

1. Čo je to štatistika?

2. Aké podmienky musí spĺňať náhodný výber?

3. Definujte štatistický súbor.

4. Vysvetlite, čo je to štatistická jednotka.

5. Aký je rozdiel medzi základným štatistickým súborom a výberovým

štatistickým súborom?

6. Ako sa členia premenné podľa škál merania?

7. Ako sa nazýva počet štatistických jednotiek, ktoré patria do

štatistického súboru?

8. Čím sa zaoberá štatistika?

9. Ako delíme štatistiku na základe počtu premenných?

10. Aký je rozdiel medzi základným štatistickým súborom a populáciou?

1 Pozri kapitolu Testovanie hypotéz

21

Deskriptívna štatistika a jej metódy

Ako bolo už spomenuté, deskriptívnu štatistiku možno rozdeliť podľa počtu

súčasne skúmaných premenných. Pre potreby marketingového výskumu budeme

najčastejšie používať metódy jednorozmernej štatistiky a dvojrozmernej štatistiky.

Z toho dôvodu budeme týmto metódam venovať väčší priestor na vysvetlenie.

Jednorozmerná deskriptívna štatistika

Tento typ používa na opis údajov napr. frekvenčnú tabuľku, koláčový graf,

stĺpcový graf, kumulatívny stĺpcový graf, histogram, škatuľový graf a viacero typov

opisných charakteristík.

Frekvenčná tabuľka

Frekvenčná tabuľka zobrazuje rozdelenie početnosti hodnôt premennej a

poskytuje informáciu o rozdelení kategorickej premennej (muž, žena) alebo číselnej

premennej rozdelenej do kategórií (vekové skupiny). Tabuľka obsahuje absolútne

(celkové) aj relatívne početnosti (percentá). Pomocou frekvenčnej tabuľky sa dajú

odhaliť chyby, ktoré by nasledujúce štatistické analýzy mohli znehodnotiť.

Frekvenčná tabuľka je chápaná ako výsledok triedenia hodnôt, ktorý má za

cieľ určiť počty výskytov jednotlivých hodnôt alebo kategórií (tried). Od triedenia

sa vždy požaduje zásada jednoznačnosti a úplnosti. Jednoznačnosť hovorí, že každá

hodnota je zaradená iba do jednej kategórie. Nikdy nesmie byť zaradená do

kategórií viacerých. Úplnosť znamená, že každá hodnota je zaradená do niektorej

z definovaných kategórií.

Pri realizácii výskumu môže byť počet možných hodnôt premennej príliš

veľký, čo môže z praktického hľadiska viesť k nežiaducim výsledkom. Preto sa

pristupuje k vytvoreniu kategórií (počtu riadkov frekvenčnej tabuľky). Určenie

počtu kategórii nie je vždy ľahká úloha. Počet kategórií by mal byť minimálne 2,

22

maximálne by nemal presiahnuť rozsah štatistického súboru. Pri voľbe počtu

kategórií musíme v prvom rade vychádzať z prirodzeného, objektívnou

skutočnosťou predurčeného počtu tried. Ak sa toto pravidlo nedá uplatniť, musíme

určiť počet tried tak, aby nebol príliš veľký. Zvyčajne je maximálny počet tried

stanovený na 10. Väčší počet tried by mohol viesť k neprehľadnosti a zložitosti

výskumu. Formu frekvenčnej tabuľky ľahkú na pochopenie demonštruje tab. 1.

tab. 1 Príklad frekvenčnej tabuľky

Kategória Absolútny počet Relatívny počet

K1 20 11,43%

K2 89 50,86%

K3 54 30,86%

K4 12 6,86%

Spolu 175 100,00%

Frekvenčná tabuľka môže obsahovať aj viacero údajov, napr. strednú

hodnotu kategórie (vek od 10 do 30 má strednú hodnotu 20), priemernú hodnotu

kategórie (závisí od počtu štatistických jednotiek v kategórii), kumulatívnu

absolútnu početnosť alebo kumulatívnu relatívnu početnosť. Použite týchto údajov

závisí od ich potreby a preto nie je vždy nutné ich dopĺňanie do frekvenčnej

tabuľky.

Koláčový graf

Tento typ grafu zobrazuje vždy len relatívne (percentuálne) rozloženie

početnosti hodnôt. Kruh predstavuje celý štatistický súbor a výseky podiely,

v akých sa jednotlivé kategórie vyskytujú. Obr. 7 zobrazuje koláčový graf

zostrojený z dát frekvenčnej tabuľky (tab. 1). Graf bol zostrojený v MS Excel. Pre

jeho zostrojenie najskôr označíme oblasť, pre ktorú chceme graf zobraziť spolu

s popismi stĺpcov (obr. 3). Z menu „Vložiť“ a kategórie „Grafy“ vyberieme

„Koláčový“ (obr. 4). Zo zobrazenej ponuky vyberieme požadovaný typ grafu (obr.

5). Z kategórie „Rozloženia grafov“ vyberieme vhodné rozloženie grafu – názov

23

grafu, legenda, popisy atď. (obr. 6). V prípade nezobrazenia tejto kategórie kliknite

do oblasti grafu. Po zobrazení grafu môžete použiť rôzne formátovacie techniky,

ktoré poskytuje MS Excel.

obr. 3 Označenie oblasti pre vytvorenie koláčového grafu

obr. 4 Voľba grafu – Koláčový

obr. 5 Výber vhodného typu koláčového grafu

24

obr. 6 Výber rozloženia grafu

obr. 7 Koláčový graf

Stĺpcový graf

Tento typ grafu je vhodný na grafické zobrazenie absolútnej početnosti

zadanej vo frekvenčnej tabuľke. Jeho zostrojenie je podobné ako koláčového grafu,

ale z kategórie „Grafy“ vyberieme „Stĺpcový“. Z ponuky typov grafov vyberieme

vhodný, v našom prípade „Skupinový stĺpcový“ (obr. 8). Zostrojený graf (obr. 9)

môžeme pomocou kategórie „Rozloženie grafu“ vhodne upraviť, poprípade

naformátovať rovnakým postupom ako koláčový graf.

25

obr. 8 Výber vhodného typu stĺpcového grafu

obr. 9 Stĺpcový graf

26

Kumulatívny stĺpcový graf

Tento typ grafu môžeme považovať za alternatívu ku koláčovému grafu.

Znázorňuje tiež relatívne rozdelenie početnosti frekvenčnej tabuľky. Keďže sa

jedná o typ stĺpcového grafu, zostrojíme ho podobne ako predchádzajúci graf, ale

pri výbere typu stĺpcového grafu zvolíme „100% skladaný stĺpcový“. Prvotné

zobrazenie grafu ešte nepripomína to, čo chceme dosiahnuť, preto musíme

v kategórii „Údaje“ vybrať položku „Zdrojové údaje“ (obr. 10). V zobrazenom

dialógovom okne „Vybrať zdroj údajov“ kliknite na tlačidlo „Prepnúť riadok alebo

stĺpec“ (obr. 11). Následne sa zobrazený graf prekreslí na požadovaný tvar (obr.

12).

obr. 10 Úprava zdrojových údajov grafu

obr. 11 Prepnutie riadku alebo stĺpca v grafe

27

obr. 12 Kumulatívny stĺpcový graf

Spojnicový graf

Spojnicový graf sa používa pre zobrazenie trendov, napr. časových radov.

Niekedy sa označuje aj ako čiarový graf, pretože je zobrazený vo forme čiary. Ak

graf obsahuje iba jednu čiaru vyjadrujúcu trend jednej premennej hovoríme

o jednoduchom spojnicovom grafe, v opačnom prípade sa jedná o viacnásobný

spojnicový graf. Pri štatistickej analýze viacerých premenných pomocou

viacnásobného spojnicového grafu (pozor, nejedná sa o viacrozmernú štatistickú

metódu) môžeme porovnávať ich trendy na spoločnej stupnici.

Pre zostrojenie spojnicového grafu najskôr označíme oblasť, z ktorej

chceme graf zostrojiť. Z kategórie „Grafy“ zvolíme „Čiarový“. Z ponúknutého

zoznamu „Dvojrozmerná čiara“ vyberieme „Čiarový“ (obr. 13). Vytvorený graf

doformátujeme podľa potreby (nadpis, legenda, atď.). Na obr. 14 je zobrazený

spojnicový graf pre revidované údaje hrubého domáceho produktu (produkcia

v mil. EUR) v Slovenskej republike za roky 1995 – 2010.

28

obr. 13 Výber vhodného typu spojnicového grafu

obr. 14 Spojnicový graf

Histogram

Histogram je najčastejšie používaný typ grafu pre zobrazenie početností

premennej. Na osi x sa zobrazujú intervaly premennej a na os y početnosti číselnej

premennej v zadaných intervaloch (počty výskytov v jednotlivých intervaloch).

29

Grafické znázornenie histogramu je podobné ako stĺpcový graf, s tým rozdielom, že

medzi jednotlivými „stĺpcami“ histogramu nie sú medzery. Je to kvôli tomu, že

stĺpcový graf znázorňuje hodnoty kategorickej premennej a histogram číselnej

premennej.

Ak chceme vytvoriť histogram v programe MS Excel, môžeme použiť

nástroje na analýzu údajov, ktoré sú sprístupnené až po nainštalovaní doplnku

„Data Analysis“. V menu „Súbor“ kliknite na položku „Možnosti“. V ľavej časti

novo otvoreného okna vyberte položku „Doplnky“. V rolovacom menu

„Spravovať“, v spodnej časti okna, zvoľte možnosť „Doplnky programu Excel“.

Kliknite na tlačidlo „Spustiť“. V zozname „Dostupné doplnky“ zaškrtnite voľbu

„Analytické nástroje“ a kliknite na tlačidlo „OK“. Doplnok „Analytické nástroje“ je

k dispozícii v menu „Údaje“, v kategórii „Analysis“.

Pre vytvorenie histogramu je vhodné mať nielen vstupné údaje (číselné), ale

aj kategórie, do ktorých je možné tieto údaje roztriediť (obr. 15). V prípade, že

kategórie nezadáte, budú automaticky vytvorené rovnomerné rozdelenia kategórií.

Toto rozdelenie však nemusí byť vhodné. V menu „Údaje“, v kategórii „Analysis“

zvoľte „Data Analysis“ (obr. 16). Otvorí sa okno „Data Analysis“ (obr. 17). V časti

„Analysis Tools“ vyberte „Histogram“. Kliknite na tlačidlo „OK“. Otvorí sa okno

„Histogram“ (obr. 18), do ktorého sa zadávajú vstupné údaje pre zostrojenie

histogramu. Do poľa „Input Range“ zadáme rozsah údajov, z ktorých bude

zostrojený histogram. Do poľa „Bin Range“ zadáme rozsah údajov, ktoré sú

zadefinované ako hranice tried. Pokiaľ ste pri výbere oblastí vstupných údajov

a hraníc tried zahrnuli popisy stĺpcov, zaškrtnite políčko „Labels“. V časti „Output

options“ vyberáte spôsob zobrazenia výstupnej tabuľky. Pokiaľ chcete vložiť

výstupnú tabuľku do rovnakého hárku v akom sú vstupné údaje, kliknite na tlačidlo

„Output Range“ a zadajte adresu bunky, kde bude ľavý horný okraj výstupnej

tabuľky. Ak ju chcete vložiť nový hárok do aktuálneho zošitu, kliknite na tlačidlo

„New Worksheet Ply“. A ak chcete vytvoriť výstupnú tabuľku v novom zošite

30

kliknite na tlačidlo „New Workbook“. Pre grafické zobrazenie histogramu zvoľte

možnosť „Chart Output“. Výstupná tabuľka je zobrazená na obr. 19 a samotný

histogram na obr. 20. Aj keď MS Excel nie je na zobrazenie histogramu vhodný

(necháva medzery medzi stĺpcami), pre jednoduché úlohy nie je potrebné používať

špeciálne štatistické programy. Na obr. 21 je zobrazený histogram, ktorý bol

vytvorený v štatistickom programe Minitab a zobrazuje reálny vzhľad a rozloženie

údajov.

obr. 15 Časť vstupných údajov

obr. 16 Výber nástroja Data Analysis

obr. 17 Okno Data Analysis (Histogram)

31

obr. 18 Okno Histogram

obr. 19 Výstupná tabuľka histogramu

obr. 20 Histogram vytvorený pomocou MS Excel

32

obr. 21 Histogram vytvorený v programe Minitab

Pre správne určenie počtu a hraníc tried je vhodné dodržať nasledovný

postup:

1. Nájdenie minimálnej (xmin) a maximálnej (xmax)hodnoty štatistického

súboru. K tomuto kroku je možné použiť funkcie MS Excel – MIN a MAX.

2. Výpočet variačného rozpätia2 R.

3. Stanovenie počtu tried:

a. 𝑛 > 100 𝑘 = [10log (𝑛)] (1)

b. 40 < 𝑛 ≥ 100 𝑘 = [2√𝑛] (2)

c. 𝑛 ≤ 40 𝑘 = [1 + 1,4426. ln (𝑛)] (3)

4. Výpočet šírky triedy ℎ = 𝑅/𝑘 (4)

5. Voľba dolnej hranice prvej triedy a rozdelenie štatistického súboru do tried.

Triedy sa vytvárajú dovtedy, pokiaľ nie je zaradená maximálna hodnota

štatistického súboru.

2 Pozri kapitolu Miery variability

100806040200-20

8

7

6

5

4

3

2

1

0

Kategórie

Fre

qu

en

cy

Mean 41,08

StDev 26,79

N 24

Normal

Histogram

33

6. Rozhodnutie do ktorej triedy budú zaradené hraničné hodnoty.

7. Určiť početnosti zaradenia do tried.

Príklad:

1. xmin=2, xmax=85

2. R=83

3. n=24, k=4

4. h=20,75

5. hranice tried:

a. 1. trieda 2-22,75

b. 2. trieda 22,75-43,5

c. 3. trieda 43,5-64,25

d. 4. trieda 64,25-85

6. interval zaradenia hodnoty do triedy, napr. (2;22,75˃, (22,75;43,5> atď.

7. početnosti tried:

a. 1. trieda 7

b. 2. trieda 5

c. 3. trieda 6

d. 4. trieda 6

Z rozdelenia a početnosti tried je vidieť, že nami navrhované hodnoty na

obr. 13 sú podobné vypočítaným. Samozrejme je potrebné brať v zreteľ praktickú

aplikovateľnosť vypočítaného rozdelenia tried.

Opisné charakteristiky

Vizuálnu analýzu alebo celkové posúdenie štatistického súboru poskytujú

rôzne grafy a tabuľky. Opisné charakteristiky štatistický súbor opisujú

podrobnejšie. Samotná opisná charakteristika je číslo (štatistika), ktoré je

vypočítané podľa konkrétneho vzorca z hodnôt premennej štatistického súboru.

Keďže existuje viacero opisných charakteristík, delia sa do troch skupín:

34

miery polohy (stredné hodnoty),

miery variability,

miery tvaru.

Pri realizácii marketingového výskumu nie je potrebné využívať všetky

opisné charakteristiky. Vo väčšine prípadov jednoduchých marketingových

výskumov si vystačíte so základnými opisnými charakteristikami ako je napr.

aritmetický priemer, medián, modus, variačné rozpätie, rozptyl a smerodajná

(štandardná) odchýlka. Obr. 22 zobrazuje podrobný prehľad opisných

charakteristík.

Všetky opisné charakteristiky je možné vypočítať pomocou príslušnej

funkcie v MS Excel alebo použitím doplnku „Data Analysis“.

obr. 22 Prehľad opisných charakteristík

Miery polohy

Pomocou týchto opisných charakteristík je možné určiť rôzne hodnoty,

blízko ktorých sa nachádzajú hodnoty v štatistickom súbore. Miery polohy sa tiež

nazývajú stredné hodnoty z toho dôvodu, že kvantitatívnej premenná nadobúda

viacero hodnôt, z ktorých jedna je minimálna, jedna maximálna a jedna stredná.

Medzi najčastejšie používané miery polohy patrí aritmetický priemer, medián

35

a modus. To, ktorá charakteristika má byť použitá závisí hlavne od cieľa analýzy

(napr. škála v ktorej sú štatistické znaky merané).

Aritmetický priemer je vhodné použiť:

ak sú dáta v metrickej škále,

rozdelenie dát je približne symetrické,

ak chceme použiť štatistické testy.

Medián je vhodné použiť:

ak sú dáta v ordinálnej alebo metrickej škále,

ak chceme poznať stred rozdelenia dát,

ak je rozdelenie dát silne zošikmené,

ak dáta obsahujú odľahlé hodnoty.

Modus je vhodné použiť:

ak má rozdelenie viacero vrcholov,

ak chceme získať len základný prehľad o rozdelení,

ak chceme poznať najčastejšie sa vyskytujúcu hodnotu.

V ďalšom si zadefinujeme jednotlivé opisné charakteristiky a bližšie

vysvetlíme ich použitie v MS Excel.

Aritmetický priemer

Je najznámejšou strednou hodnotou. Vypočíta sa ako súčet všetkých hodnôt

vydelený ich počtom (rozsahom štatistického súboru). Aritmetický priemer sa

označuje ako �̅�.

Funkcia na výpočet aritmetického priemeru v MS Excel – AVERAGE.

Syntax funkcie AVERAGE obsahuje nasledujúce argumenty (obr. 23):

36

Číslo1 – povinný argument. Prvé číslo, odkaz na bunku alebo rozsah,

ktorého aritmetický priemer chceme vypočítať.

Číslo2; atď. – voliteľný argument. Ďalšie čísla, odkazy na bunky alebo

rozsahy (najviac 255), ktorých aritmetický priemer chceme vypočítať.

obr. 23 Argumenty funkcie AVERAGE

Geometrický priemer

Tento typ priemeru sa používa pre pomerovú premennú s pozitívnou

šikmosťou3. Je definovaný ako n-tá odmocnina zo súčinu n hodnôt. Z jeho

matematickej podstaty vyplýva aj jeho nevýhoda. Pokiaľ sa aspoň jedna hodnota

rovná 0, priemer je potom nulový. Geometrický priemer sa označuje ako �̅�𝑔.

Funkcia na výpočet geometrického priemeru v MS Excel – GEOMEAN.

Syntax funkcie GEOMEAN obsahuje nasledujúce argumenty (obr. 24):

3 Pozri kapitolu Miery tvaru

37

Číslo1; číslo2; atď. – argument číslo1 je povinný, nasledujúce argumenty sú

voliteľné. Namiesto argumentov oddelených bodkočiarkami môžeme

použiť jedno pole alebo odkaz na pole.

obr. 24 Argumenty funkcie GEOMEAN

Harmonický priemer

Harmonický priemer sa počíta tam, kde má zmysel počítať súčet

z prevrátených hodnôt premennej. Konkrétne sa môže jednať o výpočet priemeru

z pomerných čísel, pri charakterizovaní dĺžky času potrebného na splnenie úlohy,

ak všetky štatistické jednotky plnia danú úlohu súčasne. Do výpočtu harmonického

priemeru možno zahrnúť iba nenulové hodnoty (keďže sa počíta z prevrátenej

hodnoty). Harmonický priemer sa označuje ako �̅�ℎ.

Funkcia na výpočet harmonického priemeru v MS Excel – HARMEAN.

Syntax funkcie HARMEAN obsahuje nasledujúce argumenty (obr. 25):

38

Číslo1; číslo2; atď. – argument číslo1 je povinný, nasledujúce argumenty sú

voliteľné. Namiesto argumentov oddelených bodkočiarkami môžeme

použiť jedno pole alebo odkaz na pole.

obr. 25 Argumenty funkcie HARMEAN

Medián

Tento ukazovateľ nie je ovplyvnený extrémnymi hodnotami. Medián je

ukazovateľom strednej hodnoty zoradeného štatistického súboru. Štatistický

súbor je zoradený od najmenšej po najväčšiu hodnotu (vzostupne). Ak má

štatistický súbor nepárny počet štatistických jednotiek, medián sa rovná hodnote na

mieste (n+1)/2 (prostredná hodnota). V prípade párneho počtu štatistických

jednotiek, sa medián vypočíta ako aritmetický priemer hodnôt na miestach n/2 a

n/2+1. Medián sa označuje ako �̃�.

Keďže aj tak na výpočet mediánu budeme používať MS Excel, stačí len

vedieť, na čo medián slúži. Medián nie je ovplyvnený extrémnymi hodnotami.

39

Nevýhodou je však je to, že bez ohľadu na veľkosť štatistického súboru sa berie do

úvahy jedna resp. maximálne dve hodnoty.

Funkcia na výpočet mediánu v MS Excel – MEDIAN. Syntax funkcie

MEDIAN obsahuje nasledujúce argumenty (obr. 26):

Číslo1; číslo2; atď. – číslo1 je povinný argument, nasledujúce argumenty sú

voliteľné.

obr. 26 Argumenty funkcie MEDIAN

Modus

Modus je hodnota premennej, ktorá sa v štatistickom súbore vyskytuje

najčastejšie. Pokiaľ sa v rade všetkých hodnôt štatistického súboru budú rovnako

často vyskytovať hodnoty s maximálnou početnosťou vedľa seba, modus bude ich

priemer. Ak budú v rade existovať dve navzájom nesusediace hodnoty s

maximálnymi početnosťami, potom obe tieto hodnoty budú chápané ako modus.

Modus sa označuje ako 𝑥.

40

Funkcia na výpočet modusu v MS Excel – MODE.SNGL. Syntax funkcie

MODE.SNGL obsahuje nasledujúce argumenty (obr. 27):

Číslo1 – povinný argument. Prvý argument, pre ktorý chceme vypočítať

modus.

Číslo2, atď. – voliteľné argumenty. Namiesto argumentov oddelených

čiarkami môžeme použiť jedno pole alebo odkaz na pole.

obr. 27 Argumenty funkcie MODE.SNGL

Kvantily

Kvantil je hodnota, ktorá rozdeľuje usporiadaný štatistický súbor na dve

časti. Najpoužívanejší kvantil je medián. Z toho vyplýva, že pokiaľ chceme

definovať aj ostatné kvantily, štatistický súbor musí byť usporiadaný od najmenšej

hodnoty po najväčšiu. Aj keď samotné kvantily nemusíme na opis štatistického

súboru priamo využívať, pre pochopenie niektorých mier variability sú veľmi

dôležité. V praxi sa môžeme stretnúť s viacerými kvantilmi. Ich názvy sú odvodené

od počtu častí, na ktoré rozdeľujú štatistický súbor:

41

medián – najčastejšie používaný kvantil, usporiadaný štatistický súbor

rozdeľuje na dve rovnako veľké časti,

tercily – dva kvantily, ktoré rozdeľujú usporiadaný štatistický súbor na tri

rovnako veľké časti,

kvartily – tri hodnoty premennej, ktoré rozdeľujú usporiadaný štatistický

súbor na štyri rovnako veľké časti,

kvintily – štyri kvantily, ktoré rozdeľujú usporiadaný štatistický súbor na

päť rovnako veľkých častí,

decily – kvantily, ktoré rozdeľujú usporiadaný štatistický súbor na desať

rovnako veľkých častí,

percentily – kvantily, ktoré rozdeľujú usporiadaný štatistický súbor na sto

rovnako veľkých častí.

Funkcia na zistenie percentilov v MS Excel – PERCENTILE.INC. Syntax

funkcie QUARTILE.INC obsahuje nasledujúce argumenty (obr. 28):

Pole – povinný argument. Pole alebo rozsah údajov, ktoré určujú relatívne

umiestnenie.

K – povinný argument. Hodnota percentilu z uzavretého intervalu 0..1.

42

obr. 28 Argumenty funkcie PERCENTILE.INC

Pomocou funkcie PERCENTRANK.INC v MS Excel môžeme na základe

hodnôt nami určenej oblasti a konkrétnej hodnoty premennej zistiť, ktorý percentil

jej zodpovedá. Jedná sa o opak predchádzajúcej funkcie.

Syntax funkcie PERCENTRANK.INC obsahuje nasledujúce argumenty

(obr. 29):

Pole – povinný argument. Pole alebo rozsah údajov s numerickými

hodnotami, ktoré určujú relatívne postavenie.

X – povinný argument. Hodnota, ktorej umiestnenie chceme zistiť.

Významnosť – voliteľný argument. Hodnota určujúca počet desatinných

miest, na ktoré bude vracaná percentuálna hodnota zaokrúhlená. Ak túto

hodnotu nezadáme, funkcia PERCENTRANK.INC použije 3 desatinné

miesta (0,xxx).

43

obr. 29 Argumenty funkcie PERCENTRANK.INC

V ďalšom výklade mier variability budeme používať rôzne kvartily. Prvý

kvartil, označený x0,25 (tzv. dolný kvartil), rozdelí usporiadaný štatistický súbor tak,

že prvá časť obsahuje štvrtinu hodnôt a zvyšná časť tri štvrtiny hodnôt. Tretí kvartil,

označený x0,75 (tzv. horný kvartil) je opakom prvého. Prvá časť obsahuje tri štvrtiny

hodnôt a druhá štvrtinu hodnôt.

Funkcia na zistenie kvartilov v MS Excel – QUARTILE.INC. Syntax

funkcie QUARTILE.INC obsahuje nasledujúce argumenty (obr. 30):

Pole – povinný argument. Pole alebo rozsah buniek obsahujúcich číselné

hodnoty, z ktorých chceme kvartil vypočítať.

Kvart – povinný argument. Určuje vrátenú hodnotu kvartilu.

o 0 – minimálna hodnota

o 1 – prvý kvartil (25. percentil)

o 2 – strednú hodnota (50. percentil – medián)

o 3 – tretí kvartil (75. percentil)

o 4 – maximálna hodnota

44

obr. 30 Argumenty funkcie QUARTILE.INC

Miery variability

Variabilita opisuje podobnosť hodnôt resp. odlišnosť premennej

v štatistickom súbore. Napr. premenná „Vek“ v jednom štatistickom súbore môže

obsahovať rovnaké hodnoty a v druhom môžu byť hodnoty rozdielne. Aj keď by

mohol byť aritmetický priemer oboch premenných rovnaký, druhý štatistický súbor

vykazuje určitú variabilitu. Variabilita premennej „Vek“ v prvom štatistickom

súbore je nulová. Miery polohy udávajú okolo hodnotu okolo ktorej sa hodnoty

centrujú (stredné hodnoty) alebo hodnoty, ktoré sa vyskytujú najčastejšie. Ako bolo

spomenuté, údaje s rovnakou strednou hodnotou môžu mať rozličnú variabilitu.

Malý rozsah variability znamená, malú odlišnosť hodnôt premenne v štatistickom

súbore, čiže miery polohy, sú v tomto prípade vhodnými charakteristikami na opis

premennej. Ak je však variabilita hodnôt premennej vysoká, charakterizuje to veľkú

odlišnosť hodnôt premennej a miery polohy sú v tomto prípade nedostatočnými

opisnými charakteristikami. V takomto prípade je potrebné ich doplniť

charakteristiky miery variability.

45

Variačné rozpätie

Jedná sa o najjednoduchšiu mieru variability, ktorá sa vypočíta ako rozdiel

medzi najväčšou a najmenšou hodnotou v štatistickom súbore. Označuje sa ako R.

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 (5)

Tak ako napríklad aritmetický priemer, aj variačné rozpätie je ovplyvnené

extrémnymi hodnotami premennej, keďže jeho výpočet je robený práve z nich.

Práve tento nedostatok môže skresľovať predstavu o variabilite premennej.

Funkcia na výpočet variačného rozpätia v MS Excel neexistuje, je potrebné

použiť funkcie na zistenie maxima (MAX) a minima (MIN) z rozsahu hodnôt.

Argumenty oboch funkcií sú rovnaké, zadáva sa rozsah hodnôt z ktorých chceme

požadované hodnoty zistiť (obr. 31, obr. 32). Zistené hodnoty je potom potrebné od

seba odrátať. Vzorec v MS Excel bude vyzerať nasledovne:

= 𝑀𝐴𝑋(𝐴2: 𝐴25) − 𝑀𝐼𝑁(𝐴2: 𝐴25) (6)

Rozsah údajov A2:A25 je nami zadaný rozsah, z ktorého sa zisťujú hodnoty

maxima a minima.

46

obr. 31 Argumenty funkcie MAX

obr. 32 Argumenty funkcie MIN

Kvartilové rozpätie

Spomínaný nedostatok variačného rozpätia odstraňujú tzv. kvantilové

rozpätia, z ktorých najpoužívanejšie je kvartilové rozpätie. Je definované ako

47

rozdiel medzi tretím a prvým kvartilom (75. a 25. percentil)4. Táto oblasť

reprezentuje stredných 50% hodnôt premennej. Kvartilové rozpätie sa označuje ako

𝑅𝑄4 .

𝑅𝑄4 = 𝑄3

4 − 𝑄14 = 𝑥0,75 − 𝑥0,25 (7)

Na výpočet kvartilového rozpätia v MS Excel, podobne ako na výpočet

variačného rozpätia neexistuje funkcia. Je potrebné použiť funkciu na zistenie

kvartilov a následne odrátať hodnotu tretieho a prvého kvartilu.

Nami zadaný vzorec na výpočet kvartilového rozpätia v MS Excel bude

potom vyzerať nasledovne:

= 𝑄𝑈𝐴𝑅𝑇𝐼𝐿𝐸. 𝐼𝑁𝐶(𝐴2: 𝐴25; 3) − 𝑄𝑈𝐴𝑅𝑇𝐼𝐿𝐸. 𝐼𝑁𝐶(𝐴2: 𝐴25; 1) (8)

Rozptyl

Rozptyl je často používanou mierou variability. Je definovaný ako

aritmetický priemer štvorcov odchýlok jednotlivých hodnôt premennej xi od

priemeru celého súboru. Rozptyl sa označuje ako 𝑠2 alebo 𝜎2.

𝑠2 =1

𝑛−1∑ (𝑥𝑖 − �̅�)2 = 𝑥2̅̅ ̅𝑛

𝑖=1 − �̅�2 (9)

Čím väčšiu hodnotu rozptylu dostaneme, tým sa údaje viac odchyľujú od

priemeru. Rozptyl nadobúda vždy kladnú hodnotu.

Funkcia na výpočet rozptylu v MS Excel – VAR.S. Syntax funkcie VAR.S

obsahuje nasledujúce argumenty (obr. 33):

Číslo1 – povinný argument. Prvý číselný argument zodpovedajúci

výberovému súboru.

Číslo2, atď. – voliteľné argumenty. Číselné argumenty 2 až 254

zodpovedajúce výberovému súboru.

4 Pozri kapitolu Miery polohy

48

Funkcia VAR.S predpokladá, že jej argumenty predstavujú vzorku

základného súboru. Ak údaje predstavujú celý základný súbor, rozptyl vypočítame

pomocou funkcie VAR.P, ktorej argumenty sú totožné s funkciou VAR.S.

obr. 33 Argumenty funkcie VAR.S

Z definície rozptylu podľa vzťahu (9) je zrejmé, že jednotky v ktorých bude

vypočítaný sú uvedené v štvorcoch (na druhú). Preto nie je možné rozptyl logicky

interpretovať. Z toho dôvodu sa pri meraní variability používa odmocnina

z rozptylu, ktorá sa nazýva smerodajná odchýlka.

Smerodajná odchýlka

Smerodajná odchýlka je definovaná ako druhá odmocnina z rozptylu.

Podobne ako rozptyl, ani smerodajná odchýlka nenadobúda záporné hodnoty.

V prípade normálneho rozloženia sa v intervale ± jedna smerodajná odchýlka

nachádza 68% napozorovaných hodnôt, v intervale ± dve smerodajné odchýlky sa

nachádza 95% napozorovaných hodnôt a v intervale ± tri smerodajné odchýlky sa

nachádza 99,73% napozorovaných hodnôt (obr. 34). Poznatok, že v prípade

49

normálneho rozloženia sa v intervale ± tri smerodajné odchýlky nachádzajú

prakticky všetky namerané hodnoty je veľmi dôležitý poznatok o analyzovanom

súbore. Čím je smerodajná odchýlka väčšia, tým väčšia je variabilita

napozorovaných hodnôt. Smerodajná odchýlka sa označuje ako 𝑠 alebo 𝛿.

obr. 34 Reprezentácia smerodajnej odchýlky pri normálnom rozložení

Funkcia na výpočet smerodajnej odchýlky v MS Excel – STDEV.S. Syntax

funkcie STDEV.S obsahuje nasledujúce argumenty (obr. 35):

Číslo1 – povinný argument. Číselný argument 1 zodpovedajúci

výberovému súboru.

Číslo2, atď. – voliteľné argumenty. Číselné argumenty 2 až 254

zodpovedajúce výberovému súboru. Namiesto argumentov oddelených

bodkočiarkami môžeme použiť jedno pole alebo odkaz na pole.

Funkcia STDEV.S predpokladá, že argumenty sú z výberového súboru. Ak

údaje reprezentujú celý súbor, smerodajnú odchýlku zistíme pomocou funkcie

STDEV.P, ktorej argumenty sú totožné s funkciou STDEV.S.

50

obr. 35 Argumenty funkcie STDEV.S

Použitie smerodajnej odchýlky ako miery variability je možné len vtedy ak

je aritmetický priemer vhodnou strednou hodnotou sledovaného štatistického

súboru. Keďže sa smerodajná odchýlka počíta z rozpätia, ktoré je silne ovplyvnené

extrémnymi hodnotami, možno konštatovať, že existencia extrémnych hodnôt

spôsobuje jej rast. V prípade silného zošikmenia údajov5 neposkytuje smerodajná

odchýlka relevantné informácie o štatistickom súbore. V takomto prípade je

vhodnejšie použiť kvantilové miery.

Miery tvaru

Dva štatistické súbory, ktorý majú rovnaké miery polohy a variability ešte

nemusia byť zhodné. Môžu sa odlišovať tzv. mierami tvaru, medzi ktoré patrí

šikmosť a špicatosť.

5 Pozri kapitolu Miery tvaru

51

Šikmosť

Rozdelenie početností (napr. v histograme) údajov štatistického súboru

môže byť symetrické alebo asymetrické. Pri symetrickom rozdelení (obr. 36) je

aritmetický priemer, medián a modus rovnaké.

𝑥 = �̃� = �̅� (9)

obr. 36 Symetrické rozdelenie

Ak sa aritmetický priemer, medián a modus nerovnajú, ide o asymetrické

rozdelenie početností alebo tzv. šikmosť. Podľa vzťahu medzi strednými hodnotami

môžeme hovoriť o:

pravostrannej šikmosti (kladná),

ľavostrannej šikmosti (záporná).

O pravostrannej šikmosti hovoríme vtedy, keď sa malé hodnoty premennej

vyskytujú častejšie a smerom k väčším hodnotám početnosti klesajú (obr. 37). Pre

stredné hodnoty platí vzťah:

𝑥 < �̃� < �̅� (10)

52

Podľa vzťahu (10) možno konštatovať, že aritmetický priemer je väčší ako

medián, z čoho vyplýva, že väčšina hodnôt je menšia ako aritmetický priemer.

obr. 37 Pravostranná šikmosť

O ľavostrannej šikmosti hovoríme vtedy, keď sa malé hodnoty premennej

vyskytujú zriedka a početnosti smerom k vyšším hodnotám narastajú (obr. 38). Pre

stredné hodnoty platí opačný vzťah ako pri pravostrannej šikmosti.

𝑥 > �̃� > �̅� (11)

Zo vzťahu (11) môžeme vyvodiť podobný záver ako pri pravostrannej

šikmosti. Medián je väčší ako priemer a teda väčšina hodnôt je väčšia ako priemer.

53

obr. 38 Ľavostranná šikmosť

Najčastejším ukazovateľom šikmosti je tzv. koeficient šikmosti, označujúci

sa ako 𝛾1. Ak sa koeficient šikmosti rovná nule, potom sa jedná o symetrické

rozdelenie. Ak je koeficient šikmosti väčší ako nula, ide o pravostrannú šikmosť.

A ak je koeficient šikmosti menší ako nula ide o ľavostrannú šikmosť. Čiže smer

asymetrie vyjadruje znamienko koeficientu šikmosti a silu asymetrie jeho hodnota.

Funkcia na výpočet koeficientu šikmosti v MS Excel – SKEW. Syntax

funkcie SKEW obsahuje nasledujúce argumenty (obr. 39):

Číslo1 – povinný argument, pre ktorý chceme vypočítať šikmosť.

Namiesto argumentov oddelených bodkočiarkami môžeme použiť

jedno pole alebo odkaz na pole.

Číslo2 – voliteľný argument.

54

obr. 39 Argumenty funkcie SKEW

Špicatosť

Pomocou špicatosti sa meria výskyt extrémnych hodnôt v štatistickom

súbore s porovnaním s tvarom normálneho rozloženia. Ukazovateľom špicatosti je

tzv. koeficient špicatosti, s označením 𝛾2. Ak sa koeficient špicatosti rovná nule, ide

o normálne rozdelenie. Ak má koeficient špicatosti hodnotu väčšiu ako nula, ide

o špicatejšie rozdelenie v porovnaní s normálnym. Aj koeficient špicatosti menší

ako nula, ide o plochejšie rozdelenie ako je normálne.

Na obr. 40 až obr. 43 sú zobrazené symetrické rozdelenia s rovnakým

aritmetickým priemerom a rozptylom, líšiace sa špicatosťou.

55

obr. 40 Normálne rozloženie

obr. 41 Studentovo rozloženie

56

obr. 42 Trojuholníkové rozdelenie

obr. 43 Rovnomerné rozdelenie

Funkcia na výpočet koeficientu špicatosti v MS Excel – KURT. Syntax

funkcie KURT obsahuje nasledujúce argumenty (obr. 44):

57

Číslo1 – povinný argument, pre ktorý chceme vypočítať špicatosť.

Namiesto argumentov oddelených bodkočiarkami môžeme použiť

jedno pole alebo odkaz na pole.

Číslo2 – voliteľný argument.

obr. 44 Argumenty funkcie KURT

Škatuľový graf

Pomocou škatuľového grafu môžeme zobraziť viacej opisných

charakteristík kvantitatívnej premennej zo štatistického súboru. Tento graf sa

zaraďuje do exploračnej (predbežnej) analýzy údajov. Zobrazuje minimálnu

hodnotu, maximálnu hodnotu, medián a dolný a horný kvartil. V niektorých

prípadoch zobrazuje aj aritmetický priemer. Ďalej sa z neho môžeme dozvedieť

šikmosť rozdelenia a zistiť prítomnosť odľahlých hodnôt.

Škatuľový graf sa skladá z obdĺžnika a z dvoch úsečiek, ktoré vychádzajú

z obdĺžnika. Graf môže byť otočený horizontálne alebo vertikálne. V MS Excel je

jeho zostrojenie náročnejšie ako v predchádzajúcich prípadoch. Najskôr si musíme

58

zistiť vstupné hodnoty, z ktorých následne vypočítame hodnoty pomocné a na ich

základe zostrojíme skladaný stĺpcový graf s miernou úpravou parametrov tak, aby

sme docielili zobrazenie škatuľového grafu (obr. 45).

obr. 45 Škatuľový graf (vertikálne umiestnenie)

Prvý krok na vytvorenie škatuľového grafu je zistenie minima, maxima,

mediánu, prvého kvartilu a tretieho kvartilu zo štatistického súboru a následný

výpočet veľkostí jednotlivých oblastí (obr. 46).

obr. 46 Vstupné údaje a vypočítané veľkosti oblastí

59

Ako prvú hodnotu pri výpočte veľkostí jednotlivých oblastí použijeme

zistenú hodnotu 1. kvartilu (bunka E2). Veľkosť oblasti od 1. kvartilu k hodnote

mediánu vypočítame tak, že od zistenej hodnoty mediánu odrátame hodnotu 1.

kvartilu (bunka E3).

= 𝐵4 − 𝐵3 (12)

Veľkosť oblasti medzi mediánom a 3. kvartilom vypočítame tak, že od

zistenej hodnoty 3. kvartilu odrátame zistenú hodnotu mediánu (bunka E4).

= 𝐵5 − 𝐵4 (13)

Týmto máme určené hranice a rozmery obdĺžnika, zostáva dopočítať

veľkosti úsečiek charakterizujúcich minimum a maximum. Veľkosť úsečky od 1.

kvartilu k hodnote minima vyrátame ako rozdiel zistenej hodnoty 1. kvartilu

a zistenej hodnoty minima.

= 𝐵3 − 𝐵2 (14)

Veľkosť úsečky od 3. kvartilu k hodnote maxima vyrátame ako rozdiel

zistenej hodnoty maxima od zistenej hodnoty 3. kvartilu.

= 𝐵6 − 𝐵5 (15)

Z vypočítaných hodnôt veľkostí oblastí 1. kvartilu, mediánu a 3. kvartilu

(oblasť D2:E4) zostrojíme stĺpcový skladaný graf (obr. 47). Vzniknutý graf zatiaľ

nemusíme formátovať.

60

obr. 47 Skladaný stĺpcový graf – základ pre škatuľový graf

Vzniknutý graf poslúži ako základ pre ďalšiu prácu na tvorbe škatuľového

grafu. Teraz je potrebné doplniť úsečky znázorňujúce hodnoty minima a maxima.

Vo vygenerovanom grafe klikneme na časť 3. kvartilu (zelená oblasť). V menu

„Nástroje pre grafy“ zvolíme „Rozloženie“ a v kategórii „Analýza“ vyberieme

„Chybové úsečky“ (obr. 48).

obr. 48 Chybové úsečky – tvorba úsečiek v škatuľovom grafe

Každú úsečku je potrené vytvoriť samostatne. Zvolíme „Ďalšie možnosti

chybových úsečiek...“. V okne „Formátovať chybové úsečky“ vyberieme „Smer –

Plus“ a „Veľkosť chyby – Vlastné“ (obr. 49). Klikneme na tlačidlo „Zadať

hodnotu“. Otvorí sa okno „Vlastné chybové úsečky“ (obr. 50).

61

obr. 49 Formátovanie chybových úsečiek – voľba pre maximum

obr. 50 Definovanie chybovej úsečky pre maximum

62

„Kladná chybová hodnota“ predstavuje vypočítanú veľkosť oblasti pre

maximum (bunka E6). Hodnotu „Záporná chybová hodnota“ zatiaľ nevypĺňame. Po

stlačení tlačidla „OK“ sa v grafe zobrazí úsečka charakterizujúca maximum (obr.

51).

obr. 51 Pridanie úsečky maximum

Podobným postupom vytvoríme aj úsečku pre minimum. Klikneme do

oblasti zobrazujúcej 1. kvartil (modrá oblasť). Už popísaným postupom sa

dostaneme k dialógovému oknu „Formátovať chybové úsečky“, v ktorom teraz

zvolíme hodnotu „Smer – Mínus“. V okne „Vlastné chybové úsečky“ tentoraz

vyplníme hodnotu „Záporná chybová hodnota“ (obr. 52) a ako obsah vložíme

vypočítanú veľkosť oblasti pre minimum (bunka E5).

63

obr. 52 Definovanie chybovej úsečky pre minimum

Zatvoríme všetky dialógové okná a upravíme graf, ktorý sa už začína

podobať na škatuľový (obr. 53).

obr. 53 Škatuľový graf pred formátovaním

Je zrejmé, že oblasť 1. kvartilu (modrá oblasť) v škatuľovom grafe nemá čo

robiť. Odstránime ju dodatočným formátovaním. Klikneme na ňu a v menu

„Nástroje pre grafy“ zvolíme „Formát“. V kategórii „Štýly tvarov“ vyberieme

možnosť „Výplň tvaru“. Z ponúknutých možností vyberieme „Bez výplne“ (obr.

54).

64

obr. 54 Formátovanie grafu – Výplň tvaru

Posledným krokom je doformátovanie grafu na požadovanú úroveň, napr.

odstránenie legendy, zmena popisu osi x, atď. (obr. 54).

Škatuľový graf môžeme vytvoriť aj pomocou skladaného pruhového grafu.

Výsledok je zrejmý z obr. 55. Výpovedná hodnota oboch prezentovaných

škatuľových grafov je rovnaká.

65

obr. 55 Škatuľový graf (horizontálne umiestnenie)

Vo vytvorenom škatuľovom grafe nie je zaznačená hodnota aritmetického

priemeru. Ak ju potrebujeme zobraziť, musíme použiť špecializovaný štatistický

softvér a škatuľový graf vygenerovať v ňom. Na obr. 56 je škatuľový graf

vytvorený v štatistickom softvéri Minitab.

obr. 56 Škatuľový graf s vyznačeným aritmetickým priemerom

90

80

70

60

50

40

30

20

10

0

Ve

k

66

Základný štatistický rozbor

Použitím predchádzajúcich poznatkov môžeme na štatistickom súbore

vykonať základný štatistický rozbor, t.j. definovať viaceré základné opisné

charakteristiky (tab. 2).

tab. 2 Charakteristika základných štatistík

Názov Funkcia

Rozsah súboru COUNT

Minimálna hodnota MIN

Maximálna hodnota MAX

Aritmetický priemer AVERAGE

Medián MEDIAN

Smerodajná odchýlka STDEV.S

Úhrn SUM

Iný, jednoduchší a rýchlejší spôsob ako vykonať základný štatistický

rozbor, je použitie nástroja „Data Analysis“, pomocou ktorého sme zostrojovali

histogram. Po spustení vyberieme položku „Descriptive Statistics“ (obr. 57).

Nástroj „Descriptive Statistics“ vygeneruje zostavu štatistického hodnotenia

jednorozmerných údajov vo vstupnom rozsahu a poskytne informácie o hlavnom

trende a premenlivosti údajov.

obr. 57 Okno Data Analysis (Descriptive Statistics)

67

Po otvorení okna „Descriptive Statistics“ (obr. 58) v časti „Input“ do poľa

„Input Range“ zadáme rozsah vstupných údajov, z ktorých sa má štatistický rozbor

urobiť. Vo väčšine prípadov máme údaje zoskupené v stĺpci. V tomto prípade

necháme voľbu „Grouped By“ na prednastavenej hodnote „Columns“. Ak sme

vybrali aj názov stĺpca, zvolíme políčko „Labels in First Row“. V časti „Output

options“ volíme spôsob výstupu štatistického rozboru. Pri ponechaní predvolenej

hodnoty „New Worksheet Ply“ sa štatistický rozbor zobrazí na novom hárku.

Dôležitou súčasťou definovania výstupných parametrov je označenie políčka

„Summary statistics“. Ostatné hodnoty môžeme nechať nezmenené.

obr. 58 Okno Descriptive Statistics

Po potvrdení tlačidla „OK“ sa na novom hárku zobrazí výstup štatistického

rozboru (tab. 3). Číselné hodnoty boli dodatočne naformátované na dve desatinné

miesta.

68

tab. 3 Základný štatistický rozbor

Pre lepšie pochopenie uvedieme preklad jednotlivých riadkov výstupu:

Mean – aritmetický priemer (funkcia AVERAGE)

Standard Error – štandardná chyba (chyba strednej hodnoty)

Median – medián (funkcia MEDIAN)

Mode – modus (funkcia MODE.SNGL)

Standard Deviation – smerodajná odchýlka (funkcia STDEV.S)

Sample Variance – rozptyl (funkcia VAR.S)

Kurtosis – špicatosť (funkcia KURT)

Skewness – šikmosť (funkcia SKEW)

Range – variačné rozpätie

Minimum – minimálna hodnota (funkcia MIN)

Maximum – maximálna hodnota (funkcia MAX)

Sum – úhrn hodnôt (funkcia SUM)

Count – počet hodnôt (funkcia COUNT)

Vstupná oblasť

Mean 41,08

Standard Error 5,47

Median 40,50

Mode 14,00

Standard Deviation 26,79

Sample Variance 717,64

Kurtosis -1,23

Skewness 0,28

Range 83,00

Minimum 2,00

Maximum 85,00

Sum 986,00

Count 24,00

69

Dvojrozmerná deskriptívna štatistika

Pri spracovaní marketingového výskumu by sme sa nemali zaoberať len

jednorozmernou deskriptívnou štatistikou, ale mali by sme využiť aj metódy

dvojrozmernej deskriptívnej štatistiky. V takomto prípade sa budeme zaoberať

vzájomným skúmaním viacerých premenných, ktoré tvoria viacrozmerný štatistický

súbor. Medzi takýmito premennými môžu existovať vzťahy, ktoré môžeme odhaliť

použitím viacrozmerných štatistických metód (zatiaľ sa budeme venovať len

dvojrozmerným metódam). V diplomových prácach študentov chýba práve táto časť

štatistiky. Väčšina z nich sa uspokojí tým, že svoj „výskum“ spracujú pomocou

metód jednorozmernej deskriptívnej štatistiky a na skúmanie závislosti medzi

premennými „pozabudnú“. Pokúsime sa teda naznačiť, ako skúmať vzájomnú

závislosť hodnôt jednej premennej od hodnôt inej premennej. Medzi

najpoužívanejšie metódy skúmania závislosti môžeme zaradiť:

regresiu (regresná analýza),

koreláciu (korelačná analýza),

Častým nástrojom používaným na vyjadrenie závislosti je bodový graf,

ktorý je možné zostrojiť aj pomocou MS Excel.

Bodový graf

Bodový graf (v MS Excel označovaný ako XY graf) sa používa na

zobrazenie závislostí medzi dvomi (najčastejšie) číselnými premennými a možno ho

považovať za východiskový graf určený pre regresnú analýzu.

Na jeho zostrojenie potrebujeme najskôr označiť oblasť obsahujúcu

hodnoty tzv. nezávislej a závislej premennej6. V prvom stĺpci sa nachádza nezávislá

premenná (hodnoty budú na osi x) a v druhom závislá premenná (hodnoty budú na

osi y). Z menu „Vložiť“ v kategórii „Grafy“ vyberte „XY (závislosť)“. Zo

6 Pozri kapitolu Regresná analýza

70

zobrazenej ponuky grafov (obr. 59) zvoľte „XY (závislosť) len so značkami“.

Vygenerovaný bodový graf (obr. 60) môžete ľubovoľne naformátovať a použiť ako

podklad pre regresnú analýzu.

obr. 59 Výber bodového grafu

obr. 60 Bodový graf

71

Regresná analýza

Regresná analýza slúži na skúmanie vzájomných vzťahov medzi dvoma

(alebo viacerými) premennými. V ďalšom sa budeme zaoberať iba vzťahmi medzi

dvoma premennými. Najčastejší typ premennej použitej pri regresnej analýze je

číselná premenná. Regresná analýza je vyjadrená regresným modelom. Regresný

model je matematická funkcia, ktorá vyjadruje vzťah medzi skúmanými

premennými.

V regresnom modeli rozlišujeme tzv. závislú premennú a nezávislú

premennú. Závislá premenná (označujeme ju ako Y) je číselná premenná, ktorej

závislosť zisťujeme. Nezávislá premenná (označujeme ju ako X) je premenná,

ktorá vyvoláva zmeny závislej premennej. Typ regresnej analýzy, ktorá sa zaoberá

vzájomným vzťahom medzi jednou závislou a jednou nezávislou premennou, sa

nazýva jednoduchá regresia alebo párová regresia. Viacrozmerná regresia

(označovaná aj ako mnohonásobná) analyzuje vzťah medzi viacerými nezávislými

premennými a jednej závislej premennej. Obsahom tejto učebnice nebude skúmanie

viacrozmernej regresie, kvôli komplikovanejšej analýze a interpretácii výsledkov.

Voľba nezávislej premennej X je veľmi dôležitá. Do regresného modelu by

sme mali zahrnúť takú nezávislú premennú, ktorá má významný vplyv na závislú

premennú. Nezávislá premenná by mala byť so závislou premennou v tzv.

príčinnej závislosti. Zjednodušene to znamená, že jeden jav (príčina) vyvoláva iný

jav (účinok). Inak povedané, nezávislá premenná by mala byť príčinou zmien

v závislej premennej. Od príčinnej závislosti treba odlíšiť tzv. zdanlivú závislosť.

K tomuto typu dochádza vtedy, ak súvislosť medzi javmi nie je vzťahom príčiny

a účinku, ale je výsledkom pôsobenia ďalšieho javu alebo javov. Aj keď medzi

72

premennými existuje silná korelácia7, neznemená to, že je medzi nimi príčinná

závislosť.

Medzi nezávislou a závislou premennou existujú dva typy vzťahov:

jednostranný vzťah – zmeny nezávislej premennej ovplyvňujú zmeny

závislej premennej, opačne to však neplatí,

obojstranný vzťah – oba typy premennej sa navzájom ovplyvňujú.

Ak je splnená podmienka príčinnej závislosti, môžeme hovoriť o dvoch

typoch závislostí:

funkčná – hodnoty závislej premennej sú určované iba hodnotami

nezávislej premennej,

štatistická – na závislú premennú pôsobí nezávislá premenná, ale aj

náhodné vplyvy.

Funkčná závislosť nie je predmetom štatistického skúmania, pretože pre

konkrétnu hodnotu nezávislej premennej bude mať závislá premenná vždy tú istú

hodnotu. Pri štatistickej závislosti nepôsobí na závislú premennú len nezávislá, ale

aj rôzne náhodné vplyvy. To znamená, že konkrétna kombinácia hodnôt závislej

a nezávislej premennej môže nadobúdať rôzne hodnoty v dôsledku pôsobenia

náhodných vplyvov. Regresnej analýze je potom zmysluplné použiť len na tie

premenné, medzi ktorými je štatistická závislosť. Výsledok regresnej analýzy

môžeme použiť na predikciu správania sa sledovaných premenných.

Pôsobenie nezávislej premennej na závislú môžeme vyjadriť pomocou

bodového grafu, doplneného o regresnú krivku.

7 Pozri kapitolu Korelačná analýza

73

Regresný model

Pomocou regresného modelu môžeme opísať štatistickú závislosť

premenných. Obsahuje regresnú funkciu η a náhodnú zložku ε. Regresnou funkciou

môže byť ľubovoľná matematická funkcia nezávislej premennej. Najjednoduchší

model jednoduchej regresie je tzv. jednoduchý lineárny regresný model. Grafom

tohto modelu je priamka a je vyjadrený rovnicou:

𝑦 = 𝛽0 + 𝛽1𝑥 + 휀 (16)

kde:

y – hodnota závislej premennej,

β0 – lokujúca konštanta,

β1 – regresný koeficient,

x – hodnota nezávislej premennej,

ε – náhodná chyba pozorovania.

Jednoduchý lineárny model môžeme zjednodušene zapísať aj v tvare:

𝑦 = 𝜂 + 휀 (17)

kde:

𝜂 = 𝛽0 + 𝛽1𝑥 (18)

je regresná funkcia reprezentovaná regresnou priamkou.

Regresný koeficient β1 môže nadobúdať kladné alebo záporné hodnoty.

Podľa toho bude určený priebeh štatistickej závislosti. Ak bude koeficient β1

kladný, medzi premennými bude priama lineárna závislosť. Ak bude koeficient β1

záporný, bude sa jednať o nepriamu lineárnu závislosť.

Regresný model (16) je teoretický model, ktorý je odhadnutý zo

štatistického súboru. V bodovom diagrame je možné medzi body zostrojiť priamku,

74

ktorá najlepšie vystihuje závislosť. Táto priamka sa volá vyrovnávajúca regresná

priamka (obr. 61) a je vyjadrená rovnicou:

�̂� = 𝑏0 + 𝑏1𝑥 (19)

kde:

ŷ – teoretická hodnota závislej premennej,

x – hodnota nezávislej premennej,

b0 – bodový odhad parametra β0, tzv. regresná konštanta. Udáva y-ovú súradnicu,

v ktorom priamka pretína os y. Vyjadruje odhadovanú hodnotu závislej premennej,

ak sa nezávislá premenná rovná nule.

b1 – bodový odhad parametra β1, tzv. regresný koeficient. Vyjadruje smernicu

priamky. Udáva o koľko sa jednotiek sa zmení odhad závislej premennej, ak sa

hodnota nezávislej premennej zvýši o jednotku.

obr. 61 Vyrovnávajúca regresná priamka

75

Väčšina štatistických programov nezobrazuje teoretickú hodnotu závislej

premennej ako ŷ, ale ako y. Do existujúceho bodového grafu, ktorý znázorňuje

závislosť medzi premennými, vložíme vyrovnávajúcu regresnú priamku tak, že

v grafe klikneme pravým tlačidlom na ľubovoľný bod a zo zobrazeného

kontextového menu vyberieme „Pridať trendovú spojnicu“ (obr. 62).

obr. 62 Pridanie vyrovnávajúcej regresnej priamky

V zobrazenom dialógovom okne „Formátovať trendovú spojnicu“ necháme

voľbu „Typ trendu alebo regresie“ na pôvodnej hodnote „Lineárny“ a vyberieme

možnosť „Zobraziť v grafe rovnicu“, poprípade „Zobraziť v grafe rovnicu

spoľahlivosti R na druhú“ (obr. 63). Po výbere parametrov klikneme na tlačidlo

„Zatvoriť“. Zobrazenú rovnicu môžeme v grafe presunúť na čitateľnejšie miesto.

76

obr. 63 Formátovanie vyrovnávajúcej regresnej priamky

Vyrovnávajúca regresná priamka (19) je bodovým odhadom regresnej

priamky (18). Z obr. 61 je vidieť, že medzi skutočnými hodnotami závislej

premennej (modré body) a jej vyrovnanými bodmi (ležiace na priamke) je určitý

rozdiel. Tento rozdiel nazývame reziduálna odchýlka (chyba odhadu) a ide

o bodový odhad náhodnej chyby ε. Reziduálna odchýlka môže nadobúdať kladné

77

a záporné hodnoty. Za „nulový bod“ môžeme považovať bod ležiaci na

vyrovnávajúcej regresnej priamke.

Nutnou podmienkou na odhad parametrov lineárneho regresného modelu je,

aby súčet všetkých reziduálnych odchýlok bol rovný nule. Ak by sme sa však držali

len tejto podmienky, mohli by sme parametre odhadnúť nesprávne a tým aj

nesprávne určiť vyrovnávajúcu regresnú priamku. Preto musíme použiť ďalšiu

podmienku, ktorá hovorí o tom, že súčet druhých mocnín všetkých reziduálnych

odchýlok je minimálny (tzv. metóda najmenších štvorcov). Čiže vyrovnávajúca

regresná priamka minimalizuje súčet druhých mocnín reziduálnych podmienok

a žiadna iná priamka, ktorá by mala tento súčet menší neexistuje.

Na zistenie parametrov b0 a b1 sa v MS Excel používajú funkcie

INTERCEPT a SLOPE. Syntax funkcií INTERCEPT (obr. 64) a SLOPE (obr. 65)

obsahuje nasledujúce argumenty:

Známe_y – povinný argument. Pole alebo rozsah buniek s číselnými

závislými údajovými bodmi.

Známe_x – povinný argument. Množina nezávislých údajových bodov.

obr. 64 Argumenty funkcie INTERCEPT

78

obr. 65 Argumenty funkcie SLOPE

Komplexnejšie hodnoty regresnej analýzy poskytuje nástroj „Data

Analysis“, z ktorého vyberieme „Regression“ (obr. 66).

obr. 66 Okno Data Analysis (Regression)

Po otvorení okna „Regression“ (obr. 67) zadáme do poľa „Input Y Range“

rozsah údajov závislej premennej a do poľa „Input X Range“ rozsah nezávislej

premennej. Ak sme označili vo vstupných oblastiach aj názvy stĺpcov, zvolíme

voľbu „Labels“. Ak chceme zadefinovať, že parameter b0 je rovný 0, zvolíme

voľbu „Constant is Zero“. V časti „Output options“ vyberieme spôsob zobrazenia

výsledkov. Na výpočet a zobrazenie grafu reziduálnych odchýlok vyberieme

79

položku „Residuals“, resp. „Residual Plots“. Graf vyrovnávajúcej regresnej

priamky zobrazíme, ak označíme položku „Line Fit Plots“.

obr. 67 Okno Regression

Pre predchádzajúci príklad, kde sme využili bodový graf, bude

vygenerovaný graf vyrovnávajúcej regresnej priamky podobný (jej rovnica bude

samozrejme totožná. Na obr. 68 môžete vidieť, že sa nejedná o priamku, ale o body,

ktoré na nej ležia. Ak by sme ju nechali zobraziť, videli by sme, že naozaj všetky

body ležia priamo na nej.

80

obr. 68 Vyrovnávajúca regresná priamka vygenerovaná nástrojom Regression

Výhodou nástroja Regression je to, že vráti viaceré významné štatistické

hodnoty.

tab. 4 Výstup nástroja Regression

V prvej časti výstupu („Regression Statistics“) nás bude zaujímať koeficient

„Multiple R“, ktorý udáva tzv. Pearsonov výberový koeficient korelácie8. Rovnaký

výsledok vráti funkcia PEARSON. Hodnota koeficientu „R Square“ udáva hodnotu

spoľahlivosti modelu. V našom prípade je to 53,35%. a jedná sa o Pearsonov

8 Pozri kapitolu Korelačná analýza

SUMMARY OUTPUT

Regression Statistics

Multiple R 0,730400344

R Square 0,533484662

Adjusted R Square 0,521207943

Standard Error 7,536949543

Observations 40

ANOVA

df SS MS F Significance F

Regression 1 2468,48688 2468,487 43,45499 8,81122E-08

Residual 38 2158,61312 56,80561

Total 39 4627,1

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0%

Intercept 5,422646491 2,465408361 2,199492 0,033999 0,431688194 10,41360479 0,431688194 10,41360479

Nezávislá premenná 0,252593937 0,038318025 6,59204 8,81E-08 0,175023151 0,330164724 0,175023151 0,330164724

81

výberový koeficient korelácie umocnený na druhú (funkcia RSQ). „Standard error“

udáva chybu strednej hodnoty, čiže smerodajnú odchýlku odhadu závislej

premennej. Rovnakú hodnotu vráti funkcia STEYX.

V druhej časti výstupu („ANOVA“) sa dozvieme, či je model štatisticky

vhodný9. Ak je hodnota „Significance F“ menšia ako 0,05 model je štatisticky

vhodný. V našom prípade je dosiahnutá hodnota 0,0000000881.

Parametre b0 a b1 vyrovnávajúcej regresnej priamky zistíme z ďalšej

tabuľky výstupu, konkrétne zo stĺpca „Coefficients“.

Nevýhodou jednoduchého lineárneho regresného modelu je podstata,

z ktorej vychádza a to metóda najmenších štvorcov. Táto metóda je citlivá na

extrémne hodnoty. Tieto hodnoty zmenia priebeh vyrovnávajúcej regresnej

priamky, čiže zmenia parametre b0 a b1. Z toho dôvodu je nutné štatistický súbor

najskôr zobraziť pomocou bodového grafu a na základe skúseností alebo rozličných

zákonitostí (závisí od prípadu k prípadu) rozhodnúť, ktoré hodnoty sú extrémne

alebo nereálne. Tieto hodnoty môžeme potom zo štatistického súboru odstrániť

a následne počítať koeficienty.

Dôležitosť tohto tvrdenia zobrazuje porovnanie na obr. 69. Do štatistického

súboru sme pridali 2 extrémne hodnoty. So zmenou rovnice vyrovnávajúcej

regresnej priamky sa znížil aj koeficient R2, čiže zmenšila sa spoľahlivosť modelu.

9 Pozri kapitolu Štatistická významnosť

82

obr. 69 Odchýlka v regresnom modeli pri extrémnych hodnotách

Pomocou regresnej analýzy môžeme zistiť, ako najlepšie odhadnúť hodnotu

závislej premennej podľa hodnoty nezávislej premennej. Nemožno podľa nej ale

zistiť, ako dobre možno odhadnúť závislú premennú pomocou nezávislej

premennej. Tejto problematike sa venuje tzv. korelačná analýza.

Korelačná analýza

Korelačná analýza je vo veľmi úzkom vzťahu s regresnou analýzou.

Používa štatistické metódy na posúdenie tesnosti (sily) štatistickej závislosti medzi

kvantitatívnymi premennými. Na meranie tesnosti závislosti sa používajú tzv.

korelačné charakteristiky, ktoré majú nasledovné vlastnosti:

nadobúdajú hodnotu z intervalu <-1; 1> alebo <0; 1>,

ak sa zvyšuje závislosť, zvyšuje sa ich absolútna hodnota,

sú nezávislé od jednotiek, v ktorých sú premenné merané.

Podobne ako pri regresnej analýze, aj pri ďalšom vysvetľovaní korelačnej

analýzy sa budeme zaoberať iba lineárnou korelačnou závislosťou medzi dvoma

premennými. Treba si však uvedomiť, že pri korelačnej analýze neexistuje závislá

a nezávislá premenná.

Jednoduchá lineárna korelácia

Najpoužívanejším ukazovateľom tesnosti lineárnej závislosti je tzv.

jednoduchý koeficient korelácie (tzv. Pearsonov koeficient korelácie – ρ), ktorého

83

bodový odhad je výberový jednoduchý koeficient korelácie (tzv. Pearsonov

výberový koeficient korelácie – R). Môže nadobúdať hodnoty z intervalu <-1, 1> .

Ak je hodnota R=0, potom hovoríme, že premenné nie sú lineárne závislé. Ak je

R>0, hovoríme, že medzi premennými je priamy lineárny vzťah. V prípade R<0,

ide o nepriamy lineárny vzťah. Čím je absolútna hodnota koeficientu R bližšia k 1,

tým je závislosť tesnejšia. V prípade ak sa absolútna hodnota |R|=1 hovoríme

o úplnej korelácii a premenné sú vo funkčnej závislosti10

. Pri nulovej hodnote

koeficientu R nemá význam odhadovať regresnú priamku (obr. 70). Neznamená to

však, že medzi premennými nie je závislosť. Závislosť nemusí byť vždy lineárna,

ale môže sa jednať o iný typ závislosti.

obr. 70 Rozličné hodnoty koeficienta R

Ďalším ukazovateľom je tzv. jednoduchý koeficient determinácie – ρ2.

Jeho bodový odhad je tzv. výberový jednoduchý koeficient determinácie – R2.

Charakterizuje tesnosť lineárnej závislosti premenných. Môže nadobúdať hodnoty

z intervalu <0; 1> a jeho sto násobok určuje koľko percent celkovej variability

závislej premennej je vysvetlených lineárnou regresnou funkciou s nezávislou

premennou. Použitie koeficienta už bolo popísané pri využití nástroja „Corellation“.

10 Nie je predmetom skúmania regresnej analýzy

84

Pre praktické potreby marketingového výskumu sa budeme venovať iba

výberovým jednoduchým koeficientom korelácie R a výberovým jednoduchým

koeficientom determinácie R2. Ak sa niekde stretnete s pojmom „Pearsonov

koeficient korelácie“, tak vo väčšine prípadov sa má na mysli práve výberový

jednoduchý koeficient korelácie. Podobne to platí aj s koeficientom determinácie.

Funkcia na výpočet Pearsonovho výberového koeficientu korelácie v MS

Excel – PEARSON. Syntax funkcie PEARSON obsahuje nasledujúce argumenty

(obr. 71):

Pole1 – povinný argument. Množina nezávislých hodnôt.

Pole2 – povinný argument. Množina závislých hodnôt.

Hodnoty argumentov je možné medzi sebou zameniť, výsledok bude

rovnaký.

obr. 71 Argumenty funkcie PEARSON

Rovnaký výsledok ako funkcia PEARSON vráti aj funkcia CORREL. Jej

argumenty sú zhodné s funkciou PEARSON. Rozdiel je iba v metóde výpočtu

Pearsonovho výberového koeficientu korelácie.

85

Funkcia na výpočet výberového koeficientu determinácie R2 v MS Excel –

RSQ. Syntax funkcie RSQ obsahuje nasledujúce argumenty (obr. 72):

Známe_y – povinný argument. Pole alebo rozsah údajových bodov.

Známe_x – povinný argument. Pole alebo rozsah údajových bodov.

obr. 72 Argumenty funkcie RSQ

Niekedy si študenti pletú význam koeficienta R a regresného koeficienta b1.

Pearsonov výberový koeficient korelácie R neinformuje o sklone regresnej

priamky. Rovnaká hodnota koeficientu R môže byť spoločná pre regresné priamky

s rôznym sklonom (obr. 72). Platí to aj opačne. Rôzne hodnoty koeficienta R môžu

byť prislúchať regresným priamkam s rovnakým sklonom.

86

obr. 73 Rozličné závislosti s koeficientom R=0,7

Hodnotu Pearsonovho výberového korelačného koeficientu (aj pre viacero

premenných – viacrozmerná deskriptívna štatistika) môžeme zapísať do tzv.

korelačnej matice. Korelačnú maticu vytvoríme pomocou nástroja „Correlation“,

ktorý je súčasťou „Data Analysis“ (obr. 73).

obr. 74 Okno Data Analysis (Correlation)

87

Po otvorení okna „Correlation“ zadáme do poľa „Input Range“ oblasť

skúmaných premenných. Zadefinujeme, či sú údaje zoskupené v stĺpcoch

(„Columns“) alebo v riadkoch („Rows“). Ak sme vybrali aj názvy stĺpcov (alebo

riadkov) zaznačíme možnosť „Labels in First Row“. S popisom časti „Output

options“ sme sa už stretli.

obr. 75 Okno Correlation

V našom prípade, keď sme zisťovali koreláciu medzi dvoma premennými,

bude korelačná matica vyzerať nasledovne:

tab. 5 Výstup nástroja Correlation – regresná matica

Názvy premenných nie sú v tomto prípade dôležité.

Kontingenčná tabuľka

Kontingenčná tabuľka je interaktívna zostava krížových tabuliek, ktorá

sumarizuje a analyzuje údaje z rôznych zdrojov, vrátane externých zdrojov.

Zmenou riadkov alebo stĺpcov môžeme zobraziť rôzne súhrny údajov štatistického

Nezávislá premenná Závislá premenná

Nezávislá premenná 1

Závislá premenná 0,730400344 1

88

súboru. Tieto údaje môžeme ďalej filtrovať alebo ich zobraziť podrobne. Príklad

jednoduchej kontingenčnej tabuľky demonštruje tab. 6.

tab. 6 Kontingenčná tabuľka

Kontingenčná tabuľka poskytuje interaktívny spôsob rýchleho vytvorenia

súhrnu veľkého množstva údajov. Kontingenčná tabuľka sa používa na podrobnú

analýzu číselných údajov a na získanie odpovedí na ťažko predvídateľné otázky

súvisiace s týmito údajmi. Kontingenčná tabuľka je určená na:

zadávanie dotazov na veľké množstvo údajov rôznymi spôsobmi,

výpočet medzisúčtov a zhromažďovanie číselných údajov, vytváranie

súhrnov údajov podľa kategórií a podkategórií a vytváranie vlastných

výpočtov a vzorcov,

rozbalenie alebo zbalenie jednotlivých úrovní údajov s cieľom zamerať sa

na určitý aspekt výsledkov a zobrazenie podrobností súvisiacich so

súhrnnými údajmi,

premiestňovanie riadkov do stĺpcov alebo stĺpcov do riadkov (tzv.

kontingencia) na zobrazenie rôznych súhrnov zdrojových údajov,

filtrovanie, zoraďovanie, zoskupovanie a podmienené formátovanie

podmnožiny údajov za účelom zamerania pozornosti na požadované

informácie,

prezentáciu zostáv.

Súčet z Cena Mesiac

Tovar január február marec apríl máj Celkový súčet

Produkt 1 250 156 406

Produkt 2 147 250 125 154 676

Produkt 3 325 158 148 631

Celkový súčet 575 305 250 273 310 1713

89

Zostava kontingenčnej tabuľky sa často používa vtedy, keď chceme

analyzovať súvisiace súčty, najmä v prípade, ak máme k dispozícii dlhý zoznam

sčítavaných hodnôt a súhrnné údaje alebo medzisúčty ktoré poskytnú pohľad na

údaje z rôznych perspektív a umožnia porovnávať údaje podobných kategórií. Z

kontingenčnej tabuľky (tab. 6) môžeme jednoducho zistiť, aký je stav celkového

predaja konkrétneho produktu za určitý mesiac v porovnaní s predajom iného

produktu alebo predaja za iný mesiac. Z kontingenčnej tabuľky môžeme tiež

vyčítať celkový predaj jednotlivých produktov.

V kontingenčnej tabuľke sa každý stĺpec alebo pole zdrojových údajov

stáva poľom kontingenčnej tabuľky, ktoré je súhrnom viacerých riadkov informácií.

V predchádzajúcom príklade sa stĺpec „Tovar“ stane poľom „Tovar“ a každý

záznam pre kategóriu „Produkt 1“ sa zhrnie do jedinej položky. Pole „Súčet z cena“

obsahuje hodnoty určené na vytvorenie súhrnu. V predchádzajúcej zostave súhrn

„január“ a „Produkt 1“ obsahuje súčet hodnôt predaja z každého riadka v

zdrojových údajoch, pričom stĺpec „Tovar“ obsahuje „Produkt 1“ a stĺpec „Mesiac“

obsahuje „január“.

Na vytvorenie kontingenčnej tabuľky musíme na karte „Vložiť“ v skupine

„Tabuľky“ vybrať položku „Kontingenčná tabuľka“ (obr. 76). Následne musíme

definovať jej zdrojové údaje, zadať umiestnenie (obr. 77) a vytvoriť rozloženie polí

(obr. 78).

obr. 76 Výber kontingenčnej tabuľky

90

obr. 77 Vstupné údaje kontingenčnej tabuľky

V časti „Vyberte údaje, ktoré chcete analyzovať“ zvolíme položku „Vyberte

tabuľku alebo rozsah“ a potom do poľa „Tabuľka alebo rozsah“ zadáme rozsah

buniek, ktoré chceme použiť na vytvorenie kontingenčnej tabuľky. V časti „Vyberte

umiestnenie, kam chcete vložiť zostavu kontingenčnej tabuľky“ zadáme spôsob jej

umiestnenia. Po potvrdení volieb MS Excel pridá prázdnu kontingenčnú tabuľku do

zadaného umiestnenia a zobrazí zoznam polí kontingenčnej tabuľky. V tomto

zozname môžeme pridávať polia, vytvoriť rozloženie a prispôsobovať kontingenčnú

tabuľku (obr. 78).

Pre pridanie poľa do kontingenčnej tabuľky musíme vykonať niektoré

z nasledujúcich krokov:

pre umiestnenie poľa do predvolenej oblasti sekcie rozloženia, je potrebné

zaškrtnúť políčko vedľa názvu poľa v sekcii polí (podľa predvoleného

nastavenia sa polia, ktoré nie sú číselné, pridajú do oblasti menoviek riadka,

číselné polia sa pridajú do oblasti hodnôt a hierarchie dátumu a času sa

pridajú do oblasti menoviek stĺpca),

91

pre umiestnenie poľa do určitej oblasti sekcie rozloženia, klikneme pravým

tlačidlom myši kliknite na názov poľa v sekcii polí a potom vyberieme

príkaz „Pridať do filtra zostavy“, „Pridať do menoviek stĺpca“, „Pridať do

menoviek riadka“ alebo „Pridať do hodnôt“,

pre umiestnenie poľa do želanej oblasti, klikneme a podržíme tlačidlo myši

na názve poľa v sekcii polí a potom ho presunieme do oblasti v sekcii

rozloženia.

obr. 78 Definovanie polí kontingenčnej tabuľky (sekcia polí a sekcia rozloženia)

Kontingenčný graf

Kontingenčný grafu predstavuje grafické zobrazenie údajov z

kontingenčnej tabuľky, ktorá sa v tomto prípade označuje ako priradená

kontingenčná tabuľka a vytvára sa automaticky počas vytvárania kontingenčného

grafu. Kontingenčný graf je interaktívna forma grafu, čo znamená, že ho možno

92

zoradiť a filtrovať s cieľom zobraziť podmnožiny údajov kontingenčnej tabuľky.

Pri vytváraní kontingenčného grafu sa filtre zobrazia v oblasti grafu. Zmeny

vykonané v rozložení polí a v údajoch priradenej kontingenčnej tabuľky sa

okamžite premietnu do kontingenčného grafu (obr. 80).

Postup tvorby kontingenčného grafu je rovnaký ako tvorba kontingenčnej

tabuľky. Rozdiel spočíva v tom, že nevyberieme priamo na položku „kontingenčná

tabuľka“ ale klikneme na šípku, aby sa zobrazila ponuka na tvorbu kontingenčného

grafu (obr. 79).

obr. 79 Voľba „Kontingenčný graf“

Po zvolení položky „Kontingenčný graf“ pokračujeme spôsobom

popísaným v predchádzajúcej kapitole.

obr. 80 Kontingenčný graf

93

Kontingenčný graf na obr. 80 je vytvorený z tých istých údajov ako

kontingenčná tabuľka (tab. 6). Vzhľad kontingenčného grafu môžeme upraviť

podobne ako vzhľad stĺpcového grafu.

Otázky

1. Aké prostriedky môžeme použiť na opis jednej premennej?

2. O čom pojednáva zásada jednoznačnosti a úplnosti?

3. Z akého dôvodu sa vytvárajú kategórie?

4. Čo zobrazuje frekvenčná tabuľka?

5. Aký graf môžeme použiť na relatívne rozloženie početnosti hodnôt?

6. Aký graf môžeme použiť na absolútne rozloženie početnosti hodnôt?

7. Aký graf sa používa na zobrazenie časových radov?

8. Aký je rozdiel medzi histogramom a stĺpcovým grafom?

9. Vymenujte a definujte opisné charakteristiky.

10. Aké typy opisných charakteristík zobrazuje škatuľový graf?

11. Aké prostriedky môžeme použiť na opis dvoch premenných?

12. Aké grafické vyjadrenie sa používa pri regresnej analýze?

13. Čo charakterizuje Pearsonov výberový koeficient?

14. Ako ovplyvňujú odľahlé hodnoty výsledky regresnej analýzy?

15. Ako sa nazýva priamka zobrazujúca závislosť dvoch premenných?

16. Na čo sa používa kontingenčná tabuľka?

94

Induktívna štatistika a jej základné metódy použiteľné v

marketingu

Aj napriek tomu, že táto učebnica je primárne určená pre zoznámenie sa

s deskriptívnymi štatistickými metódami, bolo by vhodné vysvetliť pojem

induktívna štatistika a predstaviť jej základné metódy.

Pomocou deskriptívnej štatistiky sme mohli opísať existujúci štatistický

súbor (počet, priemer, medián...). Čo sme však nedokázali urobiť bolo to, že na

základe zozbieraných dát sme nemohli stanoviť závery týkajúce sa celej populácie.

Ak aj existujú štúdie, ktoré sa pri stanovení záverov opierajú len o deskriptívnu

štatistiku a tvrdia, že výsledky je možné interpretovať na celú populáciu, nie sú

správne. Bez použitia induktívnej štatistiky nemôžeme naše výsledky zovšeobecniť

na celú populáciu.

Úlohou induktívnej štatistiky je teda na základe informácií, ktoré sme

zozbierali z náhodnej vzorky, urobiť závery o celej populácie (celom štatistickom

súbore, z ktorého bola vzorka vybraná). Na to, aby boli tieto závery relevantné,

musíme na výber vzorky použiť už spomínaný náhodný výber.

Pri induktívnej štatistike sa veľmi často stretávame s pojmom testovanie

hypotéz, štatistická významnosť resp. signifikancia alebo p-hodnota.

Testovanie hypotéz

O štatistickom súbore môžeme mať určité predpoklady, ktoré je možné

overiť tzv. testovaním hypotéz. Každé testovanie hypotéz je zamerané na overenie

základnej hypotézy, tzv. nulovej hypotézy H0. Oproti tejto hypotézy sa stanovuje

tzv. alternatívna hypotéza H1. Cieľom testovania hypotéz je rozhodnutie o prijatí

alebo zamietnutí nulovej hypotézy. Ak na základe testovania hypotéz zamietame

nulovú hypotézu, prijímame hypotézu alternatívnu.

95

Nulová hypotéza vyjadruje určitý predpoklad a musí byť stanovená vopred

bez prihliadnutia k dátovému súboru. Alternatívna hypotéza hovorí, čo platí, keď

neplatí nulová hypotéza. Vo všeobecnosti môžeme tvrdiť, že nulová hypotéza sa

stanovuje ako H0:nie je rozdiel a alternatívna ako H1:je rozdiel.

Pri testovaní hypotéz rozlišujeme dva typy testov:

parametrické,

neparametrické.

Pri použití parametrických testov predpokladáme, že náhodný výber pochádza z

určitého typu rozdelenia (najčastejšie normálneho), ktoré závisí na parametroch.

Neparametrické testy nevyžadujú predpoklad o určitom type rozdelenia, ale

stačí im splnenie len všeobecných podmienok.

Základný postup pri testovaní hypotéz

Pri testovaní hypotéz by sme mali začať najskôr tým, že máme nejaký

predpoklad alebo tvrdenie. Tento výrok chceme následne overiť pomocou dát, ktoré

sme zozbierali do dátového súboru. Otázky, ktorými sa môžeme zaoberať by mohli

vyzerať nasledovne:

Je priemerná mzda mužov vyššia ako žien?

Majú študenti, ktorí žijú v určitej oblasti Slovenska väčšie vreckové ako

študenti v iných oblastiach?

Je priemerná mzda mužov 1000€?

atď.

Na to, aby sme mohli dokázať platnosť nášho tvrdenia, potrebujeme nejaký

prostriedok, ktorý rozhodne o tom, či náš výrok platí alebo nie a „dôkazný

materiál“, na základe ktorého sa rozhodneme. Ako prostriedok na rozhodovanie

použijeme štatistický test a „dôkazný materiál“ budú použité dáta.

96

Pri testovaní nulovej hypotézy voči alternatívnej hypotéze sa však môžeme

dopustiť dvoch chýb:

chyba 1. druhu – H0 zamietame, aj keď v skutočnosti platí,

chyba 2. druhu – H0 nezamietame, aj keď v skutočnosti neplatí.

tab. 7 Chyby testovania hypotéz

SKUTOČNOSŤ

ROZHODNUTIE

H0 nezamietame H0 zamietame

H0 platí správne rozhodnutie chyba 1. druhu

H0 neplatí chyba 2. druhu správne rozhodnutie

Pravdepodobnosť chyby 1. druhu sa označuje ako α a nazýva sa

hladina významnosti testu. Pravdepodobnosť chyby 2. druhu sa ako označuje β.

Číslo 1-β sa nazýva sila testu. Toto číslo vyjadruje pravdepodobnosť, s

akou test vypovie, že H0 neplatí.

Štatistická významnosť

Štatistická významnosť alebo signifikancia spadá do oblasti testovania

hypotéz. Pre lepšie pochopenie uvedieme jednoduchý príklad. V marketingovom

výskume sme zisťovali hypotézu, či je priemerná mzda všetkých respondentov

napr. 800 €. V tomto prípade nestačí len vypočítať aritmetický priemer, ale musíme

zistiť, či je vypočítaná hodnota aj štatisticky významná alebo sa jedná o náhodu.

Práve na to slúži vypočítaná signifikancia, ktorá nás informuje o tom, či prijímame

nulovú hypotézu H0 alebo alternatívnu hypotézu H1. Samotné testovanie hypotéz je

založené na testovacej štatistike (číslo), ktorá je vypočítaná z dát. Podľa tejto

štatistiky sa rozhodujeme, či test vyšiel štatisticky významne alebo nie. Pri každom

97

teste je potrebné zvoliť už spomínanú chybu prvého druhu – α. Z tejto hodnoty sa

stanoví tzv. interval spoľahlivosti. Ak je α=0,05, interval spoľahlivosti je 95%.

Z vypočítanej štatistiky porovnávame, či leží alebo neleží v tomto intervale.

Pre bežné testovanie hypotéz v marketingovom výskume stačí signifikanciu

porovnať s hodnotou 0,05, čo je najbežnejšia hladina testu. Ak je signifikancia

menšia ako táto hodnota, interval testovanú štatistiku nepokrýva a nulovú hypotézu

zamietame. Pokiaľ by bola signifikancia väčšia ako 0,05, potom nulovú hypotézu

nezamietame.

V prípade, že nám stačí iba rozhodnutie, či testovanie hypotéz vyšlo

štatisticky významne, potom signifikancia je jediný ukazovateľ, ktorý potrebujeme.

Výhoda spočíva v tom, že je jedno akú hladinu α si zvolíme. Signifikancia

poskytuje informáciu pre všetky hladiny α. Pokiaľ je signifikancia menšia než

zvolená hladina testu α, tak zamietame nulovú hypotézu, pokiaľ nie, tak nulovú

hypotézu nezamietame.

Dôležité je však vedieť, čo testujeme, resp. čo má daný test potvrdiť alebo

vyvrátiť, t.j. ako znie nulová hypotéza. Pri testovaní normality dát (test normálneho

rozloženia) je nulová hypotéza stanovená tak, že rozdelenie je normálne. Pokiaľ

hypotézu zamietame, znamená to, že dáta normálne rozloženie nemajú.

Často používané testy hypotéz v marketingovom výskume

V marketingovom výskume sa stretávame s rôznymi typmi premenných. Na

rozdiel od výskumov napr. medicínskych, kde prevažujú premenné kvantitatívne

(číselné), v marketingovom výskume sú dominantnejšie premenné kvalitatívne

(slovné).

V marketingovom výskume môžeme použiť testovanie hypotéz v nasledovných

vzorových prípadoch:

testovanie hypotézy o priemere kvantitatívnej premennej (t-test),

98

zistenie, či sú preferencie odpovedí respondentov rovnaké u mužov a žien

(chí-kvadrát test).

Pre testovanie hypotéz je možné použiť a softvér MS EXCEL, ale v tomto

prípade odporúčame siahnuť po profesionálnom štatistickom softvéri.

Otázky

1. Čo je úlohou induktívnej štatistiky?

2. Na čo sa používa testovanie hypotéz?

3. Ako sa nazýva základná hypotéza, ktorú stanovujeme pri testovaní

hypotéz?

4. Voči akej hypotéze stanovujeme základnú hypotézu?

5. Aké základné typy testov hypotéz poznáte?

6. Aký účel má štatistická významnosť (signifikancia)?

7. Je hodnota štatistickej významnosti (signifikancie) závislá od stanovenej

hladiny testu α?

8. Čo je sila testu?

9. Akých chýb sa môžeme dopustiť pri testovaní hypotéz?

10. Aké najčastejšie testy môžeme použiť pri vyhodnocovaní marketingového

výskumu?

99

Určenie veľkosti výberovej vzorky

Výber a určenie veľkosti výberovej vzorky možno považovať za základ

ľubovoľného výskumu. Prvým krokom je rozhodnutie o tom, aký typ

respondentov bude zapojený do výskumu (tzv. cieľová populácia). V prípade

vykonávania výskumu zaoberajúceho sa napr. postom zamestnancov k určitému

problému, cieľovú populáciu nie je ťažké stanoviť. Problém môže nastať v napr.

v prípade snahy o zistenie úspešnosti určitého produktu. V takomto prípade je

určenie cieľovej populácie ťažšie. Správne určenie cieľovej populácie pre

marketingový výskum je veľmi dôležitým bodom. V prípade, že do výskumu

zahrniete nesprávnu cieľovú populáciu, získané výsledky môžu byť skreslené alebo

nesprávne.

Ďalší krok v poradí, je rozhodnutie o tom, aká veľká má byť cieľová

populácia, čiže určenie počtu respondentov, ktorí budú odpovedať na otázky. Malá

reprezentatívna vzorka bude odzrkadľovať názory a postoje skupiny, z ktorej bola

odobratá. Väčšia vzorka už presnejšie reprezentuje cieľovú skupinu. Aj napriek

tomu však miera zlepšenia presnosti pri zvyšovaní veľkosti vzorky klesá. Napríklad

zvýšenie počtu vzorky z 250 na 1000 presnosť zdvojnásobí. Pri voľbe veľkosti

vzorky sa musíme rozhodnúť na základe viacerých faktorov. Medzi najdôležitejšie

patrí:

čas, ktorý máme k dispozícii na realizáciu marketingového výskumu,

rozpočet,

nevyhnutná úroveň spoľahlivosti (štatistické hľadisko).

Rozpočet niekedy potiera všetky ostatné faktory. Vo viacerých prípadoch,

kedy sa študenti snažia vo svojich záverečných prácach robiť marketingový

„výskum“, neberú do úvahy prvé dva faktory. Bez rozmýšľania a pochopenia

100

dosadia do vzorca na výpočet veľkosti výberovej vzorky11

štandardné údaje

a zistené číslo považujú za smerodajné. Omnoho väčší význam by malo, ak by na

problém veľkosti vzorky pozreli opačným smerom a zistili by, s akým intervalom

spoľahlivosti12

prezentujú svoje výsledky. Tento pohľad má význam aj

z praktického hľadiska, kedy sa veľkosť vzorky stanovuje na základe dostupných

finančných prostriedkov vyčlenených na výskum.

Terminológia pri určovaní veľkosti výberovej vzorky

Existujú tri faktory, ktoré určujú veľkosť intervalu spoľahlivosti pre danú

hladinu spoľahlivosti. Jedná sa o:

veľkosť vzorky,

percento vzorky, ktoré si vybralo konkrétne odpovede,

veľkosť populácie.

Veľkosť vzorky

Čím väčšia je vzorka, tým si môžeme byť istejší v tom, že odpovede budú

skutočne odrážať stanovisko celej populácie. Pre zvolenú hladinu spoľahlivosti to

znamená, že čím bude veľkosť vzorky väčšia, tým menší bude interval

spoľahlivosti. Tento vzťah však nie je lineárny (t.j. zdvojnásobenie veľkosti vzorky

nezmenší interval spoľahlivosti o polovicu).

Percento vzorky, ktoré si vybralo konkrétne odpovede (podiel znaku)

Presnosť tiež závisí na percente vzorky, ktorá si zvolila konkrétnu odpoveď.

Ak 99% vzorky odpovedalo „Áno“ a iba 1% odpovedalo „Nie“, pravdepodobnosť

chybného rozhodnutia je malá bez ohľadu veľkosť vzorky. Ak sú však odpovede

11 Pozri kapitolu Výpočet veľkosti výberovej vzorky

12 Pozri kapitolu Terminológia pri určovaní veľkosti výberovej vzorky

101

rozdelené napr. v pomere 51% a 49%, pravdepodobnosť chybného rozhodnutia je

oveľa väčšia.

Pri stanovení veľkosti vzorky potrebnej pre danú úroveň presnosti musíme

použiť percento najhoršieho prípadu, aký môže nastať (50%). Túto hodnotu

použijeme aj vtedy, ak chceme určiť všeobecnú úroveň presnosti pre vzorku, ktorú

už máme k dispozícii (nepoznáme hodnoty pre zistenie podielu znaku).

Veľkosť populácie

Veľkosť populácie môže byť chápaná ako napr. počet obyvateľov mesta

ktoré skúmame, počet ľudí ktorí si kupujú nové auto, atď. Vo väčšine prípadov ale

nemusíme poznať presnú veľkosť populácie. Matematická pravdepodobnosť

dokazuje, že veľkosť populácie je irelevantná, pokiaľ nie je veľkosť vzorky väčšia

ako niekoľko percent z celkového počtu štatistických jednotiek, ktoré skúmame. To

znamená, že vzorka 500 respondentov je rovnako užitočná pri skúmaní názorov

v populácii 15000000 štatistických jednotiek ako aj v populácii 100000

štatistických jednotiek. Z tohto dôvodu sa veľkosť populácie ignoruje, ak je veľmi

veľká alebo neznáma. Veľkosť populácie môže vystupovať ako faktor pri výskume

relatívne malej a známej skupiny štatistických jednotiek (napr. členovia združenia).

Pri výpočte intervalu spoľahlivosti predpokladáme, že výber vzorky bol

náhodný. Ak výber vzorky nie je náhodný, interval spoľahlivosti môže byť

nepresný. Nenáhodný výber vzorky v sebe nesie určitú chybu vyplývajúcu z výberu

vzorky. Príkladom takejto chyby môže byť to, že napr. pri telefonickom dopytovaní

počas pracovnej doby sa nemusíte dovolať potenciálnemu respondentovi.

Nemôžeme teda skonštatovať, že nepracujúca populácia reprezentuje celú

(pracujúcu a nepracujúcu) populáciu.

102

Interval spoľahlivosti

Interval spoľahlivosti je číslo (plus-mínus) ktoré môže byť deklarované

napr. ako výsledok výskumu verejnej mienky. Ak používame interval spoľahlivosti

5% (0,05) a vieme, že 44% respondentov odpovedalo na otázku „áno“, potom

môžeme tvrdiť, že pri položení tej istej otázky celej populácii si odpoveď „áno“

vyberie medzi 39% (44-5) a 49% (44+5) respondentov celej populácie.

Úroveň spoľahlivosti

Úroveň spoľahlivosti nám hovorí o tom, ako istí si môžeme byť tvrdeniami

alebo výrokmi. Je vyjadrená v percentách a predstavuje koľko respondentov by si

vybralo odpoveď ležiacu v intervale spoľahlivosti. 95% úroveň spoľahlivosti

znamená, že si môžeme byť istí na 95%, 99% hladina spoľahlivosti zase

znamená, že si môžeme byť istí na 99%. Vo väčšine prípadov výskumných

štúdií sa používa 95% hladina spoľahlivosti.

Interval spoľahlivosti a hladinu spoľahlivosti môžeme použiť aj

spoločne. Potom môžeme tvrdiť, že sme si na 95% istí tým, že pri položení tej

istej otázky celej populácii si odpoveď „áno“ vyberie medzi 39% a 49%

respondentov celej populácie.

Výpočet veľkosti výberovej vzorky

Na výpočet veľkosti výberovej vzorky slúži jednoduchý vzťah. Je však

veľmi dôležité správne pochopenie jednotlivých parametrov, ktoré do vzťahu

vstupujú.

𝑛 =𝑍2∗𝑝∗(1−𝑝)

𝐶2 (20)

kde:

n – veľkosť výberovej vzorky

103

Z – Z hodnota, dosadzujúca sa zo štatistických tabuliek. Pre úroveň spoľahlivosti

95% je Z hodnota rovná 1,96, pre 99% úroveň spoľahlivosti sa rovná 2,58.

p – podiel znaku, pri neznámych hodnotách je p=0,5

c – prípustné rozpätie chýb, v bežnom marketingovom výskume sa stanovuje od 2%

do 10%.

Podiel znaku charakterizuje šikmosť rozdelenia populácie. V prípade, že

nedisponujeme touto informáciou, dosadená hodnota 0,5 nám vráti najväčšiu

veľkosť vzorky.

Napr. pre úroveň spoľahlivosti 95%, prípustné rozpätie chýb 5% a podiel

znaku 0,5 je minimálna veľkosť vzorky 384 respondentov. Tento vzorec však

môžeme použiť len vtedy, ak nepoznáme veľkosť celej populácie. Pri bližšom

skúmaní jeho parametrov zistíme, že veľkosť populácie nie je zohľadnená.

V prípade, že veľkosť populácie poznáme, môžeme prísť k záveru, že

predchádzajúci vzťah nám vráti toľko respondentov, koľko neobsahuje celá

populácia (napr. zamestnanci malého podniku). V takom prípade musíme zohľadniť

veľkosť populácie a vypočítať korekciu pre celkovú populáciu.

𝑛𝑘𝑜𝑟 =𝑛

1+𝑛−1

𝑝𝑜𝑝

(21)

kde:

n – veľkosť výberovej vzorky bez zohľadnenia veľkosti populácie

pop – veľkosť populácie

Napr. pri známej veľkosti populácie 100 nám k realizácii marketingového

výskumu postačuje 80 respondentov (v závislosti od parametrov, ktoré sme použili

v predchádzajúcom vzťahu na výpočet veľkosti vzorky).

104

Otázky

1. Aké faktory vplývajú na veľkosť výberovej vzorky?

2. K akému účelu sa používa zistenie o veľkosti výberovej vzorky?

3. Aký je rozdiel medzi populáciou a výberovou vzorkou?

4. Čo charakterizuje podiel znaku vo vzorci na výpočet veľkosti výberovej vzorky?

5. Kedy musíme využiť vzorec pre korekciu pre celkovú populáciu?

105

Dolovanie dát – vytváranie pokročilých analýz

V súvislosti s vytváraním rozličných predikcií v marketingu je potrebné

aspoň spomenúť oblasť, ktorá významne prispieva k získaniu plnohodnotnejších

výsledkov.

Dolovanie dát je proces analýzy dát z rôznych perspektív a ich premena na

užitočné informácie. Z matematického a štatistického hľadiska ide o hľadanie

korelácií, teda vzájomných vzťahov alebo vzoriek v dátach.

Modely dolovania dát využívajú niektoré štatistické metódy, hlavne

koreláciu, lineárnu a logistickou regresiu, diskriminačnú analýzu a metódy

predpovedania. Zložitejšie postupy sú realizované pomocou neurónových sietí

alebo genetických algoritmov.

Marketingový sektor poskytuje veľké možnosti nasadenia rozličných metód

a algoritmov dolovania dát. Jednou z nich je použitie asociačných pravidiel v tzv.

analýze nákupného košíka. Tieto asociácie dokážu identifikovať vzťahy medzi

produktmi, ktoré spotrebiteľ nakupuje. Z výsledkov je potom možné stanoviť

postupnosti, ktoré môžu dopomôcť k lepšiemu predaju produktov a lepšiemu

zacieleniu marketingovej kampane.

Cieľom analýzy nákupného košíka je identifikovať produkty alebo skupiny

produktov, ktoré majú tendenciu vyskytovať sa spoločne (sú asociované) v

nákupnej transakcii. Inak povedané, v nákupnom košíku. Poznatky získané z

analýzy nákupného košíka môžu byť veľmi cenné. Napríklad zamestnanci

supermarketov môžu reorganizovať rozloženie tovaru tak, aby produkty ktoré sa

predávajú spolu boli umiestnené blízko seba. Iné využitie je na zlepšenie účinnosti

propagačnej kampane – produkty ktoré sú asociované nesmú byť súčasne v

kampani. Stačí, keď bude v kampani podporovaný len jeden výrobok a následne

môžeme predpokladať, že sa zvýši aj predaj asociovaných výrobkov.

106

Na obrázku 81 je zobrazený model, pomocou ktorého môžeme vykonať

analýzu nákupného košíka.

obr. 81 Model dolovania dát pre vykonanie analýzy nákupného košíka

107

Prehľad štatistických funkcií v MS Excel

Názov funkcie Popis funkcie

AVEDEV Vráti priemernú hodnotu absolútnych odchýlok údajových bodov od ich

priemeru

AVERAGE Vráti priemernú hodnotu argumentov

AVERAGEA Vráti priemernú hodnotu argumentov vrátane čísel, textu a logických

hodnôt

AVERAGEIF Vráti priemer (aritmetický priemer) buniek v rozsahu spĺňajúcich zadané

kritériá

AVERAGEIFS Vráti priemernú hodnotu (aritmetický priemer) všetkých buniek, ktoré

spĺňajú viacero kritérií

BETA.DIST Vráti hodnotu distribučnej funkcie rozdelenia pravdepodobnosti beta

BETA.INV Vráti inverznú hodnotu distribučnej funkcie pre určené rozdelenie

pravdepodobnosti beta

BINOM.DIST Vráti hodnotu binomického rozdelenia pravdepodobnosti jednotlivých

veličín

BINOM.INV Vráti najmenšiu hodnotu, pre ktorú má distribučná funkcia binomického

rozdelenia hodnotu väčšiu alebo rovnajúcu sa hodnote kritéria

CHISQ.DIST Vráti hodnotu funkcie kumulatívnej hustoty pravdepodobnosti beta

CHISQ.DIST.RT Vráti jednostrannú pravdepodobnosť pre rozdelenie chí-kvadrát

CHISQ.INV Vráti hodnotu funkcie kumulatívnej hustoty pravdepodobnosti beta

CHISQ.INV.RT Vráti hodnotu funkcie inverznej k funkcii jednostrannej pravdepodobnosti

rozdelenia chí-kvadrát

CHISQ.TEST Počíta test nezávislosti

CONFIDENCE.NORM Vráti interval spoľahlivosti pre strednú hodnotu základného súboru

CONFIDENCE.T Vráti hodnotu intervalu spoľahlivosti pre strednú hodnotu populácie so

Studentovým t-rozdelením

CORREL Vracia korelačný koeficient pre dva súbory údajov

COUNT Spočíta počet čísel v zozname argumentov

COUNTA Spočíta počet hodnôt v zozname argumentov

COUNTBLANK Spočíta počet prázdnych buniek v rozsahu

COUNTIF Spočíta bunky v rozsahu, ktoré zodpovedajú daným kritériám

COUNTIFS Spočíta bunky v rozsahu, ktoré zodpovedajú viacerým kritériám

108


COVARIANCE.P Vracia hodnotu kovariancie, priemernú hodnotu súčinu párových odchýlok

COVARIANCE.S Vráti vzorovú kovarianciu, čiže priemer odchýlok produktov pre jednotlivé

páry údajových bodov v dvoch množinách údajov

DEVSQ Vráti súčet druhých mocnín odchýlok

EXPON.DIST Vráti hodnotu distribučnej funkcie alebo hustoty exponenciálneho

rozdelenia

F.DIST Vráti hodnotu rozdelenia pravdepodobnosti F

F.DIST.RT Vráti hodnotu rozdelenia pravdepodobnosti F

F.INV Vráti hodnotu inverznej funkcie k distribučnej funkcii rozdelenia

pravdepodobnosti F

F.INV.RT Vráti inverznú hodnotu hodnoty rozdelenia pravdepodobnosti F

F.TEST Vráti výsledok F-testu

FISHER Vráti hodnotu Fisherovej transformácie

FISHERINV Vráti hodnotu inverznej funkcie k Fisherovej transformácii

FORECAST Vráti hodnotu lineárneho trendu

FREQUENCY Vráti rozdelenie početnosti ako zvislé pole

GAMMA.DIST Vráti hodnotu distribučnej funkcie alebo hustoty rozdelenia gama

GAMMA.INV Vráti hodnotu inverznej funkcie k distribučnej funkcii rozdelenia gama

GAMMALN Vráti prirodzený logaritmus funkcie gama Γ(x)

GAMMALN.PRECISE Vráti prirodzený logaritmus funkcie gama, Γ(x)

GEOMEAN Vráti geometrický priemer

GROWTH Vráti hodnoty exponenciálneho trendu

HARMEAN Vráti harmonický priemer

HYPGEOM.DIST Vráti hodnotu hypergeometrického rozdelenia

INTERCEPT Vypočíta súradnice prieniku priamky lineárnej regresie

KURT Vráti špicatosť množiny údajov

LARGE Vráti k-tu najväčšiu hodnotu v množine údajov

LINEST Vráti parametre lineárneho trendu

LOGEST Vráti parametre exponenciálneho trendu

LOGNORM.DIST Vráti hodnotu distribučnej funkcie lognormálneho rozdelenia

LOGNORM.INV Vracia inverznú funkciu ku kumulatívnej funkcii lognormálneho rozdelenia

MAX Vráti najvyššiu hodnotu zo zoznamu argumentov

109


MAXA Vráti najvyššiu hodnotu zo zoznamu argumentov vrátane čísel, textu a

logických hodnôt

MEDIAN Vráti medián daných čísel

MIN Vráti najnižšiu hodnotu zo zoznamu argumentov

MINA Vráti najnižšiu hodnotu zo zoznamu argumentov vrátane čísel, textu a

logických hodnôt

MODE.MULT Vráti zvislé pole najčastejšie sa vyskytujúcich alebo opakujúcich hodnôt v

poli alebo v rozsahu údajov

MODE.SNGL Vráti hodnotu, ktorá sa v množine údajov vyskytuje najčastejšie

NEGBINOM.DIST Vráti hodnotu záporného binomického rozdelenia

NORM.DIST Vráti hodnotu distribučnej funkcie normálneho rozdelenia

NORM.INV Vráti inverznú funkciu k distribučnej funkcii normálneho rozdelenia

NORM.S.DIST Vráti hodnotu distribučnej funkcie štandardného normálneho rozdelenia

NORM.S.INV Vráti inverznú funkciu k distribučnej funkcii štandardného normálneho

rozdelenia

PEARSON Vráti Pearsonov koeficient korelácie

PERCENTILE.EXC Vráti k-ty percentil hodnôt v rozsahu, kde k je z otvoreného intervalu 0..1

PERCENTILE.INC Vráti k-ty percentil hodnôt v rozsahu

PERCENTRANK.EXC Vráti pozíciu hodnoty v množine údajov ako percentuálnu hodnotu

(hodnotu väčšiu ako 0 a menšiu ako 1) množiny údajov

PERCENTRANK.INC Vráti percentuálne poradie hodnoty v množine údajov

PERMUT Vráti počet permutácií pre daný počet objektov

POISSON.DIST Vráti hodnoty Poissonovho rozdelenia

PROB Vráti pravdepodobnosť s akou sa hodnoty v rozsahu nachádzajú medzi

dvoma hranicami

QUARTILE.EXC Vráti kvartil množiny údajov na základe hodnôt percentilov, ktoré sú väčšie

ako 0 a menšie ako 1

QUARTILE.INC Vráti kvartil množiny údajov

RANK.AVG Vráti relatívnu veľkosť čísla v zozname čísel

RANK.EQ Vráti pozíciu čísla v zozname čísel

RSQ Vráti druhú mocninu Pearsonovho koeficientu korelácie

SKEW Vráti šikmosť rozdelenia

SLOPE Vráti gradient priamky lineárnej regresie

110


SMALL Vráti k-tu najmenšiu hodnotu v množine údajov

STANDARDIZE Vráti normalizovanú hodnotu

STDEV.P Vypočíta smerodajnú odchýlku základného súboru

STDEV.S Odhadne smerodajnú odchýlku na základe vzorky

STDEVA Odhadne smerodajnú odchýlku na základe vzorky vrátane čísel, textu a

logických hodnôt

STDEVPA Vypočíta smerodajnú odchýlku základného súboru vrátane čísel, textu a

logických hodnôt

STEYX Vráti štandardnú chybu predpokladanej hodnoty y pre každé x v regresii

T.DIST Vráti percentuálne body (pravdepodobnosť) pre Studentovo t-rozdelenie

T.DIST.2T Vráti percentuálne body (pravdepodobnosť) pre Studentovo t-rozdelenie

T.DIST.RT Vráti hodnotu Studentovho t-rozdelenia

T.INV Vráti ľavostranné inverzné Studentovo t-rozdelenie

T.INV.2T Vráti obojstranné inverzné Studentovo t-rozdelenie

TREND Vráti hodnoty lineárneho trendu

TRIMMEAN Vráti priemernú hodnotu vnútornej časti množiny údajov

T.TEST Vráti pravdepodobnosť súvisiacu so Studentovým t-testom

VAR.P Vypočíta rozptyl základného súboru

VAR.S Odhadne rozptyl na základe vzorky

VARA Odhadne rozptyl na základe vzorky vrátane čísel, textu a logických hodnôt

VARPA Vypočíta rozptyl základného súboru vrátane čísel, textu a logických hodnôt

WEIBULL.DIST Vráti hodnotu distribučnej funkcie alebo hustoty Weibullovho rozdelenia

Z.TEST Vráti jednostrannú hodnotu pravdepodobnosti z-testu

111

Záver

Štatistika je nám nápomocná v rozličných vedných oblastiach. Výnimku

netvorí ani oblasť spracovanie marketingového výskumu. V praxi sa môžeme

stretnúť s prípadmi, kedy pracovníci marketingového oddelenia prehlasujú, že

vykonali plnohodnotný marketingový výskum. Po zbežnom nahliadnutí do takýchto

výskumov nezostáva nič iné, len suché konštatovanie – toto nie je marketingový

výskum. V tom lepšom prípade sa jedná iba prieskum. S marketingovým

prieskumom sa bežne stretávame v médiách, keď čítame články o tom, koľko

percent opýtaných respondentov odpovedalo áno, aké majú vzdelanie, akú politickú

stranu by volili... Pri marketingovom výskume si však s takýmto strohým

konštatovaním nevystačíme. Tu je potrebné stanoviť závery, ktoré môžu byť

aplikovateľné pre celú populáciu, nie len pre respondentov, ktorí boli z populácie

vybraní na základe určitých pravidiel.

Vysokoškolská učebnica ponúka základný pohľad na štatistické metódy,

ktoré môžeme použiť pri vyhodnocovaní marketingových výskumov. Každá

metóda je dôkladne popísaná ako na teoretickej úrovni, tak aj na praktickej. Z toho

vyplýva, že študent po naštudovaní by nemal robiť základné chyby pri výbere

vhodnej štatistickej metódy.

Ako príklad nesprávneho použitia štatistických metód pre vyhodnotenie

marketingového výskumu by sme spomenuli napríklad využitie regresnej analýzy

a korelačnej analýzy na dátach, ktoré vykazovali časovú periodicitu.

V marketingovom výskume bola použitá nesprávna štatistická metóda a teda aj

výsledky boli interpretované nesprávne.

Na záver zostáva len dúfať, že podobných nezmyslov bude pri

vyhodnocovaní marketingových výskumov čo najmenej a k tomu dopomôže táto

učebnica.

112

Resumé

Vysokoškolská učebnica s názvom „Základné štatistické metódy

marketingového výskumu“ si kladie za cieľ oboznámenie študenta so štatistickými

postupmi použiteľnými pri spracovaní dát v marketingovom výskume. Samotný

marketingový výskum musí byť realizovaný systematicky, na základe vopred

určeného plánu. Učebnica sa nezameriava na celý proces marketingového výskumu,

ale zrozumiteľnou formou vysvetľuje metódy a postupy pri spracovaní

a vyhodnotení dát pomocou štatistických metód.

Po pochopení základných pojmov zo štatistiky je študentovi predostretý

celý rad deskriptívnych štatistických metód, pomocou ktorých dokáže

marketingový výskum vyhodnotiť. Aby sme nezostali len pri planom popise

premenných v dátovom súbore, študent sa dozvie ako a akým spôsobom vytvorí

jednoduché analýzy, pomocou ktorých dokáže nájsť skryté súvislosti (napr. krížové

tabuľky, korelačná analýza, regresná analýza).

Pomocou induktívnej štatistiky je zase možné využiť testovanie hypotéz

a marketingový výskum obohatiť o výsledky štatistickej významnosti. V učebnici

sme sa tejto forme vyhodnotenie dát venovali len stručne, pretože vyžaduje

podrobnejšie znalosti zo štatistiky. Aj napriek tomu dúfame, že sa nám podarilo

induktívnu štatistiku vysvetliť tak, že prípadný záujemca o jej štúdium po prečítaní

učebnice nadobudne základné vedomosti z tejto oblasti. Nevenovali sme sa tzv.

neparametrickým testom, pretože predpokladáme, že reálny marketingový výskum

prinesie toľko dát, že ich použitie nebude nutné.

V neposlednom rade treba spomenúť aj časť štatistických výpočtov, ktoré

sa používajú pri zistení veľkosti vzorky. Niekedy môžu mať študenti problém

s pochopením pojmu veľkosť populácie a veľkosť vzorky. Pri výbere vhodnej

metódy na výpočet veľkosti vzorky je potrebné brať do úvahy fakt, či poznáme

alebo nepoznáme veľkosť populácie z ktorej chceme vybrať vzorku. Aj keď sme sa

113

snažili vysvetliť základné metódy a postupy bez použitia vzorcov, v prípade určenia

veľkosti vzorky sa im nevyhneme. Jedná sa však len o jednoduché vzorce, ktorých

pochopenie vedie k správnemu určeniu veľkosti vzorky.

Ako základný štatistický nástroj, ktorým disponuje väčšina študentov, bol

použitý softvér MS EXCEL. Aj napriek jeho jednoduchosti a spoľahlivosti,

odporúčame pri realizácii komplexnejších marketingových výskumov používať

profesionálne štatistické softvéry.

114

Zoznam bibliografických zdrojov

Foret Miroslav. Marketingový průzkum: Poznávame svoje zákazníky. Computer

Press, 2008. 121s., ISBN 978-80-251-2183-2

Gavora Peter, et al. Elektronická učebnica pedagogického výskumu. [on-line].

Univerzita Komenského, 2010. Dostupné na: http://www.e-

metodologia.fedu.uniba.sk ISBN 978-80-223-2951-4.

Horálek Vratislav, et al. Základní statistické výpočty s podporou Microsoft Excel.

Česká společnost pro jakost, 2001. 176 s., ISBN 80-02-01427-8

Chajdiak Jozef. Štatistika jednoducho. Statis, 2010. 194 s., ISBN 978-80-85659-60-

3

Chajdiak Jozef. Štatistika v Exceli 2007. Statis, 2009. 304 s., ISBN 978-80-85659-

49-8

Kozel Roman, et al. Moderní marketingový výzkum. Grada, 2006. 277 s., ISBN 80-

247-0966-X

Kozel Roman, Mynářová Lenka, Svobodová Hana. Moderní metody a techniky

marketingového výzkumu. Grada, 2011. 304 s., ISBN 978-80-247-3527-6

Lacko Ľuboslav: Business Inteligence v SQL Serveru 2005: Reportovací,

analytické a další datové služby. Computer Press, 2006, 391 s., ISBN 80-251-1110-

5

Larose Daniel: Discovering Knowledge in Data: An Introduction to Data Mining,

John Wiley, 2005, 222 s., ISBN 0-471-66657-2

Pacáková Viera, et al. Štatistické metódy pre ekonómov. Iura Edition, 2009. 411 s.,

ISBN 978-80-8078-284-9

Punch F. Keith. Základy kvantitativního šetření. Portál, 2008. 151 s., ISBN 978-80-

7367-381-9

115

Půlpán Zdeněk. Odhad informace z dat vágní povahy. Academia, 2012. 198 s.,

ISBN 978-80-200-2076-5

Rimarčík Marián. Štatisitika pre prax. 2007. 200 s., ISBN 978-80-969813-1-1

Šoltés Erik. Regresná a korelačná analýza s aplikáciami. Iura Edition, 2008. 287 s.,

ISBN 978-80-8078-163-7

Tošenovský Josef, Dudek Martin. Základy statistického zpracování dat. VŠB –

Technická Univerzita Ostrava, 2006. 82 s., ISBN 80-248-0006-3

Turčan Matěj, et al. Statistika. VŠB – Technická Univerzita Ostrava, 2002. 170 s.,

ISBN 80-248-0131-0

Trnka Andrej. Asociačné pravidlá dolovania dát v marketingu. In: Nové trendy v

marketingu : spoločenská zodpovednosť : zborník z medzinárodnej vedeckej

konferencie organizovanej v Kongresovom centre SAV na Smolenickom zámku v

dňoch 6. - 7. novembra 2012 / Jozef Matúš, Dana Petranová. - Trnava : Fakulta

masmediálnej komunikácie, Univerzita sv. Cyrila a Metoda v Trnave, 2012. - ISBN

978-80-8105-438-9, s. 274-282.

Zoznam elektronických zdrojov

Correlation Coefficients. [on-line]. Dostupné na

http://www.jerrydallal.com/LHSP/corr.htm

Korelácie. [on-line]. Dostupné na

http://www.fhpv.unipo.sk/cvt/statistika/stbasic2.htm

Miles Jeremy. Regression with Microsoft Excel. [on-line]. Dostupné na

http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/excel

Nápověda a postupy k aplikaci Excel. [on-line]. Dostupné na:

http://office.microsoft.com/cs-cz/excel-help

116

Sample Size Methodology and Optimization for Market Research Surveys. [on-

line]. Dostupné na: http://macorr.com/sample-size-methodology.htm

Statistics Picture Book. [on-line]. Dostupné na

https://statisticspicturebook.wordpress.com/tag/population/

Statsoft. Nebojte se p-hodnot! [on-line]. Dostupné na

http://www.statsoft.cz/file1/PDF/newsletter/2014_06_26_StatSoft_Nebojte_se_p-

hodnot.pdf

Statsoft. Pohádkový soudní proces. [on-line]. Dostupné na

http://www.statsoft.cz/file1/PDF/newsletter/2012_12_10_StatSoft_Soudni_proces.p

df

Štatistické funkcie. [on-line]. Dostupné na: http://office.microsoft.com/sk-sk/excel-

help/statisticke-funkcie-odkaz-HP010342920.aspx

Štatistický úrad SR. Revidované údaje HDP za roky 1995 - 2010 v bežných cenách.

Dostupné na http://portal.statistics.sk/showdoc.do?docid=44189

Toleranční analýza lineárních rozměrových řetězců. [on-line]. Dostupné na:

http://www.mitcalc.cz/doc/tolanalysis1d/help/cz/tolanalysis1d.htm

Základné štatistické metódy marketingového výskumu

Autor: Ing. Andrej Trnka, PhD.

Recenzenti: prof. Ing. Pavol Tanuška, PhD.

prof. Ing. Anna Zaušková, PhD.

Vydala: Fakulta masmediálnej komunikácie, Univerzita sv. Cyrila a Metoda v Trnave

Náklad: 150 ks

Počet strán: 116

ISBN 978-80-8105-768-7

Documents

Ing. Andrej Trnka, PhD.fmk.sk/download/ucebnica-ZSMMV-2.pdf · Obsahuje základné deskriptívne štatistické metódy a postupy, ktoré sú potrebné na zrealizovanie marketingového