Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Ing. Andrej Trnka, PhD.
Základné štatistické metódy
marketingového výskumu
2016
Základné štatistické metódy marketingového výskumu
Autor: Ing. Andrej Trnka, PhD.
Recenzenti: prof. Ing. Pavol Tanuška, PhD.
prof. Ing. Anna Zaušková, PhD.
Vydanie vysokoškolskej učebnice bolo schválené Edičnou radou a Vedeckou radou Fakulty
masmediálnej komunikácie UCM v Trnave a bolo podporené projektom VEGA 1/0283/15
„Aspekty marketingovej komunikácie v oblasti procesu tvorby hodnoty zákazníka na trhu
B2C v kontexte s maximalizáciou trhového podielu v nákupnom spáde maloobchodu“
Vydala: Fakulta masmediálnej komunikácie, Univerzita sv. Cyrila a Metoda v Trnave
Náklad: 150 ks
Učebnica neprešla jazykovou korektúrou.
ISBN 978-80-8105-768-7
Sú tri stupne lži - lož, nehanebná lož a štatistika.
Disraeli
Obsah
Zoznam obrázkov ...................................................................................................... 6
Zoznam tabuliek ...................................................................................................... 10
Úvod ........................................................................................................................ 11
Základné pojmy v štatistike a rozdelenie štatistiky ................................................. 14
Základné pojmy v štatistike ................................................................................ 14
Rozdelenie štatistiky ........................................................................................... 18
Otázky ................................................................................................................. 20
Deskriptívna štatistika a jej metódy ......................................................................... 21
Jednorozmerná deskriptívna štatistika ................................................................ 21
Frekvenčná tabuľka ........................................................................................ 21
Koláčový graf ................................................................................................. 22
Stĺpcový graf ................................................................................................... 24
Kumulatívny stĺpcový graf ............................................................................. 26
Spojnicový graf ............................................................................................... 27
Histogram ....................................................................................................... 28
Opisné charakteristiky .................................................................................... 33
Škatuľový graf ................................................................................................ 57
Základný štatistický rozbor ............................................................................. 66
Dvojrozmerná deskriptívna štatistika .................................................................. 69
Bodový graf .................................................................................................... 69
Regresná analýza ............................................................................................. 71
Korelačná analýza ............................................................................................ 82
Kontingenčná tabuľka...................................................................................... 87
Kontingenčný graf ........................................................................................... 91
Otázky .................................................................................................................. 93
Induktívna štatistika a jej základné metódy použiteľné v marketingu ..................... 94
Testovanie hypotéz .............................................................................................. 94
Základný postup pri testovaní hypotéz ............................................................ 95
Štatistická významnosť ........................................................................................ 96
Často používané testy hypotéz v marketingovom výskume ................................ 97
Otázky .................................................................................................................. 98
Určenie veľkosti výberovej vzorky .......................................................................... 99
Terminológia pri určovaní veľkosti výberovej vzorky ...................................... 100
Výpočet veľkosti výberovej vzorky ................................................................... 102
Otázky ................................................................................................................ 104
Dolovanie dát – vytváranie pokročilých analýz ..................................................... 105
Prehľad štatistických funkcií v MS Excel .............................................................. 107
Záver....................................................................................................................... 111
Resumé ................................................................................................................... 112
Zoznam bibliografických zdrojov .......................................................................... 114
Zoznam elektronických zdrojov ............................................................................. 115
Zoznam obrázkov
obr. 1 Členenie premenných .................................................................................... 16
obr. 2 Zovšeobecniteľnosť výberového súboru ....................................................... 19
obr. 3 Označenie oblasti pre vytvorenie koláčového grafu ..................................... 23
obr. 4 Voľba grafu – Koláčový................................................................................ 23
obr. 5 Výber vhodného typu koláčového grafu ....................................................... 23
obr. 6 Výber rozloženia grafu .................................................................................. 24
obr. 7 Koláčový graf ................................................................................................ 24
obr. 8 Výber vhodného typu stĺpcového grafu ........................................................ 25
obr. 9 Stĺpcový graf ................................................................................................. 25
obr. 10 Úprava zdrojových údajov grafu ................................................................. 26
obr. 11 Prepnutie riadku alebo stĺpca v grafe .......................................................... 26
obr. 12 Kumulatívny stĺpcový graf .......................................................................... 27
obr. 13 Výber vhodného typu spojnicového grafu .................................................. 28
obr. 14 Spojnicový graf ........................................................................................... 28
obr. 15 Časť vstupných údajov ................................................................................ 30
obr. 16 Výber nástroja Data Analysis ...................................................................... 30
obr. 17 Okno Data Analysis (Histogram) ................................................................ 30
obr. 18 Okno Histogram .......................................................................................... 31
obr. 19 Výstupná tabuľka histogramu ..................................................................... 31
obr. 20 Histogram vytvorený pomocou MS Excel .................................................. 31
obr. 21 Histogram vytvorený v programe Minitab ................................................... 32
obr. 22 Prehľad opisných charakteristík ................................................................... 34
obr. 23 Argumenty funkcie AVERAGE .................................................................. 36
obr. 24 Argumenty funkcie GEOMEAN.................................................................. 37
obr. 25 Argumenty funkcie HARMEAN ................................................................. 38
obr. 26 Argumenty funkcie MEDIAN ..................................................................... 39
obr. 27 Argumenty funkcie MODE.SNGL .............................................................. 40
obr. 28 Argumenty funkcie PERCENTILE.INC ...................................................... 42
obr. 29 Argumenty funkcie PERCENTRANK.INC ................................................. 43
obr. 30 Argumenty funkcie QUARTILE.INC .......................................................... 44
obr. 31 Argumenty funkcie MAX ............................................................................ 46
obr. 32 Argumenty funkcie MIN .............................................................................. 46
obr. 33 Argumenty funkcie VAR.S .......................................................................... 48
obr. 34 Reprezentácia smerodajnej odchýlky pri normálnom rozložení .................. 49
obr. 35 Argumenty funkcie STDEV.S ..................................................................... 50
obr. 36 Symetrické rozdelenie .................................................................................. 51
obr. 37 Pravostranná šikmosť ................................................................................... 52
obr. 38 Ľavostranná šikmosť .................................................................................... 53
obr. 39 Argumenty funkcie SKEW .......................................................................... 54
obr. 40 Normálne rozloženie .................................................................................... 55
obr. 41 Studentovo rozloženie .................................................................................. 55
obr. 42 Trojuholníkové rozdelenie ........................................................................... 56
obr. 43 Rovnomerné rozdelenie............................................................................... 56
obr. 44 Argumenty funkcie KURT .......................................................................... 57
obr. 45 Škatuľový graf (vertikálne umiestnenie) ..................................................... 58
obr. 46 Vstupné údaje a vypočítané veľkosti oblastí ............................................... 58
obr. 47 Skladaný stĺpcový graf – základ pre škatuľový graf ................................... 60
obr. 48 Chybové úsečky – tvorba úsečiek v škatuľovom grafe ............................... 60
obr. 49 Formátovanie chybových úsečiek – voľba pre maximum........................... 61
obr. 50 Definovanie chybovej úsečky pre maximum .............................................. 61
obr. 51 Pridanie úsečky maximum .......................................................................... 62
obr. 52 Definovanie chybovej úsečky pre minimum ............................................... 63
obr. 53 Škatuľový graf pred formátovaním ............................................................. 63
obr. 54 Formátovanie grafu – Výplň tvaru .............................................................. 64
obr. 55 Škatuľový graf (horizontálne umiestnenie) ................................................. 65
obr. 56 Škatuľový graf s vyznačeným aritmetickým priemerom ............................ 65
obr. 57 Okno Data Analisys (Descriptive Statistics) ............................................... 66
obr. 58 Okno Descriptive Statistics ......................................................................... 67
obr. 59 Výber bodového grafu ................................................................................. 70
obr. 60 Bodový graf ................................................................................................. 70
obr. 61 Vyrovnávajúca regresná priamka ................................................................ 74
obr. 62 Pridanie vyrovnávajúcej regresnej priamky ................................................ 75
obr. 63 Formátovanie vyrovnávajúcej regresnej priamky ....................................... 76
obr. 64 Argumenty funkcie INTERCEPT ............................................................... 77
obr. 65 Argumenty funkcie SLOPE ......................................................................... 78
obr. 66 Okno Data Analysis (Regression) ................................................................ 78
obr. 67 Okno Regression .......................................................................................... 79
obr. 68 Vyrovnávajúca regresná priamka vygenerovaná nástrojom Regression ...... 80
obr. 69 Odchýlka v regresnom modeli pri extrémnych hodnotách .......................... 82
obr. 70 Rozličné hodnoty koeficienta R ................................................................... 83
obr. 71 Argumenty funkcie PEARSON ................................................................... 84
obr. 72 Argumenty funkcie RSQ .............................................................................. 85
obr. 73 Rozličné závislosti s koeficientom R=0,7 .................................................... 86
obr. 74 Okno Data Analysis (Correlation) ............................................................... 86
obr. 75 Okno Correlation.......................................................................................... 87
obr. 76 Výber kontingenčnej tabuľky....................................................................... 89
obr. 77 Vstupné údaje kontingenčnej tabuľky .......................................................... 90
obr. 78 Definovanie polí kontingenčnej tabuľky (sekcia polí a sekcia rozloženia) . 91
obr. 79 Voľba „Kontingenčný graf“ ......................................................................... 92
obr. 80 Kontingenčný graf........................................................................................ 92
obr. 81 Model dolovania dát pre vykonanie analýzy nákupného košíka ................ 106
Zoznam tabuliek
tab. 1 Príklad frekvenčnej tabuľky .......................................................................... 22
tab. 2 Charakteristika základných štatistík .............................................................. 66
tab. 3 Základný štatistický rozbor............................................................................ 68
tab. 4 Výstup nástroja Regression ........................................................................... 80
tab. 5 Výstup nástroja Correlation – regresná matica .............................................. 87
tab. 6 Kontingenčná tabuľka.................................................................................... 88
tab. 7 Chyby testovania hypotéz .............................................................................. 96
11
Úvod
Táto vysokoškolská učebnica, ako už vyplýva z jej názvu, je určená pre
študentov študujúcich marketingovú komunikáciu a odbory príbuzné. Prináša
pohľad na vedný odbor štatistika a jej použitie v marketingovej komunikácii.
Obsahuje základné deskriptívne štatistické metódy a postupy, ktoré sú potrebné na
zrealizovanie marketingového výskumu. Edukačné využitie učebnice je pri písaní
záverečných prác, hlavne diplomových a dizertačných. Praktické využitie je
premietnutím výsledkov do praxe.
Štatistika je chápaná ako strašiak medzi vedami. Študenti si pod týmto
pojmom predstavujú kopec vzorcov, ktorým (poniektorí) nerozumejú alebo nechápu
ich význam. Presnejšia definícia štatistiky môže znieť takto: Je to veda zaoberajúca
sa zberom, analýzou, interpretáciou a prezentáciou dát získaných z pozorovaní
alebo experimentov. V tejto definícii je zahrnutý celý proces od zberu, až po
prezentáciu dát. V oblasti marketingovej komunikácie sa budeme zaoberať dátami,
ktoré boli získané zo zberu, resp. pozorovania. Aplikovanie experimentov v tejto
oblasti by bolo nehumánne. Je treba si uvedomiť, že z nesprávne stanoveného
a vykonaného zberu dát nemusíme dostať správne výsledky, resp. ich vypovedacia
hodnota môže byť nulová. Výsledky štatistickej analýzy nebudú lepšie ako je
kvalita vstupných dát. Bohužiaľ, ani tu nie je možné vytvoriť perpeetum mobile.
Preto je veľmi dôležité klásť dôraz nielen na správne použitie štatistických metód
a postupov, ale aj na správne vytvorenie celého výskumu. Zo správne
analyzovaných údajov je možné získať informácie potrebné pre podporu
rozhodovania.
Aj napriek počiatočnému odporu voči štatistike ako vede, je možné po
pochopení základných princípov a metód využiť získané výsledky v marketingovej
komunikácii. Či už na spracovanie marketingového výskumu alebo na stanovenie
predpovedí správania sa sledovaného objektu.
12
Študenti sa pri štúdiu, ale aj v živote stretávajú so štatistickými postupmi
a ani si neuvedomujú, že sa skutočne jedná o štatistiku. Vo väčšine prípadov sú to
rôzne typy grafov, tabuliek, vyjadrení alebo interpretácií. Táto kategória štatistiky
sa nazýva deskriptívna štatistika. Nerobí nič iné, len opisuje skutkový stav.
Samozrejme, že aj tu je potrebná (čiastočná) znalosť teoretických východísk
a vzorcov, ale od študenta sa nevyžaduje presné napísanie vzorca. Základom je
pochopenie jednotlivých metód a ich správne použitie. Vzorec je možné vyhľadať
v ľubovoľnej publikácii venujúcej sa štatistike, ale jeho nesprávne pochopenie
môže viesť k dezinterpretácii výsledkov. Preto aj táto učebnica má za úlohu
študenta vtiahnuť do problematiky štatistiky a viesť ho k pochopeniu a správnej
interpretácii štatistických postupov. Problémom študentov býva to, že sú nútení
použiť štatistické postupy bez toho, aby ich chápali. Potom na základnú otázku typu
„akú štatistickú metódu ste použili“ nevedia odpovedať. Nesystematicky a bez
rozmýšľania používajú rôzne vzorce alebo nesprávne grafické vyjadrenie. Následne
si môžeme stanoviť otázku, či je takýto absolvent vhodný pre prax. Stačí si
porovnať reálne marketingové výskumy a výstupy niektorých študentov. Ich kvalita
a vyjadrenie je na nízkej úrovni. Preto je potrebné študentov oboznámiť so
základnými štatistickými metódami a postupmi so zreteľom na ich aplikáciu
v marketingu.
V určitých prípadoch budeme využívať aj vzorce, ale budeme sa snažiť
použiť aj softvérové vybavenie. Skoro všetky príklady v tejto učebnici je možné
vytvoriť pomocou vhodného softvéru. Medzi základné softvérové nástroje pre
štatistickú analýzu patrí MS Excel (a jemu podobné open-source produkty). Pre
účely demonštrácie príkladov v tejto učebnici použijeme MS Excel 2010. Postupy
popísané v tejto učebnici môžu byť odlišné v iných verziách MS Excel, preto
odporúčame mať nainštalovanú verziu 2010. K pokročilejším softvérovým
nástrojom je možné zaradiť produkty od spoločnosti SPSS alebo SAS. V prípade
13
nutnosti budeme na demonštráciu využívať softvérový produkt Minitab. Minitab
umožňuje komplexnú štatistickú analýzu dát.
Samozrejme, že štatistika nie je v živote všetko, ale tam kde má byť
použitá, musí byť použitá správne.
Vysokoškolská učebnica je rozdelená do viacerých častí, ktoré na seba
nadväzujú. Pre správne pochopenie je potrebné venovať sa každej časti, od definície
základných pojmov počínajúc.
Všetky použité bibliografické zdroje sú uvedené na konci učebnice
a študentovi poskytujú tak možnosti získania ďalších vedomostí a skúseností
z oblasti štatistiky.
14
Základné pojmy v štatistike a rozdelenie štatistiky
V tejto časti sa budeme venovať rozdeleniu štatistiky, definícii pojmov
používaných v štatistike, vysvetlíme si základné postupy a metódy a v neposlednom
rade sa budeme snažiť správne interpretovať získané dáta.
Základné pojmy v štatistike
Štatistika skúma vždy viac objektov, udalostí (príp. procesov) súčasne.
Z toho dôvodu môžeme konštatovať, že štatistika sa zaoberá skúmaním
hromadných javov. Pri skúmaní hromadných javov sa zaoberáme skúmaním
vlastností, správania a vývoja sledovaného javu. Množina skúmaných objektov sa
nazýva štatistický súbor. Štatistický súbor je množina štatistických jednotiek.
Štatistická jednotka je potom prvok štatistického súboru. Konkrétne sa môže
jednať o osobu, krajinu, rozličnú udalosť, výrobok atď. Na štatistickej jednotke
pozorujeme konkrétne vlastnosti hromadnej udalosti. Štatistická súbor, ale aj
štatistická jednotka musia byť presne vymedzené z vecného priestorového
a časového hľadiska. Vecné vymedzenie definuje objekt štatistickej jednotky alebo
súboru. Môže ísť napr. o osobu, výrobok, firmu, atď. Z priestorového hľadiska sa
musí definovať územie, na ktorom sa štatistické jednotky, ktoré patria do
štatistického súboru, nachádzajú. Tu môžeme hovoriť napr. o meste, kraji,
konkrétnej firme atď. Pri časovom hľadisku musí byť vymedzený časový okamih,
ku ktorému sa štatistický súbor definuje. Jedná sa napr. o časové rozpätie
sledovania štatistickej jednotky – týždeň, mesiac, konkrétny časový úsek atď.
Počet štatistických jednotiek, ktoré patria do štatistického súboru, sa nazýva
veľkosť štatistického súboru alebo rozsah štatistického súboru. Z tohto pohľadu
môžeme štatistický súbor rozdeliť na štatistický súbor ktorý obsahuje:
konečný rozsah štatistických jednotiek,
nekonečný rozsah štatistických jednotiek.
15
Konečný rozsah štatistických jednotiek znamená, že v štatistickom súbore
môže byť konečný počet štatistických jednotiek. V nekonečnom rozsahu
štatistických jednotiek nie je počet štatistických jednotiek ohraničený.
Ďalšie členenie štatistického súboru (častejšie používané) je:
základný štatistický súbor,
výberový štatistický súbor.
Základný štatistický súbor predstavuje množinu všetkých vymedzených
jednotiek štatistického súboru. Iné označenie pre základný štatistický súbor je
populácia. Výberový štatistický súbor (vzorka) predstavuje podmnožinu
základného štatistického súboru a môže byť použitý na stanovenie záverov
o základnom štatistickom súbore (populácie). Používa sa vtedy, keď skúmanie
vlastností pri všetkých štatistických jednotkách nie je reálne možné. Výberový
súbor by mal byť najvhodnejším predstaviteľom základného štatistického súboru.
Pri výskumoch rozličných druhov sa stretávame aj s pojmom veľkosť vzorky. Nie
je to nič iné ako počet štatistických jednotiek výberového štatistického súboru.
Niekedy je ťažko stanoviť, či je štatistický súbor základný alebo výberový.
Všetko to závisí od konkrétnej skúmanej udalosti. Napr. štatistický súbor všetkých
zamestnancov určitej firmy z konkrétneho odvetvia môže byť chápaný ako
základný, z ktorého je možné vybrať určitú skupinu, ktorá potom predstavuje
výberový štatistický súbor. Na druhej strane, ten istý štatistický súbor je možné
považovať za výber zo štatistického súboru zamestnancov všetkých firiem z tej istej
oblasti.
Každá štatistická jednotka nesie v sebe rad rozličných vlastností,
parametrov, atribútov, ktoré je možné skúmať. Tieto vlastnosti sa súhrnne nazývajú
štatistické znaky. Štatistický znak môžeme nazvať tiež premennou alebo
atribútom. V ďalšom texte budeme používať premenná. Premenná u každej
štatistickej jednotky nadobúda hodnotu, ktorá môže byť iná ako hodnota u inej
štatistickej jednotky. Štatistickým údajom potom môžeme nazvať záznamy
16
o hodnotách jedného alebo viacerých štatistických znakov v štatistickom súbore.
Klasifikácia premenných z rôznych hľadísk je zobrazená na obr.1. Vychádza
z rôznych pohľadov na štatistické znaky a ich vlastnosti. Toto členenie je dôležité aj
z pohľadu štatistického spracovania údajov v štatistickom softvéri.
obr. 1 Členenie premenných
Pre možnú zložitosť členenia premenných podľa obr. 1 budeme používať
členenie premenných podľa spôsobu vyjadrenia a podľa škály merania hodnôt.
Základné členenie premenných podľa spôsobu vyjadrenie je:
kvalitatívne premenné (kategorické, slovné),
kvantitatívne premenné (číselné).
17
Keďže používanie cudzích slov v názvoch premenných by mohlo študentov
hneď na začiatku odradiť od štúdia štatistiky, budeme používať zrozumiteľnejšie
označenie. Pre správne prvotné zaradenie typu premenných môžeme použiť
jednoduchú pomôcku. Na číselné premenné sa dá opýtať otázkou „Koľko?“. Patrí
sem napr. výška, hmotnosť, vek, príjem, výdavky, objem atď. Na kategorické
premenné sa dá spýtať otázkou „Aký typ?“. Sem patrí napr. farba, pohlavie,
národnosť, rodinný stav. Pre tieto typy premenných nemôžeme vypočítať napr.
priemer alebo maximálnu hodnotu, aj keď môžu byť v štatistickom softvéri
kódované formou čísel (muž –1, žena – 2). Tento spôsob zápisu je preferovaný
kvôli prehľadnosti. Toto základné členenie vo väčšine prípadov nevyhovuje, preto
je nutné typy premenných členiť podľa tzv. škál merania.
Členenie premenných podľa škál merania obsahuje viacero typov:
intervalové premenné (kardinálne),
poradové premenné (ordinálne),
nominálne premenné.
Pomocou intervalovej premennej (jeden typ kardinálnej premennej) sa
štatistické jednotky zoradia podľa hodnôt premennej. Tento typ premennej
umožňuje aj kvantifikáciu veľkosti rozdielov medzi hodnotami štatistických
jednotiek. Môžeme sa pýtať otázkou „O koľko?“. Ako príklad môžeme uviesť vek.
Vieme povedať že 45 ročný muž je starší ako 25 ročný muž. Ďalej vieme však
povedať aj to, že 45 ročný muž je o 20 rokov starší ako 25 ročný. Čiže vieme určiť
poradie, ale aj rozdiely medzi jednotlivými štatistickými údajmi. Medzi ďalšie
typické príklady patrí čas určitej aktivity, výška, hmotnosť, príjem, počet detí,
výdavky atď.
Poradová premenná (ordinálna) umožňuje zoradiť štatistické jednotky
podľa hodnôt premennej. Na rozdiel od intervalovej premennej neumožňuje
kvantifikovať rozdiely medzi hodnotami štatistických jednotiek. Ak poznáme iba
18
poradie, vieme povedať, kto bol lepší a kto bol horší. Nevieme však určiť aké sú
rozdiely medzi jednotlivými hodnotami. Hodnoty tejto premennej predstavujú
kategórie, ktoré sa dajú použiť na hodnotenie dôležitosti (1 – najnižšia dôležitosť, 5
– najvyššia dôležitosť). Typickými príkladmi sú napr. prospech škole, hodnotenie
stavu, hodnotenie spokojnosti, vzdelanie, miera súhlasu s určitým výrokom atď.
Nominálna premenná predstavuje škálu, pomocou ktorej môžeme zaradiť
štatistickú jednotku do určitej skupiny alebo kategórie. Určovanie poradia v tejto
kategórii však nemá význam a hodnoty sa nedajú usporiadať. Typickými príkladmi
sú pohlavie, farba, národnosť, bydlisko atď.
Toto členenie (intervalová, poradová a nominálna premenná) je len hrubé.
Existuje viacero špecifických typov premenných, ale pre jednoduchosť ich
neuvádzame.
Rozdelenie štatistiky
Definícia štatistiky ako vedy bola uvedená v úvode tejto učebnice. Pre
pochopenie samotného pojmu štatistika je potrebné uviesť viacero pohľadov.
Štatistiku môžeme chápať ako:
vednú disciplínu,
praktickú činnosť (zber údajov),
štatistické údaje (výsledky výpočtov),
štatistický vzorec.
Použitie slova štatistika a jeho konkrétny význam závisí od situácie v akej
sa používa.
Štatistiku ako vednú disciplínu môžeme rozdeliť do dvoch hlavných
kategórií:
deskriptívna štatistika,
19
induktívna štatistika.
Deskriptívnu štatistiku, inak povedané opisnú, predstavujú metódy na
vytvorenie prehľadu o získaných údajoch pomocou opisných charakteristík, grafov
a tabuliek. Na základe toho, koľko premenných chceme skúmať súčasne
rozdeľujeme deskriptívnu štatistiku na:
jednorozmernú (jedna premenná),
dvojrozmernú (dve premenné),
viac rozmernú (tri a viac premenných).
Pomocou induktívnej štatistiky sa zasa dajú na základe informácií
získaných z náhodných vzoriek robiť závery o celých štatistických súboroch z
ktorých vzorky pochádzajú. To znamená, že je možné zovšeobecniť úsudky
o vlastnostiach populácie na základe informácií získaných zo vzorky. Pre lepšie
pochopenie slúži obr. 2.
obr. 2 Zovšeobecniteľnosť výberového súboru
20
Aj induktívnu štatistiku je možné podľa počtu súčasne skúmaných
premenných rozdeliť do rovnakých kategórií ako deskriptívnu štatistiku. Avšak
použité metódy sú úplne odlišné.
Štatistická indukcia sa zaoberá odhadmi parametrov (nie je súčasťou tejto
učebnice) a štatistickým testovaním hypotéz1. Základnou podmienkou použitia
ľubovoľnej induktívnej štatistickej metódy je náhodný výber. Tento výber musí
spĺňať dve základné kritériá:
1. Pravdepodobnosť zaradenia do vzorky je pre všetky štatistické jednotky
nenulová.
2. Štatistické jednotky sú do vzorky vyberané nezávisle jedna od druhej.
Otázky
1. Čo je to štatistika?
2. Aké podmienky musí spĺňať náhodný výber?
3. Definujte štatistický súbor.
4. Vysvetlite, čo je to štatistická jednotka.
5. Aký je rozdiel medzi základným štatistickým súborom a výberovým
štatistickým súborom?
6. Ako sa členia premenné podľa škál merania?
7. Ako sa nazýva počet štatistických jednotiek, ktoré patria do
štatistického súboru?
8. Čím sa zaoberá štatistika?
9. Ako delíme štatistiku na základe počtu premenných?
10. Aký je rozdiel medzi základným štatistickým súborom a populáciou?
1 Pozri kapitolu Testovanie hypotéz
21
Deskriptívna štatistika a jej metódy
Ako bolo už spomenuté, deskriptívnu štatistiku možno rozdeliť podľa počtu
súčasne skúmaných premenných. Pre potreby marketingového výskumu budeme
najčastejšie používať metódy jednorozmernej štatistiky a dvojrozmernej štatistiky.
Z toho dôvodu budeme týmto metódam venovať väčší priestor na vysvetlenie.
Jednorozmerná deskriptívna štatistika
Tento typ používa na opis údajov napr. frekvenčnú tabuľku, koláčový graf,
stĺpcový graf, kumulatívny stĺpcový graf, histogram, škatuľový graf a viacero typov
opisných charakteristík.
Frekvenčná tabuľka
Frekvenčná tabuľka zobrazuje rozdelenie početnosti hodnôt premennej a
poskytuje informáciu o rozdelení kategorickej premennej (muž, žena) alebo číselnej
premennej rozdelenej do kategórií (vekové skupiny). Tabuľka obsahuje absolútne
(celkové) aj relatívne početnosti (percentá). Pomocou frekvenčnej tabuľky sa dajú
odhaliť chyby, ktoré by nasledujúce štatistické analýzy mohli znehodnotiť.
Frekvenčná tabuľka je chápaná ako výsledok triedenia hodnôt, ktorý má za
cieľ určiť počty výskytov jednotlivých hodnôt alebo kategórií (tried). Od triedenia
sa vždy požaduje zásada jednoznačnosti a úplnosti. Jednoznačnosť hovorí, že každá
hodnota je zaradená iba do jednej kategórie. Nikdy nesmie byť zaradená do
kategórií viacerých. Úplnosť znamená, že každá hodnota je zaradená do niektorej
z definovaných kategórií.
Pri realizácii výskumu môže byť počet možných hodnôt premennej príliš
veľký, čo môže z praktického hľadiska viesť k nežiaducim výsledkom. Preto sa
pristupuje k vytvoreniu kategórií (počtu riadkov frekvenčnej tabuľky). Určenie
počtu kategórii nie je vždy ľahká úloha. Počet kategórií by mal byť minimálne 2,
22
maximálne by nemal presiahnuť rozsah štatistického súboru. Pri voľbe počtu
kategórií musíme v prvom rade vychádzať z prirodzeného, objektívnou
skutočnosťou predurčeného počtu tried. Ak sa toto pravidlo nedá uplatniť, musíme
určiť počet tried tak, aby nebol príliš veľký. Zvyčajne je maximálny počet tried
stanovený na 10. Väčší počet tried by mohol viesť k neprehľadnosti a zložitosti
výskumu. Formu frekvenčnej tabuľky ľahkú na pochopenie demonštruje tab. 1.
tab. 1 Príklad frekvenčnej tabuľky
Kategória Absolútny počet Relatívny počet
K1 20 11,43%
K2 89 50,86%
K3 54 30,86%
K4 12 6,86%
Spolu 175 100,00%
Frekvenčná tabuľka môže obsahovať aj viacero údajov, napr. strednú
hodnotu kategórie (vek od 10 do 30 má strednú hodnotu 20), priemernú hodnotu
kategórie (závisí od počtu štatistických jednotiek v kategórii), kumulatívnu
absolútnu početnosť alebo kumulatívnu relatívnu početnosť. Použite týchto údajov
závisí od ich potreby a preto nie je vždy nutné ich dopĺňanie do frekvenčnej
tabuľky.
Koláčový graf
Tento typ grafu zobrazuje vždy len relatívne (percentuálne) rozloženie
početnosti hodnôt. Kruh predstavuje celý štatistický súbor a výseky podiely,
v akých sa jednotlivé kategórie vyskytujú. Obr. 7 zobrazuje koláčový graf
zostrojený z dát frekvenčnej tabuľky (tab. 1). Graf bol zostrojený v MS Excel. Pre
jeho zostrojenie najskôr označíme oblasť, pre ktorú chceme graf zobraziť spolu
s popismi stĺpcov (obr. 3). Z menu „Vložiť“ a kategórie „Grafy“ vyberieme
„Koláčový“ (obr. 4). Zo zobrazenej ponuky vyberieme požadovaný typ grafu (obr.
5). Z kategórie „Rozloženia grafov“ vyberieme vhodné rozloženie grafu – názov
23
grafu, legenda, popisy atď. (obr. 6). V prípade nezobrazenia tejto kategórie kliknite
do oblasti grafu. Po zobrazení grafu môžete použiť rôzne formátovacie techniky,
ktoré poskytuje MS Excel.
obr. 3 Označenie oblasti pre vytvorenie koláčového grafu
obr. 4 Voľba grafu – Koláčový
obr. 5 Výber vhodného typu koláčového grafu
24
obr. 6 Výber rozloženia grafu
obr. 7 Koláčový graf
Stĺpcový graf
Tento typ grafu je vhodný na grafické zobrazenie absolútnej početnosti
zadanej vo frekvenčnej tabuľke. Jeho zostrojenie je podobné ako koláčového grafu,
ale z kategórie „Grafy“ vyberieme „Stĺpcový“. Z ponuky typov grafov vyberieme
vhodný, v našom prípade „Skupinový stĺpcový“ (obr. 8). Zostrojený graf (obr. 9)
môžeme pomocou kategórie „Rozloženie grafu“ vhodne upraviť, poprípade
naformátovať rovnakým postupom ako koláčový graf.
25
obr. 8 Výber vhodného typu stĺpcového grafu
obr. 9 Stĺpcový graf
26
Kumulatívny stĺpcový graf
Tento typ grafu môžeme považovať za alternatívu ku koláčovému grafu.
Znázorňuje tiež relatívne rozdelenie početnosti frekvenčnej tabuľky. Keďže sa
jedná o typ stĺpcového grafu, zostrojíme ho podobne ako predchádzajúci graf, ale
pri výbere typu stĺpcového grafu zvolíme „100% skladaný stĺpcový“. Prvotné
zobrazenie grafu ešte nepripomína to, čo chceme dosiahnuť, preto musíme
v kategórii „Údaje“ vybrať položku „Zdrojové údaje“ (obr. 10). V zobrazenom
dialógovom okne „Vybrať zdroj údajov“ kliknite na tlačidlo „Prepnúť riadok alebo
stĺpec“ (obr. 11). Následne sa zobrazený graf prekreslí na požadovaný tvar (obr.
12).
obr. 10 Úprava zdrojových údajov grafu
obr. 11 Prepnutie riadku alebo stĺpca v grafe
27
obr. 12 Kumulatívny stĺpcový graf
Spojnicový graf
Spojnicový graf sa používa pre zobrazenie trendov, napr. časových radov.
Niekedy sa označuje aj ako čiarový graf, pretože je zobrazený vo forme čiary. Ak
graf obsahuje iba jednu čiaru vyjadrujúcu trend jednej premennej hovoríme
o jednoduchom spojnicovom grafe, v opačnom prípade sa jedná o viacnásobný
spojnicový graf. Pri štatistickej analýze viacerých premenných pomocou
viacnásobného spojnicového grafu (pozor, nejedná sa o viacrozmernú štatistickú
metódu) môžeme porovnávať ich trendy na spoločnej stupnici.
Pre zostrojenie spojnicového grafu najskôr označíme oblasť, z ktorej
chceme graf zostrojiť. Z kategórie „Grafy“ zvolíme „Čiarový“. Z ponúknutého
zoznamu „Dvojrozmerná čiara“ vyberieme „Čiarový“ (obr. 13). Vytvorený graf
doformátujeme podľa potreby (nadpis, legenda, atď.). Na obr. 14 je zobrazený
spojnicový graf pre revidované údaje hrubého domáceho produktu (produkcia
v mil. EUR) v Slovenskej republike za roky 1995 – 2010.
28
obr. 13 Výber vhodného typu spojnicového grafu
obr. 14 Spojnicový graf
Histogram
Histogram je najčastejšie používaný typ grafu pre zobrazenie početností
premennej. Na osi x sa zobrazujú intervaly premennej a na os y početnosti číselnej
premennej v zadaných intervaloch (počty výskytov v jednotlivých intervaloch).
29
Grafické znázornenie histogramu je podobné ako stĺpcový graf, s tým rozdielom, že
medzi jednotlivými „stĺpcami“ histogramu nie sú medzery. Je to kvôli tomu, že
stĺpcový graf znázorňuje hodnoty kategorickej premennej a histogram číselnej
premennej.
Ak chceme vytvoriť histogram v programe MS Excel, môžeme použiť
nástroje na analýzu údajov, ktoré sú sprístupnené až po nainštalovaní doplnku
„Data Analysis“. V menu „Súbor“ kliknite na položku „Možnosti“. V ľavej časti
novo otvoreného okna vyberte položku „Doplnky“. V rolovacom menu
„Spravovať“, v spodnej časti okna, zvoľte možnosť „Doplnky programu Excel“.
Kliknite na tlačidlo „Spustiť“. V zozname „Dostupné doplnky“ zaškrtnite voľbu
„Analytické nástroje“ a kliknite na tlačidlo „OK“. Doplnok „Analytické nástroje“ je
k dispozícii v menu „Údaje“, v kategórii „Analysis“.
Pre vytvorenie histogramu je vhodné mať nielen vstupné údaje (číselné), ale
aj kategórie, do ktorých je možné tieto údaje roztriediť (obr. 15). V prípade, že
kategórie nezadáte, budú automaticky vytvorené rovnomerné rozdelenia kategórií.
Toto rozdelenie však nemusí byť vhodné. V menu „Údaje“, v kategórii „Analysis“
zvoľte „Data Analysis“ (obr. 16). Otvorí sa okno „Data Analysis“ (obr. 17). V časti
„Analysis Tools“ vyberte „Histogram“. Kliknite na tlačidlo „OK“. Otvorí sa okno
„Histogram“ (obr. 18), do ktorého sa zadávajú vstupné údaje pre zostrojenie
histogramu. Do poľa „Input Range“ zadáme rozsah údajov, z ktorých bude
zostrojený histogram. Do poľa „Bin Range“ zadáme rozsah údajov, ktoré sú
zadefinované ako hranice tried. Pokiaľ ste pri výbere oblastí vstupných údajov
a hraníc tried zahrnuli popisy stĺpcov, zaškrtnite políčko „Labels“. V časti „Output
options“ vyberáte spôsob zobrazenia výstupnej tabuľky. Pokiaľ chcete vložiť
výstupnú tabuľku do rovnakého hárku v akom sú vstupné údaje, kliknite na tlačidlo
„Output Range“ a zadajte adresu bunky, kde bude ľavý horný okraj výstupnej
tabuľky. Ak ju chcete vložiť nový hárok do aktuálneho zošitu, kliknite na tlačidlo
„New Worksheet Ply“. A ak chcete vytvoriť výstupnú tabuľku v novom zošite
30
kliknite na tlačidlo „New Workbook“. Pre grafické zobrazenie histogramu zvoľte
možnosť „Chart Output“. Výstupná tabuľka je zobrazená na obr. 19 a samotný
histogram na obr. 20. Aj keď MS Excel nie je na zobrazenie histogramu vhodný
(necháva medzery medzi stĺpcami), pre jednoduché úlohy nie je potrebné používať
špeciálne štatistické programy. Na obr. 21 je zobrazený histogram, ktorý bol
vytvorený v štatistickom programe Minitab a zobrazuje reálny vzhľad a rozloženie
údajov.
obr. 15 Časť vstupných údajov
obr. 16 Výber nástroja Data Analysis
obr. 17 Okno Data Analysis (Histogram)
31
obr. 18 Okno Histogram
obr. 19 Výstupná tabuľka histogramu
obr. 20 Histogram vytvorený pomocou MS Excel
32
obr. 21 Histogram vytvorený v programe Minitab
Pre správne určenie počtu a hraníc tried je vhodné dodržať nasledovný
postup:
1. Nájdenie minimálnej (xmin) a maximálnej (xmax)hodnoty štatistického
súboru. K tomuto kroku je možné použiť funkcie MS Excel – MIN a MAX.
2. Výpočet variačného rozpätia2 R.
3. Stanovenie počtu tried:
a. 𝑛 > 100 𝑘 = [10log (𝑛)] (1)
b. 40 < 𝑛 ≥ 100 𝑘 = [2√𝑛] (2)
c. 𝑛 ≤ 40 𝑘 = [1 + 1,4426. ln (𝑛)] (3)
4. Výpočet šírky triedy ℎ = 𝑅/𝑘 (4)
5. Voľba dolnej hranice prvej triedy a rozdelenie štatistického súboru do tried.
Triedy sa vytvárajú dovtedy, pokiaľ nie je zaradená maximálna hodnota
štatistického súboru.
2 Pozri kapitolu Miery variability
100806040200-20
8
7
6
5
4
3
2
1
0
Kategórie
Fre
qu
en
cy
Mean 41,08
StDev 26,79
N 24
Normal
Histogram
33
6. Rozhodnutie do ktorej triedy budú zaradené hraničné hodnoty.
7. Určiť početnosti zaradenia do tried.
Príklad:
1. xmin=2, xmax=85
2. R=83
3. n=24, k=4
4. h=20,75
5. hranice tried:
a. 1. trieda 2-22,75
b. 2. trieda 22,75-43,5
c. 3. trieda 43,5-64,25
d. 4. trieda 64,25-85
6. interval zaradenia hodnoty do triedy, napr. (2;22,75˃, (22,75;43,5> atď.
7. početnosti tried:
a. 1. trieda 7
b. 2. trieda 5
c. 3. trieda 6
d. 4. trieda 6
Z rozdelenia a početnosti tried je vidieť, že nami navrhované hodnoty na
obr. 13 sú podobné vypočítaným. Samozrejme je potrebné brať v zreteľ praktickú
aplikovateľnosť vypočítaného rozdelenia tried.
Opisné charakteristiky
Vizuálnu analýzu alebo celkové posúdenie štatistického súboru poskytujú
rôzne grafy a tabuľky. Opisné charakteristiky štatistický súbor opisujú
podrobnejšie. Samotná opisná charakteristika je číslo (štatistika), ktoré je
vypočítané podľa konkrétneho vzorca z hodnôt premennej štatistického súboru.
Keďže existuje viacero opisných charakteristík, delia sa do troch skupín:
34
miery polohy (stredné hodnoty),
miery variability,
miery tvaru.
Pri realizácii marketingového výskumu nie je potrebné využívať všetky
opisné charakteristiky. Vo väčšine prípadov jednoduchých marketingových
výskumov si vystačíte so základnými opisnými charakteristikami ako je napr.
aritmetický priemer, medián, modus, variačné rozpätie, rozptyl a smerodajná
(štandardná) odchýlka. Obr. 22 zobrazuje podrobný prehľad opisných
charakteristík.
Všetky opisné charakteristiky je možné vypočítať pomocou príslušnej
funkcie v MS Excel alebo použitím doplnku „Data Analysis“.
obr. 22 Prehľad opisných charakteristík
Miery polohy
Pomocou týchto opisných charakteristík je možné určiť rôzne hodnoty,
blízko ktorých sa nachádzajú hodnoty v štatistickom súbore. Miery polohy sa tiež
nazývajú stredné hodnoty z toho dôvodu, že kvantitatívnej premenná nadobúda
viacero hodnôt, z ktorých jedna je minimálna, jedna maximálna a jedna stredná.
Medzi najčastejšie používané miery polohy patrí aritmetický priemer, medián
35
a modus. To, ktorá charakteristika má byť použitá závisí hlavne od cieľa analýzy
(napr. škála v ktorej sú štatistické znaky merané).
Aritmetický priemer je vhodné použiť:
ak sú dáta v metrickej škále,
rozdelenie dát je približne symetrické,
ak chceme použiť štatistické testy.
Medián je vhodné použiť:
ak sú dáta v ordinálnej alebo metrickej škále,
ak chceme poznať stred rozdelenia dát,
ak je rozdelenie dát silne zošikmené,
ak dáta obsahujú odľahlé hodnoty.
Modus je vhodné použiť:
ak má rozdelenie viacero vrcholov,
ak chceme získať len základný prehľad o rozdelení,
ak chceme poznať najčastejšie sa vyskytujúcu hodnotu.
V ďalšom si zadefinujeme jednotlivé opisné charakteristiky a bližšie
vysvetlíme ich použitie v MS Excel.
Aritmetický priemer
Je najznámejšou strednou hodnotou. Vypočíta sa ako súčet všetkých hodnôt
vydelený ich počtom (rozsahom štatistického súboru). Aritmetický priemer sa
označuje ako �̅�.
Funkcia na výpočet aritmetického priemeru v MS Excel – AVERAGE.
Syntax funkcie AVERAGE obsahuje nasledujúce argumenty (obr. 23):
36
Číslo1 – povinný argument. Prvé číslo, odkaz na bunku alebo rozsah,
ktorého aritmetický priemer chceme vypočítať.
Číslo2; atď. – voliteľný argument. Ďalšie čísla, odkazy na bunky alebo
rozsahy (najviac 255), ktorých aritmetický priemer chceme vypočítať.
obr. 23 Argumenty funkcie AVERAGE
Geometrický priemer
Tento typ priemeru sa používa pre pomerovú premennú s pozitívnou
šikmosťou3. Je definovaný ako n-tá odmocnina zo súčinu n hodnôt. Z jeho
matematickej podstaty vyplýva aj jeho nevýhoda. Pokiaľ sa aspoň jedna hodnota
rovná 0, priemer je potom nulový. Geometrický priemer sa označuje ako �̅�𝑔.
Funkcia na výpočet geometrického priemeru v MS Excel – GEOMEAN.
Syntax funkcie GEOMEAN obsahuje nasledujúce argumenty (obr. 24):
3 Pozri kapitolu Miery tvaru
37
Číslo1; číslo2; atď. – argument číslo1 je povinný, nasledujúce argumenty sú
voliteľné. Namiesto argumentov oddelených bodkočiarkami môžeme
použiť jedno pole alebo odkaz na pole.
obr. 24 Argumenty funkcie GEOMEAN
Harmonický priemer
Harmonický priemer sa počíta tam, kde má zmysel počítať súčet
z prevrátených hodnôt premennej. Konkrétne sa môže jednať o výpočet priemeru
z pomerných čísel, pri charakterizovaní dĺžky času potrebného na splnenie úlohy,
ak všetky štatistické jednotky plnia danú úlohu súčasne. Do výpočtu harmonického
priemeru možno zahrnúť iba nenulové hodnoty (keďže sa počíta z prevrátenej
hodnoty). Harmonický priemer sa označuje ako �̅�ℎ.
Funkcia na výpočet harmonického priemeru v MS Excel – HARMEAN.
Syntax funkcie HARMEAN obsahuje nasledujúce argumenty (obr. 25):
38
Číslo1; číslo2; atď. – argument číslo1 je povinný, nasledujúce argumenty sú
voliteľné. Namiesto argumentov oddelených bodkočiarkami môžeme
použiť jedno pole alebo odkaz na pole.
obr. 25 Argumenty funkcie HARMEAN
Medián
Tento ukazovateľ nie je ovplyvnený extrémnymi hodnotami. Medián je
ukazovateľom strednej hodnoty zoradeného štatistického súboru. Štatistický
súbor je zoradený od najmenšej po najväčšiu hodnotu (vzostupne). Ak má
štatistický súbor nepárny počet štatistických jednotiek, medián sa rovná hodnote na
mieste (n+1)/2 (prostredná hodnota). V prípade párneho počtu štatistických
jednotiek, sa medián vypočíta ako aritmetický priemer hodnôt na miestach n/2 a
n/2+1. Medián sa označuje ako �̃�.
Keďže aj tak na výpočet mediánu budeme používať MS Excel, stačí len
vedieť, na čo medián slúži. Medián nie je ovplyvnený extrémnymi hodnotami.
39
Nevýhodou je však je to, že bez ohľadu na veľkosť štatistického súboru sa berie do
úvahy jedna resp. maximálne dve hodnoty.
Funkcia na výpočet mediánu v MS Excel – MEDIAN. Syntax funkcie
MEDIAN obsahuje nasledujúce argumenty (obr. 26):
Číslo1; číslo2; atď. – číslo1 je povinný argument, nasledujúce argumenty sú
voliteľné.
obr. 26 Argumenty funkcie MEDIAN
Modus
Modus je hodnota premennej, ktorá sa v štatistickom súbore vyskytuje
najčastejšie. Pokiaľ sa v rade všetkých hodnôt štatistického súboru budú rovnako
často vyskytovať hodnoty s maximálnou početnosťou vedľa seba, modus bude ich
priemer. Ak budú v rade existovať dve navzájom nesusediace hodnoty s
maximálnymi početnosťami, potom obe tieto hodnoty budú chápané ako modus.
Modus sa označuje ako 𝑥.
40
Funkcia na výpočet modusu v MS Excel – MODE.SNGL. Syntax funkcie
MODE.SNGL obsahuje nasledujúce argumenty (obr. 27):
Číslo1 – povinný argument. Prvý argument, pre ktorý chceme vypočítať
modus.
Číslo2, atď. – voliteľné argumenty. Namiesto argumentov oddelených
čiarkami môžeme použiť jedno pole alebo odkaz na pole.
obr. 27 Argumenty funkcie MODE.SNGL
Kvantily
Kvantil je hodnota, ktorá rozdeľuje usporiadaný štatistický súbor na dve
časti. Najpoužívanejší kvantil je medián. Z toho vyplýva, že pokiaľ chceme
definovať aj ostatné kvantily, štatistický súbor musí byť usporiadaný od najmenšej
hodnoty po najväčšiu. Aj keď samotné kvantily nemusíme na opis štatistického
súboru priamo využívať, pre pochopenie niektorých mier variability sú veľmi
dôležité. V praxi sa môžeme stretnúť s viacerými kvantilmi. Ich názvy sú odvodené
od počtu častí, na ktoré rozdeľujú štatistický súbor:
41
medián – najčastejšie používaný kvantil, usporiadaný štatistický súbor
rozdeľuje na dve rovnako veľké časti,
tercily – dva kvantily, ktoré rozdeľujú usporiadaný štatistický súbor na tri
rovnako veľké časti,
kvartily – tri hodnoty premennej, ktoré rozdeľujú usporiadaný štatistický
súbor na štyri rovnako veľké časti,
kvintily – štyri kvantily, ktoré rozdeľujú usporiadaný štatistický súbor na
päť rovnako veľkých častí,
decily – kvantily, ktoré rozdeľujú usporiadaný štatistický súbor na desať
rovnako veľkých častí,
percentily – kvantily, ktoré rozdeľujú usporiadaný štatistický súbor na sto
rovnako veľkých častí.
Funkcia na zistenie percentilov v MS Excel – PERCENTILE.INC. Syntax
funkcie QUARTILE.INC obsahuje nasledujúce argumenty (obr. 28):
Pole – povinný argument. Pole alebo rozsah údajov, ktoré určujú relatívne
umiestnenie.
K – povinný argument. Hodnota percentilu z uzavretého intervalu 0..1.
42
obr. 28 Argumenty funkcie PERCENTILE.INC
Pomocou funkcie PERCENTRANK.INC v MS Excel môžeme na základe
hodnôt nami určenej oblasti a konkrétnej hodnoty premennej zistiť, ktorý percentil
jej zodpovedá. Jedná sa o opak predchádzajúcej funkcie.
Syntax funkcie PERCENTRANK.INC obsahuje nasledujúce argumenty
(obr. 29):
Pole – povinný argument. Pole alebo rozsah údajov s numerickými
hodnotami, ktoré určujú relatívne postavenie.
X – povinný argument. Hodnota, ktorej umiestnenie chceme zistiť.
Významnosť – voliteľný argument. Hodnota určujúca počet desatinných
miest, na ktoré bude vracaná percentuálna hodnota zaokrúhlená. Ak túto
hodnotu nezadáme, funkcia PERCENTRANK.INC použije 3 desatinné
miesta (0,xxx).
43
obr. 29 Argumenty funkcie PERCENTRANK.INC
V ďalšom výklade mier variability budeme používať rôzne kvartily. Prvý
kvartil, označený x0,25 (tzv. dolný kvartil), rozdelí usporiadaný štatistický súbor tak,
že prvá časť obsahuje štvrtinu hodnôt a zvyšná časť tri štvrtiny hodnôt. Tretí kvartil,
označený x0,75 (tzv. horný kvartil) je opakom prvého. Prvá časť obsahuje tri štvrtiny
hodnôt a druhá štvrtinu hodnôt.
Funkcia na zistenie kvartilov v MS Excel – QUARTILE.INC. Syntax
funkcie QUARTILE.INC obsahuje nasledujúce argumenty (obr. 30):
Pole – povinný argument. Pole alebo rozsah buniek obsahujúcich číselné
hodnoty, z ktorých chceme kvartil vypočítať.
Kvart – povinný argument. Určuje vrátenú hodnotu kvartilu.
o 0 – minimálna hodnota
o 1 – prvý kvartil (25. percentil)
o 2 – strednú hodnota (50. percentil – medián)
o 3 – tretí kvartil (75. percentil)
o 4 – maximálna hodnota
44
obr. 30 Argumenty funkcie QUARTILE.INC
Miery variability
Variabilita opisuje podobnosť hodnôt resp. odlišnosť premennej
v štatistickom súbore. Napr. premenná „Vek“ v jednom štatistickom súbore môže
obsahovať rovnaké hodnoty a v druhom môžu byť hodnoty rozdielne. Aj keď by
mohol byť aritmetický priemer oboch premenných rovnaký, druhý štatistický súbor
vykazuje určitú variabilitu. Variabilita premennej „Vek“ v prvom štatistickom
súbore je nulová. Miery polohy udávajú okolo hodnotu okolo ktorej sa hodnoty
centrujú (stredné hodnoty) alebo hodnoty, ktoré sa vyskytujú najčastejšie. Ako bolo
spomenuté, údaje s rovnakou strednou hodnotou môžu mať rozličnú variabilitu.
Malý rozsah variability znamená, malú odlišnosť hodnôt premenne v štatistickom
súbore, čiže miery polohy, sú v tomto prípade vhodnými charakteristikami na opis
premennej. Ak je však variabilita hodnôt premennej vysoká, charakterizuje to veľkú
odlišnosť hodnôt premennej a miery polohy sú v tomto prípade nedostatočnými
opisnými charakteristikami. V takomto prípade je potrebné ich doplniť
charakteristiky miery variability.
45
Variačné rozpätie
Jedná sa o najjednoduchšiu mieru variability, ktorá sa vypočíta ako rozdiel
medzi najväčšou a najmenšou hodnotou v štatistickom súbore. Označuje sa ako R.
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 (5)
Tak ako napríklad aritmetický priemer, aj variačné rozpätie je ovplyvnené
extrémnymi hodnotami premennej, keďže jeho výpočet je robený práve z nich.
Práve tento nedostatok môže skresľovať predstavu o variabilite premennej.
Funkcia na výpočet variačného rozpätia v MS Excel neexistuje, je potrebné
použiť funkcie na zistenie maxima (MAX) a minima (MIN) z rozsahu hodnôt.
Argumenty oboch funkcií sú rovnaké, zadáva sa rozsah hodnôt z ktorých chceme
požadované hodnoty zistiť (obr. 31, obr. 32). Zistené hodnoty je potom potrebné od
seba odrátať. Vzorec v MS Excel bude vyzerať nasledovne:
= 𝑀𝐴𝑋(𝐴2: 𝐴25) − 𝑀𝐼𝑁(𝐴2: 𝐴25) (6)
Rozsah údajov A2:A25 je nami zadaný rozsah, z ktorého sa zisťujú hodnoty
maxima a minima.
46
obr. 31 Argumenty funkcie MAX
obr. 32 Argumenty funkcie MIN
Kvartilové rozpätie
Spomínaný nedostatok variačného rozpätia odstraňujú tzv. kvantilové
rozpätia, z ktorých najpoužívanejšie je kvartilové rozpätie. Je definované ako
47
rozdiel medzi tretím a prvým kvartilom (75. a 25. percentil)4. Táto oblasť
reprezentuje stredných 50% hodnôt premennej. Kvartilové rozpätie sa označuje ako
𝑅𝑄4 .
𝑅𝑄4 = 𝑄3
4 − 𝑄14 = 𝑥0,75 − 𝑥0,25 (7)
Na výpočet kvartilového rozpätia v MS Excel, podobne ako na výpočet
variačného rozpätia neexistuje funkcia. Je potrebné použiť funkciu na zistenie
kvartilov a následne odrátať hodnotu tretieho a prvého kvartilu.
Nami zadaný vzorec na výpočet kvartilového rozpätia v MS Excel bude
potom vyzerať nasledovne:
= 𝑄𝑈𝐴𝑅𝑇𝐼𝐿𝐸. 𝐼𝑁𝐶(𝐴2: 𝐴25; 3) − 𝑄𝑈𝐴𝑅𝑇𝐼𝐿𝐸. 𝐼𝑁𝐶(𝐴2: 𝐴25; 1) (8)
Rozptyl
Rozptyl je často používanou mierou variability. Je definovaný ako
aritmetický priemer štvorcov odchýlok jednotlivých hodnôt premennej xi od
priemeru celého súboru. Rozptyl sa označuje ako 𝑠2 alebo 𝜎2.
𝑠2 =1
𝑛−1∑ (𝑥𝑖 − �̅�)2 = 𝑥2̅̅ ̅𝑛
𝑖=1 − �̅�2 (9)
Čím väčšiu hodnotu rozptylu dostaneme, tým sa údaje viac odchyľujú od
priemeru. Rozptyl nadobúda vždy kladnú hodnotu.
Funkcia na výpočet rozptylu v MS Excel – VAR.S. Syntax funkcie VAR.S
obsahuje nasledujúce argumenty (obr. 33):
Číslo1 – povinný argument. Prvý číselný argument zodpovedajúci
výberovému súboru.
Číslo2, atď. – voliteľné argumenty. Číselné argumenty 2 až 254
zodpovedajúce výberovému súboru.
4 Pozri kapitolu Miery polohy
48
Funkcia VAR.S predpokladá, že jej argumenty predstavujú vzorku
základného súboru. Ak údaje predstavujú celý základný súbor, rozptyl vypočítame
pomocou funkcie VAR.P, ktorej argumenty sú totožné s funkciou VAR.S.
obr. 33 Argumenty funkcie VAR.S
Z definície rozptylu podľa vzťahu (9) je zrejmé, že jednotky v ktorých bude
vypočítaný sú uvedené v štvorcoch (na druhú). Preto nie je možné rozptyl logicky
interpretovať. Z toho dôvodu sa pri meraní variability používa odmocnina
z rozptylu, ktorá sa nazýva smerodajná odchýlka.
Smerodajná odchýlka
Smerodajná odchýlka je definovaná ako druhá odmocnina z rozptylu.
Podobne ako rozptyl, ani smerodajná odchýlka nenadobúda záporné hodnoty.
V prípade normálneho rozloženia sa v intervale ± jedna smerodajná odchýlka
nachádza 68% napozorovaných hodnôt, v intervale ± dve smerodajné odchýlky sa
nachádza 95% napozorovaných hodnôt a v intervale ± tri smerodajné odchýlky sa
nachádza 99,73% napozorovaných hodnôt (obr. 34). Poznatok, že v prípade
49
normálneho rozloženia sa v intervale ± tri smerodajné odchýlky nachádzajú
prakticky všetky namerané hodnoty je veľmi dôležitý poznatok o analyzovanom
súbore. Čím je smerodajná odchýlka väčšia, tým väčšia je variabilita
napozorovaných hodnôt. Smerodajná odchýlka sa označuje ako 𝑠 alebo 𝛿.
obr. 34 Reprezentácia smerodajnej odchýlky pri normálnom rozložení
Funkcia na výpočet smerodajnej odchýlky v MS Excel – STDEV.S. Syntax
funkcie STDEV.S obsahuje nasledujúce argumenty (obr. 35):
Číslo1 – povinný argument. Číselný argument 1 zodpovedajúci
výberovému súboru.
Číslo2, atď. – voliteľné argumenty. Číselné argumenty 2 až 254
zodpovedajúce výberovému súboru. Namiesto argumentov oddelených
bodkočiarkami môžeme použiť jedno pole alebo odkaz na pole.
Funkcia STDEV.S predpokladá, že argumenty sú z výberového súboru. Ak
údaje reprezentujú celý súbor, smerodajnú odchýlku zistíme pomocou funkcie
STDEV.P, ktorej argumenty sú totožné s funkciou STDEV.S.
50
obr. 35 Argumenty funkcie STDEV.S
Použitie smerodajnej odchýlky ako miery variability je možné len vtedy ak
je aritmetický priemer vhodnou strednou hodnotou sledovaného štatistického
súboru. Keďže sa smerodajná odchýlka počíta z rozpätia, ktoré je silne ovplyvnené
extrémnymi hodnotami, možno konštatovať, že existencia extrémnych hodnôt
spôsobuje jej rast. V prípade silného zošikmenia údajov5 neposkytuje smerodajná
odchýlka relevantné informácie o štatistickom súbore. V takomto prípade je
vhodnejšie použiť kvantilové miery.
Miery tvaru
Dva štatistické súbory, ktorý majú rovnaké miery polohy a variability ešte
nemusia byť zhodné. Môžu sa odlišovať tzv. mierami tvaru, medzi ktoré patrí
šikmosť a špicatosť.
5 Pozri kapitolu Miery tvaru
51
Šikmosť
Rozdelenie početností (napr. v histograme) údajov štatistického súboru
môže byť symetrické alebo asymetrické. Pri symetrickom rozdelení (obr. 36) je
aritmetický priemer, medián a modus rovnaké.
𝑥 = �̃� = �̅� (9)
obr. 36 Symetrické rozdelenie
Ak sa aritmetický priemer, medián a modus nerovnajú, ide o asymetrické
rozdelenie početností alebo tzv. šikmosť. Podľa vzťahu medzi strednými hodnotami
môžeme hovoriť o:
pravostrannej šikmosti (kladná),
ľavostrannej šikmosti (záporná).
O pravostrannej šikmosti hovoríme vtedy, keď sa malé hodnoty premennej
vyskytujú častejšie a smerom k väčším hodnotám početnosti klesajú (obr. 37). Pre
stredné hodnoty platí vzťah:
𝑥 < �̃� < �̅� (10)
52
Podľa vzťahu (10) možno konštatovať, že aritmetický priemer je väčší ako
medián, z čoho vyplýva, že väčšina hodnôt je menšia ako aritmetický priemer.
obr. 37 Pravostranná šikmosť
O ľavostrannej šikmosti hovoríme vtedy, keď sa malé hodnoty premennej
vyskytujú zriedka a početnosti smerom k vyšším hodnotám narastajú (obr. 38). Pre
stredné hodnoty platí opačný vzťah ako pri pravostrannej šikmosti.
𝑥 > �̃� > �̅� (11)
Zo vzťahu (11) môžeme vyvodiť podobný záver ako pri pravostrannej
šikmosti. Medián je väčší ako priemer a teda väčšina hodnôt je väčšia ako priemer.
53
obr. 38 Ľavostranná šikmosť
Najčastejším ukazovateľom šikmosti je tzv. koeficient šikmosti, označujúci
sa ako 𝛾1. Ak sa koeficient šikmosti rovná nule, potom sa jedná o symetrické
rozdelenie. Ak je koeficient šikmosti väčší ako nula, ide o pravostrannú šikmosť.
A ak je koeficient šikmosti menší ako nula ide o ľavostrannú šikmosť. Čiže smer
asymetrie vyjadruje znamienko koeficientu šikmosti a silu asymetrie jeho hodnota.
Funkcia na výpočet koeficientu šikmosti v MS Excel – SKEW. Syntax
funkcie SKEW obsahuje nasledujúce argumenty (obr. 39):
Číslo1 – povinný argument, pre ktorý chceme vypočítať šikmosť.
Namiesto argumentov oddelených bodkočiarkami môžeme použiť
jedno pole alebo odkaz na pole.
Číslo2 – voliteľný argument.
54
obr. 39 Argumenty funkcie SKEW
Špicatosť
Pomocou špicatosti sa meria výskyt extrémnych hodnôt v štatistickom
súbore s porovnaním s tvarom normálneho rozloženia. Ukazovateľom špicatosti je
tzv. koeficient špicatosti, s označením 𝛾2. Ak sa koeficient špicatosti rovná nule, ide
o normálne rozdelenie. Ak má koeficient špicatosti hodnotu väčšiu ako nula, ide
o špicatejšie rozdelenie v porovnaní s normálnym. Aj koeficient špicatosti menší
ako nula, ide o plochejšie rozdelenie ako je normálne.
Na obr. 40 až obr. 43 sú zobrazené symetrické rozdelenia s rovnakým
aritmetickým priemerom a rozptylom, líšiace sa špicatosťou.
55
obr. 40 Normálne rozloženie
obr. 41 Studentovo rozloženie
56
obr. 42 Trojuholníkové rozdelenie
obr. 43 Rovnomerné rozdelenie
Funkcia na výpočet koeficientu špicatosti v MS Excel – KURT. Syntax
funkcie KURT obsahuje nasledujúce argumenty (obr. 44):
57
Číslo1 – povinný argument, pre ktorý chceme vypočítať špicatosť.
Namiesto argumentov oddelených bodkočiarkami môžeme použiť
jedno pole alebo odkaz na pole.
Číslo2 – voliteľný argument.
obr. 44 Argumenty funkcie KURT
Škatuľový graf
Pomocou škatuľového grafu môžeme zobraziť viacej opisných
charakteristík kvantitatívnej premennej zo štatistického súboru. Tento graf sa
zaraďuje do exploračnej (predbežnej) analýzy údajov. Zobrazuje minimálnu
hodnotu, maximálnu hodnotu, medián a dolný a horný kvartil. V niektorých
prípadoch zobrazuje aj aritmetický priemer. Ďalej sa z neho môžeme dozvedieť
šikmosť rozdelenia a zistiť prítomnosť odľahlých hodnôt.
Škatuľový graf sa skladá z obdĺžnika a z dvoch úsečiek, ktoré vychádzajú
z obdĺžnika. Graf môže byť otočený horizontálne alebo vertikálne. V MS Excel je
jeho zostrojenie náročnejšie ako v predchádzajúcich prípadoch. Najskôr si musíme
58
zistiť vstupné hodnoty, z ktorých následne vypočítame hodnoty pomocné a na ich
základe zostrojíme skladaný stĺpcový graf s miernou úpravou parametrov tak, aby
sme docielili zobrazenie škatuľového grafu (obr. 45).
obr. 45 Škatuľový graf (vertikálne umiestnenie)
Prvý krok na vytvorenie škatuľového grafu je zistenie minima, maxima,
mediánu, prvého kvartilu a tretieho kvartilu zo štatistického súboru a následný
výpočet veľkostí jednotlivých oblastí (obr. 46).
obr. 46 Vstupné údaje a vypočítané veľkosti oblastí
59
Ako prvú hodnotu pri výpočte veľkostí jednotlivých oblastí použijeme
zistenú hodnotu 1. kvartilu (bunka E2). Veľkosť oblasti od 1. kvartilu k hodnote
mediánu vypočítame tak, že od zistenej hodnoty mediánu odrátame hodnotu 1.
kvartilu (bunka E3).
= 𝐵4 − 𝐵3 (12)
Veľkosť oblasti medzi mediánom a 3. kvartilom vypočítame tak, že od
zistenej hodnoty 3. kvartilu odrátame zistenú hodnotu mediánu (bunka E4).
= 𝐵5 − 𝐵4 (13)
Týmto máme určené hranice a rozmery obdĺžnika, zostáva dopočítať
veľkosti úsečiek charakterizujúcich minimum a maximum. Veľkosť úsečky od 1.
kvartilu k hodnote minima vyrátame ako rozdiel zistenej hodnoty 1. kvartilu
a zistenej hodnoty minima.
= 𝐵3 − 𝐵2 (14)
Veľkosť úsečky od 3. kvartilu k hodnote maxima vyrátame ako rozdiel
zistenej hodnoty maxima od zistenej hodnoty 3. kvartilu.
= 𝐵6 − 𝐵5 (15)
Z vypočítaných hodnôt veľkostí oblastí 1. kvartilu, mediánu a 3. kvartilu
(oblasť D2:E4) zostrojíme stĺpcový skladaný graf (obr. 47). Vzniknutý graf zatiaľ
nemusíme formátovať.
60
obr. 47 Skladaný stĺpcový graf – základ pre škatuľový graf
Vzniknutý graf poslúži ako základ pre ďalšiu prácu na tvorbe škatuľového
grafu. Teraz je potrebné doplniť úsečky znázorňujúce hodnoty minima a maxima.
Vo vygenerovanom grafe klikneme na časť 3. kvartilu (zelená oblasť). V menu
„Nástroje pre grafy“ zvolíme „Rozloženie“ a v kategórii „Analýza“ vyberieme
„Chybové úsečky“ (obr. 48).
obr. 48 Chybové úsečky – tvorba úsečiek v škatuľovom grafe
Každú úsečku je potrené vytvoriť samostatne. Zvolíme „Ďalšie možnosti
chybových úsečiek...“. V okne „Formátovať chybové úsečky“ vyberieme „Smer –
Plus“ a „Veľkosť chyby – Vlastné“ (obr. 49). Klikneme na tlačidlo „Zadať
hodnotu“. Otvorí sa okno „Vlastné chybové úsečky“ (obr. 50).
61
obr. 49 Formátovanie chybových úsečiek – voľba pre maximum
obr. 50 Definovanie chybovej úsečky pre maximum
62
„Kladná chybová hodnota“ predstavuje vypočítanú veľkosť oblasti pre
maximum (bunka E6). Hodnotu „Záporná chybová hodnota“ zatiaľ nevypĺňame. Po
stlačení tlačidla „OK“ sa v grafe zobrazí úsečka charakterizujúca maximum (obr.
51).
obr. 51 Pridanie úsečky maximum
Podobným postupom vytvoríme aj úsečku pre minimum. Klikneme do
oblasti zobrazujúcej 1. kvartil (modrá oblasť). Už popísaným postupom sa
dostaneme k dialógovému oknu „Formátovať chybové úsečky“, v ktorom teraz
zvolíme hodnotu „Smer – Mínus“. V okne „Vlastné chybové úsečky“ tentoraz
vyplníme hodnotu „Záporná chybová hodnota“ (obr. 52) a ako obsah vložíme
vypočítanú veľkosť oblasti pre minimum (bunka E5).
63
obr. 52 Definovanie chybovej úsečky pre minimum
Zatvoríme všetky dialógové okná a upravíme graf, ktorý sa už začína
podobať na škatuľový (obr. 53).
obr. 53 Škatuľový graf pred formátovaním
Je zrejmé, že oblasť 1. kvartilu (modrá oblasť) v škatuľovom grafe nemá čo
robiť. Odstránime ju dodatočným formátovaním. Klikneme na ňu a v menu
„Nástroje pre grafy“ zvolíme „Formát“. V kategórii „Štýly tvarov“ vyberieme
možnosť „Výplň tvaru“. Z ponúknutých možností vyberieme „Bez výplne“ (obr.
54).
64
obr. 54 Formátovanie grafu – Výplň tvaru
Posledným krokom je doformátovanie grafu na požadovanú úroveň, napr.
odstránenie legendy, zmena popisu osi x, atď. (obr. 54).
Škatuľový graf môžeme vytvoriť aj pomocou skladaného pruhového grafu.
Výsledok je zrejmý z obr. 55. Výpovedná hodnota oboch prezentovaných
škatuľových grafov je rovnaká.
65
obr. 55 Škatuľový graf (horizontálne umiestnenie)
Vo vytvorenom škatuľovom grafe nie je zaznačená hodnota aritmetického
priemeru. Ak ju potrebujeme zobraziť, musíme použiť špecializovaný štatistický
softvér a škatuľový graf vygenerovať v ňom. Na obr. 56 je škatuľový graf
vytvorený v štatistickom softvéri Minitab.
obr. 56 Škatuľový graf s vyznačeným aritmetickým priemerom
90
80
70
60
50
40
30
20
10
0
Ve
k
66
Základný štatistický rozbor
Použitím predchádzajúcich poznatkov môžeme na štatistickom súbore
vykonať základný štatistický rozbor, t.j. definovať viaceré základné opisné
charakteristiky (tab. 2).
tab. 2 Charakteristika základných štatistík
Názov Funkcia
Rozsah súboru COUNT
Minimálna hodnota MIN
Maximálna hodnota MAX
Aritmetický priemer AVERAGE
Medián MEDIAN
Smerodajná odchýlka STDEV.S
Úhrn SUM
Iný, jednoduchší a rýchlejší spôsob ako vykonať základný štatistický
rozbor, je použitie nástroja „Data Analysis“, pomocou ktorého sme zostrojovali
histogram. Po spustení vyberieme položku „Descriptive Statistics“ (obr. 57).
Nástroj „Descriptive Statistics“ vygeneruje zostavu štatistického hodnotenia
jednorozmerných údajov vo vstupnom rozsahu a poskytne informácie o hlavnom
trende a premenlivosti údajov.
obr. 57 Okno Data Analysis (Descriptive Statistics)
67
Po otvorení okna „Descriptive Statistics“ (obr. 58) v časti „Input“ do poľa
„Input Range“ zadáme rozsah vstupných údajov, z ktorých sa má štatistický rozbor
urobiť. Vo väčšine prípadov máme údaje zoskupené v stĺpci. V tomto prípade
necháme voľbu „Grouped By“ na prednastavenej hodnote „Columns“. Ak sme
vybrali aj názov stĺpca, zvolíme políčko „Labels in First Row“. V časti „Output
options“ volíme spôsob výstupu štatistického rozboru. Pri ponechaní predvolenej
hodnoty „New Worksheet Ply“ sa štatistický rozbor zobrazí na novom hárku.
Dôležitou súčasťou definovania výstupných parametrov je označenie políčka
„Summary statistics“. Ostatné hodnoty môžeme nechať nezmenené.
obr. 58 Okno Descriptive Statistics
Po potvrdení tlačidla „OK“ sa na novom hárku zobrazí výstup štatistického
rozboru (tab. 3). Číselné hodnoty boli dodatočne naformátované na dve desatinné
miesta.
68
tab. 3 Základný štatistický rozbor
Pre lepšie pochopenie uvedieme preklad jednotlivých riadkov výstupu:
Mean – aritmetický priemer (funkcia AVERAGE)
Standard Error – štandardná chyba (chyba strednej hodnoty)
Median – medián (funkcia MEDIAN)
Mode – modus (funkcia MODE.SNGL)
Standard Deviation – smerodajná odchýlka (funkcia STDEV.S)
Sample Variance – rozptyl (funkcia VAR.S)
Kurtosis – špicatosť (funkcia KURT)
Skewness – šikmosť (funkcia SKEW)
Range – variačné rozpätie
Minimum – minimálna hodnota (funkcia MIN)
Maximum – maximálna hodnota (funkcia MAX)
Sum – úhrn hodnôt (funkcia SUM)
Count – počet hodnôt (funkcia COUNT)
Vstupná oblasť
Mean 41,08
Standard Error 5,47
Median 40,50
Mode 14,00
Standard Deviation 26,79
Sample Variance 717,64
Kurtosis -1,23
Skewness 0,28
Range 83,00
Minimum 2,00
Maximum 85,00
Sum 986,00
Count 24,00
69
Dvojrozmerná deskriptívna štatistika
Pri spracovaní marketingového výskumu by sme sa nemali zaoberať len
jednorozmernou deskriptívnou štatistikou, ale mali by sme využiť aj metódy
dvojrozmernej deskriptívnej štatistiky. V takomto prípade sa budeme zaoberať
vzájomným skúmaním viacerých premenných, ktoré tvoria viacrozmerný štatistický
súbor. Medzi takýmito premennými môžu existovať vzťahy, ktoré môžeme odhaliť
použitím viacrozmerných štatistických metód (zatiaľ sa budeme venovať len
dvojrozmerným metódam). V diplomových prácach študentov chýba práve táto časť
štatistiky. Väčšina z nich sa uspokojí tým, že svoj „výskum“ spracujú pomocou
metód jednorozmernej deskriptívnej štatistiky a na skúmanie závislosti medzi
premennými „pozabudnú“. Pokúsime sa teda naznačiť, ako skúmať vzájomnú
závislosť hodnôt jednej premennej od hodnôt inej premennej. Medzi
najpoužívanejšie metódy skúmania závislosti môžeme zaradiť:
regresiu (regresná analýza),
koreláciu (korelačná analýza),
Častým nástrojom používaným na vyjadrenie závislosti je bodový graf,
ktorý je možné zostrojiť aj pomocou MS Excel.
Bodový graf
Bodový graf (v MS Excel označovaný ako XY graf) sa používa na
zobrazenie závislostí medzi dvomi (najčastejšie) číselnými premennými a možno ho
považovať za východiskový graf určený pre regresnú analýzu.
Na jeho zostrojenie potrebujeme najskôr označiť oblasť obsahujúcu
hodnoty tzv. nezávislej a závislej premennej6. V prvom stĺpci sa nachádza nezávislá
premenná (hodnoty budú na osi x) a v druhom závislá premenná (hodnoty budú na
osi y). Z menu „Vložiť“ v kategórii „Grafy“ vyberte „XY (závislosť)“. Zo
6 Pozri kapitolu Regresná analýza
70
zobrazenej ponuky grafov (obr. 59) zvoľte „XY (závislosť) len so značkami“.
Vygenerovaný bodový graf (obr. 60) môžete ľubovoľne naformátovať a použiť ako
podklad pre regresnú analýzu.
obr. 59 Výber bodového grafu
obr. 60 Bodový graf
71
Regresná analýza
Regresná analýza slúži na skúmanie vzájomných vzťahov medzi dvoma
(alebo viacerými) premennými. V ďalšom sa budeme zaoberať iba vzťahmi medzi
dvoma premennými. Najčastejší typ premennej použitej pri regresnej analýze je
číselná premenná. Regresná analýza je vyjadrená regresným modelom. Regresný
model je matematická funkcia, ktorá vyjadruje vzťah medzi skúmanými
premennými.
V regresnom modeli rozlišujeme tzv. závislú premennú a nezávislú
premennú. Závislá premenná (označujeme ju ako Y) je číselná premenná, ktorej
závislosť zisťujeme. Nezávislá premenná (označujeme ju ako X) je premenná,
ktorá vyvoláva zmeny závislej premennej. Typ regresnej analýzy, ktorá sa zaoberá
vzájomným vzťahom medzi jednou závislou a jednou nezávislou premennou, sa
nazýva jednoduchá regresia alebo párová regresia. Viacrozmerná regresia
(označovaná aj ako mnohonásobná) analyzuje vzťah medzi viacerými nezávislými
premennými a jednej závislej premennej. Obsahom tejto učebnice nebude skúmanie
viacrozmernej regresie, kvôli komplikovanejšej analýze a interpretácii výsledkov.
Voľba nezávislej premennej X je veľmi dôležitá. Do regresného modelu by
sme mali zahrnúť takú nezávislú premennú, ktorá má významný vplyv na závislú
premennú. Nezávislá premenná by mala byť so závislou premennou v tzv.
príčinnej závislosti. Zjednodušene to znamená, že jeden jav (príčina) vyvoláva iný
jav (účinok). Inak povedané, nezávislá premenná by mala byť príčinou zmien
v závislej premennej. Od príčinnej závislosti treba odlíšiť tzv. zdanlivú závislosť.
K tomuto typu dochádza vtedy, ak súvislosť medzi javmi nie je vzťahom príčiny
a účinku, ale je výsledkom pôsobenia ďalšieho javu alebo javov. Aj keď medzi
72
premennými existuje silná korelácia7, neznemená to, že je medzi nimi príčinná
závislosť.
Medzi nezávislou a závislou premennou existujú dva typy vzťahov:
jednostranný vzťah – zmeny nezávislej premennej ovplyvňujú zmeny
závislej premennej, opačne to však neplatí,
obojstranný vzťah – oba typy premennej sa navzájom ovplyvňujú.
Ak je splnená podmienka príčinnej závislosti, môžeme hovoriť o dvoch
typoch závislostí:
funkčná – hodnoty závislej premennej sú určované iba hodnotami
nezávislej premennej,
štatistická – na závislú premennú pôsobí nezávislá premenná, ale aj
náhodné vplyvy.
Funkčná závislosť nie je predmetom štatistického skúmania, pretože pre
konkrétnu hodnotu nezávislej premennej bude mať závislá premenná vždy tú istú
hodnotu. Pri štatistickej závislosti nepôsobí na závislú premennú len nezávislá, ale
aj rôzne náhodné vplyvy. To znamená, že konkrétna kombinácia hodnôt závislej
a nezávislej premennej môže nadobúdať rôzne hodnoty v dôsledku pôsobenia
náhodných vplyvov. Regresnej analýze je potom zmysluplné použiť len na tie
premenné, medzi ktorými je štatistická závislosť. Výsledok regresnej analýzy
môžeme použiť na predikciu správania sa sledovaných premenných.
Pôsobenie nezávislej premennej na závislú môžeme vyjadriť pomocou
bodového grafu, doplneného o regresnú krivku.
7 Pozri kapitolu Korelačná analýza
73
Regresný model
Pomocou regresného modelu môžeme opísať štatistickú závislosť
premenných. Obsahuje regresnú funkciu η a náhodnú zložku ε. Regresnou funkciou
môže byť ľubovoľná matematická funkcia nezávislej premennej. Najjednoduchší
model jednoduchej regresie je tzv. jednoduchý lineárny regresný model. Grafom
tohto modelu je priamka a je vyjadrený rovnicou:
𝑦 = 𝛽0 + 𝛽1𝑥 + 휀 (16)
kde:
y – hodnota závislej premennej,
β0 – lokujúca konštanta,
β1 – regresný koeficient,
x – hodnota nezávislej premennej,
ε – náhodná chyba pozorovania.
Jednoduchý lineárny model môžeme zjednodušene zapísať aj v tvare:
𝑦 = 𝜂 + 휀 (17)
kde:
𝜂 = 𝛽0 + 𝛽1𝑥 (18)
je regresná funkcia reprezentovaná regresnou priamkou.
Regresný koeficient β1 môže nadobúdať kladné alebo záporné hodnoty.
Podľa toho bude určený priebeh štatistickej závislosti. Ak bude koeficient β1
kladný, medzi premennými bude priama lineárna závislosť. Ak bude koeficient β1
záporný, bude sa jednať o nepriamu lineárnu závislosť.
Regresný model (16) je teoretický model, ktorý je odhadnutý zo
štatistického súboru. V bodovom diagrame je možné medzi body zostrojiť priamku,
74
ktorá najlepšie vystihuje závislosť. Táto priamka sa volá vyrovnávajúca regresná
priamka (obr. 61) a je vyjadrená rovnicou:
�̂� = 𝑏0 + 𝑏1𝑥 (19)
kde:
ŷ – teoretická hodnota závislej premennej,
x – hodnota nezávislej premennej,
b0 – bodový odhad parametra β0, tzv. regresná konštanta. Udáva y-ovú súradnicu,
v ktorom priamka pretína os y. Vyjadruje odhadovanú hodnotu závislej premennej,
ak sa nezávislá premenná rovná nule.
b1 – bodový odhad parametra β1, tzv. regresný koeficient. Vyjadruje smernicu
priamky. Udáva o koľko sa jednotiek sa zmení odhad závislej premennej, ak sa
hodnota nezávislej premennej zvýši o jednotku.
obr. 61 Vyrovnávajúca regresná priamka
75
Väčšina štatistických programov nezobrazuje teoretickú hodnotu závislej
premennej ako ŷ, ale ako y. Do existujúceho bodového grafu, ktorý znázorňuje
závislosť medzi premennými, vložíme vyrovnávajúcu regresnú priamku tak, že
v grafe klikneme pravým tlačidlom na ľubovoľný bod a zo zobrazeného
kontextového menu vyberieme „Pridať trendovú spojnicu“ (obr. 62).
obr. 62 Pridanie vyrovnávajúcej regresnej priamky
V zobrazenom dialógovom okne „Formátovať trendovú spojnicu“ necháme
voľbu „Typ trendu alebo regresie“ na pôvodnej hodnote „Lineárny“ a vyberieme
možnosť „Zobraziť v grafe rovnicu“, poprípade „Zobraziť v grafe rovnicu
spoľahlivosti R na druhú“ (obr. 63). Po výbere parametrov klikneme na tlačidlo
„Zatvoriť“. Zobrazenú rovnicu môžeme v grafe presunúť na čitateľnejšie miesto.
76
obr. 63 Formátovanie vyrovnávajúcej regresnej priamky
Vyrovnávajúca regresná priamka (19) je bodovým odhadom regresnej
priamky (18). Z obr. 61 je vidieť, že medzi skutočnými hodnotami závislej
premennej (modré body) a jej vyrovnanými bodmi (ležiace na priamke) je určitý
rozdiel. Tento rozdiel nazývame reziduálna odchýlka (chyba odhadu) a ide
o bodový odhad náhodnej chyby ε. Reziduálna odchýlka môže nadobúdať kladné
77
a záporné hodnoty. Za „nulový bod“ môžeme považovať bod ležiaci na
vyrovnávajúcej regresnej priamke.
Nutnou podmienkou na odhad parametrov lineárneho regresného modelu je,
aby súčet všetkých reziduálnych odchýlok bol rovný nule. Ak by sme sa však držali
len tejto podmienky, mohli by sme parametre odhadnúť nesprávne a tým aj
nesprávne určiť vyrovnávajúcu regresnú priamku. Preto musíme použiť ďalšiu
podmienku, ktorá hovorí o tom, že súčet druhých mocnín všetkých reziduálnych
odchýlok je minimálny (tzv. metóda najmenších štvorcov). Čiže vyrovnávajúca
regresná priamka minimalizuje súčet druhých mocnín reziduálnych podmienok
a žiadna iná priamka, ktorá by mala tento súčet menší neexistuje.
Na zistenie parametrov b0 a b1 sa v MS Excel používajú funkcie
INTERCEPT a SLOPE. Syntax funkcií INTERCEPT (obr. 64) a SLOPE (obr. 65)
obsahuje nasledujúce argumenty:
Známe_y – povinný argument. Pole alebo rozsah buniek s číselnými
závislými údajovými bodmi.
Známe_x – povinný argument. Množina nezávislých údajových bodov.
obr. 64 Argumenty funkcie INTERCEPT
78
obr. 65 Argumenty funkcie SLOPE
Komplexnejšie hodnoty regresnej analýzy poskytuje nástroj „Data
Analysis“, z ktorého vyberieme „Regression“ (obr. 66).
obr. 66 Okno Data Analysis (Regression)
Po otvorení okna „Regression“ (obr. 67) zadáme do poľa „Input Y Range“
rozsah údajov závislej premennej a do poľa „Input X Range“ rozsah nezávislej
premennej. Ak sme označili vo vstupných oblastiach aj názvy stĺpcov, zvolíme
voľbu „Labels“. Ak chceme zadefinovať, že parameter b0 je rovný 0, zvolíme
voľbu „Constant is Zero“. V časti „Output options“ vyberieme spôsob zobrazenia
výsledkov. Na výpočet a zobrazenie grafu reziduálnych odchýlok vyberieme
79
položku „Residuals“, resp. „Residual Plots“. Graf vyrovnávajúcej regresnej
priamky zobrazíme, ak označíme položku „Line Fit Plots“.
obr. 67 Okno Regression
Pre predchádzajúci príklad, kde sme využili bodový graf, bude
vygenerovaný graf vyrovnávajúcej regresnej priamky podobný (jej rovnica bude
samozrejme totožná. Na obr. 68 môžete vidieť, že sa nejedná o priamku, ale o body,
ktoré na nej ležia. Ak by sme ju nechali zobraziť, videli by sme, že naozaj všetky
body ležia priamo na nej.
80
obr. 68 Vyrovnávajúca regresná priamka vygenerovaná nástrojom Regression
Výhodou nástroja Regression je to, že vráti viaceré významné štatistické
hodnoty.
tab. 4 Výstup nástroja Regression
V prvej časti výstupu („Regression Statistics“) nás bude zaujímať koeficient
„Multiple R“, ktorý udáva tzv. Pearsonov výberový koeficient korelácie8. Rovnaký
výsledok vráti funkcia PEARSON. Hodnota koeficientu „R Square“ udáva hodnotu
spoľahlivosti modelu. V našom prípade je to 53,35%. a jedná sa o Pearsonov
8 Pozri kapitolu Korelačná analýza
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,730400344
R Square 0,533484662
Adjusted R Square 0,521207943
Standard Error 7,536949543
Observations 40
ANOVA
df SS MS F Significance F
Regression 1 2468,48688 2468,487 43,45499 8,81122E-08
Residual 38 2158,61312 56,80561
Total 39 4627,1
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0%
Intercept 5,422646491 2,465408361 2,199492 0,033999 0,431688194 10,41360479 0,431688194 10,41360479
Nezávislá premenná 0,252593937 0,038318025 6,59204 8,81E-08 0,175023151 0,330164724 0,175023151 0,330164724
81
výberový koeficient korelácie umocnený na druhú (funkcia RSQ). „Standard error“
udáva chybu strednej hodnoty, čiže smerodajnú odchýlku odhadu závislej
premennej. Rovnakú hodnotu vráti funkcia STEYX.
V druhej časti výstupu („ANOVA“) sa dozvieme, či je model štatisticky
vhodný9. Ak je hodnota „Significance F“ menšia ako 0,05 model je štatisticky
vhodný. V našom prípade je dosiahnutá hodnota 0,0000000881.
Parametre b0 a b1 vyrovnávajúcej regresnej priamky zistíme z ďalšej
tabuľky výstupu, konkrétne zo stĺpca „Coefficients“.
Nevýhodou jednoduchého lineárneho regresného modelu je podstata,
z ktorej vychádza a to metóda najmenších štvorcov. Táto metóda je citlivá na
extrémne hodnoty. Tieto hodnoty zmenia priebeh vyrovnávajúcej regresnej
priamky, čiže zmenia parametre b0 a b1. Z toho dôvodu je nutné štatistický súbor
najskôr zobraziť pomocou bodového grafu a na základe skúseností alebo rozličných
zákonitostí (závisí od prípadu k prípadu) rozhodnúť, ktoré hodnoty sú extrémne
alebo nereálne. Tieto hodnoty môžeme potom zo štatistického súboru odstrániť
a následne počítať koeficienty.
Dôležitosť tohto tvrdenia zobrazuje porovnanie na obr. 69. Do štatistického
súboru sme pridali 2 extrémne hodnoty. So zmenou rovnice vyrovnávajúcej
regresnej priamky sa znížil aj koeficient R2, čiže zmenšila sa spoľahlivosť modelu.
9 Pozri kapitolu Štatistická významnosť
82
obr. 69 Odchýlka v regresnom modeli pri extrémnych hodnotách
Pomocou regresnej analýzy môžeme zistiť, ako najlepšie odhadnúť hodnotu
závislej premennej podľa hodnoty nezávislej premennej. Nemožno podľa nej ale
zistiť, ako dobre možno odhadnúť závislú premennú pomocou nezávislej
premennej. Tejto problematike sa venuje tzv. korelačná analýza.
Korelačná analýza
Korelačná analýza je vo veľmi úzkom vzťahu s regresnou analýzou.
Používa štatistické metódy na posúdenie tesnosti (sily) štatistickej závislosti medzi
kvantitatívnymi premennými. Na meranie tesnosti závislosti sa používajú tzv.
korelačné charakteristiky, ktoré majú nasledovné vlastnosti:
nadobúdajú hodnotu z intervalu <-1; 1> alebo <0; 1>,
ak sa zvyšuje závislosť, zvyšuje sa ich absolútna hodnota,
sú nezávislé od jednotiek, v ktorých sú premenné merané.
Podobne ako pri regresnej analýze, aj pri ďalšom vysvetľovaní korelačnej
analýzy sa budeme zaoberať iba lineárnou korelačnou závislosťou medzi dvoma
premennými. Treba si však uvedomiť, že pri korelačnej analýze neexistuje závislá
a nezávislá premenná.
Jednoduchá lineárna korelácia
Najpoužívanejším ukazovateľom tesnosti lineárnej závislosti je tzv.
jednoduchý koeficient korelácie (tzv. Pearsonov koeficient korelácie – ρ), ktorého
83
bodový odhad je výberový jednoduchý koeficient korelácie (tzv. Pearsonov
výberový koeficient korelácie – R). Môže nadobúdať hodnoty z intervalu <-1, 1> .
Ak je hodnota R=0, potom hovoríme, že premenné nie sú lineárne závislé. Ak je
R>0, hovoríme, že medzi premennými je priamy lineárny vzťah. V prípade R<0,
ide o nepriamy lineárny vzťah. Čím je absolútna hodnota koeficientu R bližšia k 1,
tým je závislosť tesnejšia. V prípade ak sa absolútna hodnota |R|=1 hovoríme
o úplnej korelácii a premenné sú vo funkčnej závislosti10
. Pri nulovej hodnote
koeficientu R nemá význam odhadovať regresnú priamku (obr. 70). Neznamená to
však, že medzi premennými nie je závislosť. Závislosť nemusí byť vždy lineárna,
ale môže sa jednať o iný typ závislosti.
obr. 70 Rozličné hodnoty koeficienta R
Ďalším ukazovateľom je tzv. jednoduchý koeficient determinácie – ρ2.
Jeho bodový odhad je tzv. výberový jednoduchý koeficient determinácie – R2.
Charakterizuje tesnosť lineárnej závislosti premenných. Môže nadobúdať hodnoty
z intervalu <0; 1> a jeho sto násobok určuje koľko percent celkovej variability
závislej premennej je vysvetlených lineárnou regresnou funkciou s nezávislou
premennou. Použitie koeficienta už bolo popísané pri využití nástroja „Corellation“.
10 Nie je predmetom skúmania regresnej analýzy
84
Pre praktické potreby marketingového výskumu sa budeme venovať iba
výberovým jednoduchým koeficientom korelácie R a výberovým jednoduchým
koeficientom determinácie R2. Ak sa niekde stretnete s pojmom „Pearsonov
koeficient korelácie“, tak vo väčšine prípadov sa má na mysli práve výberový
jednoduchý koeficient korelácie. Podobne to platí aj s koeficientom determinácie.
Funkcia na výpočet Pearsonovho výberového koeficientu korelácie v MS
Excel – PEARSON. Syntax funkcie PEARSON obsahuje nasledujúce argumenty
(obr. 71):
Pole1 – povinný argument. Množina nezávislých hodnôt.
Pole2 – povinný argument. Množina závislých hodnôt.
Hodnoty argumentov je možné medzi sebou zameniť, výsledok bude
rovnaký.
obr. 71 Argumenty funkcie PEARSON
Rovnaký výsledok ako funkcia PEARSON vráti aj funkcia CORREL. Jej
argumenty sú zhodné s funkciou PEARSON. Rozdiel je iba v metóde výpočtu
Pearsonovho výberového koeficientu korelácie.
85
Funkcia na výpočet výberového koeficientu determinácie R2 v MS Excel –
RSQ. Syntax funkcie RSQ obsahuje nasledujúce argumenty (obr. 72):
Známe_y – povinný argument. Pole alebo rozsah údajových bodov.
Známe_x – povinný argument. Pole alebo rozsah údajových bodov.
obr. 72 Argumenty funkcie RSQ
Niekedy si študenti pletú význam koeficienta R a regresného koeficienta b1.
Pearsonov výberový koeficient korelácie R neinformuje o sklone regresnej
priamky. Rovnaká hodnota koeficientu R môže byť spoločná pre regresné priamky
s rôznym sklonom (obr. 72). Platí to aj opačne. Rôzne hodnoty koeficienta R môžu
byť prislúchať regresným priamkam s rovnakým sklonom.
86
obr. 73 Rozličné závislosti s koeficientom R=0,7
Hodnotu Pearsonovho výberového korelačného koeficientu (aj pre viacero
premenných – viacrozmerná deskriptívna štatistika) môžeme zapísať do tzv.
korelačnej matice. Korelačnú maticu vytvoríme pomocou nástroja „Correlation“,
ktorý je súčasťou „Data Analysis“ (obr. 73).
obr. 74 Okno Data Analysis (Correlation)
87
Po otvorení okna „Correlation“ zadáme do poľa „Input Range“ oblasť
skúmaných premenných. Zadefinujeme, či sú údaje zoskupené v stĺpcoch
(„Columns“) alebo v riadkoch („Rows“). Ak sme vybrali aj názvy stĺpcov (alebo
riadkov) zaznačíme možnosť „Labels in First Row“. S popisom časti „Output
options“ sme sa už stretli.
obr. 75 Okno Correlation
V našom prípade, keď sme zisťovali koreláciu medzi dvoma premennými,
bude korelačná matica vyzerať nasledovne:
tab. 5 Výstup nástroja Correlation – regresná matica
Názvy premenných nie sú v tomto prípade dôležité.
Kontingenčná tabuľka
Kontingenčná tabuľka je interaktívna zostava krížových tabuliek, ktorá
sumarizuje a analyzuje údaje z rôznych zdrojov, vrátane externých zdrojov.
Zmenou riadkov alebo stĺpcov môžeme zobraziť rôzne súhrny údajov štatistického
Nezávislá premenná Závislá premenná
Nezávislá premenná 1
Závislá premenná 0,730400344 1
88
súboru. Tieto údaje môžeme ďalej filtrovať alebo ich zobraziť podrobne. Príklad
jednoduchej kontingenčnej tabuľky demonštruje tab. 6.
tab. 6 Kontingenčná tabuľka
Kontingenčná tabuľka poskytuje interaktívny spôsob rýchleho vytvorenia
súhrnu veľkého množstva údajov. Kontingenčná tabuľka sa používa na podrobnú
analýzu číselných údajov a na získanie odpovedí na ťažko predvídateľné otázky
súvisiace s týmito údajmi. Kontingenčná tabuľka je určená na:
zadávanie dotazov na veľké množstvo údajov rôznymi spôsobmi,
výpočet medzisúčtov a zhromažďovanie číselných údajov, vytváranie
súhrnov údajov podľa kategórií a podkategórií a vytváranie vlastných
výpočtov a vzorcov,
rozbalenie alebo zbalenie jednotlivých úrovní údajov s cieľom zamerať sa
na určitý aspekt výsledkov a zobrazenie podrobností súvisiacich so
súhrnnými údajmi,
premiestňovanie riadkov do stĺpcov alebo stĺpcov do riadkov (tzv.
kontingencia) na zobrazenie rôznych súhrnov zdrojových údajov,
filtrovanie, zoraďovanie, zoskupovanie a podmienené formátovanie
podmnožiny údajov za účelom zamerania pozornosti na požadované
informácie,
prezentáciu zostáv.
Súčet z Cena Mesiac
Tovar január február marec apríl máj Celkový súčet
Produkt 1 250 156 406
Produkt 2 147 250 125 154 676
Produkt 3 325 158 148 631
Celkový súčet 575 305 250 273 310 1713
89
Zostava kontingenčnej tabuľky sa často používa vtedy, keď chceme
analyzovať súvisiace súčty, najmä v prípade, ak máme k dispozícii dlhý zoznam
sčítavaných hodnôt a súhrnné údaje alebo medzisúčty ktoré poskytnú pohľad na
údaje z rôznych perspektív a umožnia porovnávať údaje podobných kategórií. Z
kontingenčnej tabuľky (tab. 6) môžeme jednoducho zistiť, aký je stav celkového
predaja konkrétneho produktu za určitý mesiac v porovnaní s predajom iného
produktu alebo predaja za iný mesiac. Z kontingenčnej tabuľky môžeme tiež
vyčítať celkový predaj jednotlivých produktov.
V kontingenčnej tabuľke sa každý stĺpec alebo pole zdrojových údajov
stáva poľom kontingenčnej tabuľky, ktoré je súhrnom viacerých riadkov informácií.
V predchádzajúcom príklade sa stĺpec „Tovar“ stane poľom „Tovar“ a každý
záznam pre kategóriu „Produkt 1“ sa zhrnie do jedinej položky. Pole „Súčet z cena“
obsahuje hodnoty určené na vytvorenie súhrnu. V predchádzajúcej zostave súhrn
„január“ a „Produkt 1“ obsahuje súčet hodnôt predaja z každého riadka v
zdrojových údajoch, pričom stĺpec „Tovar“ obsahuje „Produkt 1“ a stĺpec „Mesiac“
obsahuje „január“.
Na vytvorenie kontingenčnej tabuľky musíme na karte „Vložiť“ v skupine
„Tabuľky“ vybrať položku „Kontingenčná tabuľka“ (obr. 76). Následne musíme
definovať jej zdrojové údaje, zadať umiestnenie (obr. 77) a vytvoriť rozloženie polí
(obr. 78).
obr. 76 Výber kontingenčnej tabuľky
90
obr. 77 Vstupné údaje kontingenčnej tabuľky
V časti „Vyberte údaje, ktoré chcete analyzovať“ zvolíme položku „Vyberte
tabuľku alebo rozsah“ a potom do poľa „Tabuľka alebo rozsah“ zadáme rozsah
buniek, ktoré chceme použiť na vytvorenie kontingenčnej tabuľky. V časti „Vyberte
umiestnenie, kam chcete vložiť zostavu kontingenčnej tabuľky“ zadáme spôsob jej
umiestnenia. Po potvrdení volieb MS Excel pridá prázdnu kontingenčnú tabuľku do
zadaného umiestnenia a zobrazí zoznam polí kontingenčnej tabuľky. V tomto
zozname môžeme pridávať polia, vytvoriť rozloženie a prispôsobovať kontingenčnú
tabuľku (obr. 78).
Pre pridanie poľa do kontingenčnej tabuľky musíme vykonať niektoré
z nasledujúcich krokov:
pre umiestnenie poľa do predvolenej oblasti sekcie rozloženia, je potrebné
zaškrtnúť políčko vedľa názvu poľa v sekcii polí (podľa predvoleného
nastavenia sa polia, ktoré nie sú číselné, pridajú do oblasti menoviek riadka,
číselné polia sa pridajú do oblasti hodnôt a hierarchie dátumu a času sa
pridajú do oblasti menoviek stĺpca),
91
pre umiestnenie poľa do určitej oblasti sekcie rozloženia, klikneme pravým
tlačidlom myši kliknite na názov poľa v sekcii polí a potom vyberieme
príkaz „Pridať do filtra zostavy“, „Pridať do menoviek stĺpca“, „Pridať do
menoviek riadka“ alebo „Pridať do hodnôt“,
pre umiestnenie poľa do želanej oblasti, klikneme a podržíme tlačidlo myši
na názve poľa v sekcii polí a potom ho presunieme do oblasti v sekcii
rozloženia.
obr. 78 Definovanie polí kontingenčnej tabuľky (sekcia polí a sekcia rozloženia)
Kontingenčný graf
Kontingenčný grafu predstavuje grafické zobrazenie údajov z
kontingenčnej tabuľky, ktorá sa v tomto prípade označuje ako priradená
kontingenčná tabuľka a vytvára sa automaticky počas vytvárania kontingenčného
grafu. Kontingenčný graf je interaktívna forma grafu, čo znamená, že ho možno
92
zoradiť a filtrovať s cieľom zobraziť podmnožiny údajov kontingenčnej tabuľky.
Pri vytváraní kontingenčného grafu sa filtre zobrazia v oblasti grafu. Zmeny
vykonané v rozložení polí a v údajoch priradenej kontingenčnej tabuľky sa
okamžite premietnu do kontingenčného grafu (obr. 80).
Postup tvorby kontingenčného grafu je rovnaký ako tvorba kontingenčnej
tabuľky. Rozdiel spočíva v tom, že nevyberieme priamo na položku „kontingenčná
tabuľka“ ale klikneme na šípku, aby sa zobrazila ponuka na tvorbu kontingenčného
grafu (obr. 79).
obr. 79 Voľba „Kontingenčný graf“
Po zvolení položky „Kontingenčný graf“ pokračujeme spôsobom
popísaným v predchádzajúcej kapitole.
obr. 80 Kontingenčný graf
93
Kontingenčný graf na obr. 80 je vytvorený z tých istých údajov ako
kontingenčná tabuľka (tab. 6). Vzhľad kontingenčného grafu môžeme upraviť
podobne ako vzhľad stĺpcového grafu.
Otázky
1. Aké prostriedky môžeme použiť na opis jednej premennej?
2. O čom pojednáva zásada jednoznačnosti a úplnosti?
3. Z akého dôvodu sa vytvárajú kategórie?
4. Čo zobrazuje frekvenčná tabuľka?
5. Aký graf môžeme použiť na relatívne rozloženie početnosti hodnôt?
6. Aký graf môžeme použiť na absolútne rozloženie početnosti hodnôt?
7. Aký graf sa používa na zobrazenie časových radov?
8. Aký je rozdiel medzi histogramom a stĺpcovým grafom?
9. Vymenujte a definujte opisné charakteristiky.
10. Aké typy opisných charakteristík zobrazuje škatuľový graf?
11. Aké prostriedky môžeme použiť na opis dvoch premenných?
12. Aké grafické vyjadrenie sa používa pri regresnej analýze?
13. Čo charakterizuje Pearsonov výberový koeficient?
14. Ako ovplyvňujú odľahlé hodnoty výsledky regresnej analýzy?
15. Ako sa nazýva priamka zobrazujúca závislosť dvoch premenných?
16. Na čo sa používa kontingenčná tabuľka?
94
Induktívna štatistika a jej základné metódy použiteľné v
marketingu
Aj napriek tomu, že táto učebnica je primárne určená pre zoznámenie sa
s deskriptívnymi štatistickými metódami, bolo by vhodné vysvetliť pojem
induktívna štatistika a predstaviť jej základné metódy.
Pomocou deskriptívnej štatistiky sme mohli opísať existujúci štatistický
súbor (počet, priemer, medián...). Čo sme však nedokázali urobiť bolo to, že na
základe zozbieraných dát sme nemohli stanoviť závery týkajúce sa celej populácie.
Ak aj existujú štúdie, ktoré sa pri stanovení záverov opierajú len o deskriptívnu
štatistiku a tvrdia, že výsledky je možné interpretovať na celú populáciu, nie sú
správne. Bez použitia induktívnej štatistiky nemôžeme naše výsledky zovšeobecniť
na celú populáciu.
Úlohou induktívnej štatistiky je teda na základe informácií, ktoré sme
zozbierali z náhodnej vzorky, urobiť závery o celej populácie (celom štatistickom
súbore, z ktorého bola vzorka vybraná). Na to, aby boli tieto závery relevantné,
musíme na výber vzorky použiť už spomínaný náhodný výber.
Pri induktívnej štatistike sa veľmi často stretávame s pojmom testovanie
hypotéz, štatistická významnosť resp. signifikancia alebo p-hodnota.
Testovanie hypotéz
O štatistickom súbore môžeme mať určité predpoklady, ktoré je možné
overiť tzv. testovaním hypotéz. Každé testovanie hypotéz je zamerané na overenie
základnej hypotézy, tzv. nulovej hypotézy H0. Oproti tejto hypotézy sa stanovuje
tzv. alternatívna hypotéza H1. Cieľom testovania hypotéz je rozhodnutie o prijatí
alebo zamietnutí nulovej hypotézy. Ak na základe testovania hypotéz zamietame
nulovú hypotézu, prijímame hypotézu alternatívnu.
95
Nulová hypotéza vyjadruje určitý predpoklad a musí byť stanovená vopred
bez prihliadnutia k dátovému súboru. Alternatívna hypotéza hovorí, čo platí, keď
neplatí nulová hypotéza. Vo všeobecnosti môžeme tvrdiť, že nulová hypotéza sa
stanovuje ako H0:nie je rozdiel a alternatívna ako H1:je rozdiel.
Pri testovaní hypotéz rozlišujeme dva typy testov:
parametrické,
neparametrické.
Pri použití parametrických testov predpokladáme, že náhodný výber pochádza z
určitého typu rozdelenia (najčastejšie normálneho), ktoré závisí na parametroch.
Neparametrické testy nevyžadujú predpoklad o určitom type rozdelenia, ale
stačí im splnenie len všeobecných podmienok.
Základný postup pri testovaní hypotéz
Pri testovaní hypotéz by sme mali začať najskôr tým, že máme nejaký
predpoklad alebo tvrdenie. Tento výrok chceme následne overiť pomocou dát, ktoré
sme zozbierali do dátového súboru. Otázky, ktorými sa môžeme zaoberať by mohli
vyzerať nasledovne:
Je priemerná mzda mužov vyššia ako žien?
Majú študenti, ktorí žijú v určitej oblasti Slovenska väčšie vreckové ako
študenti v iných oblastiach?
Je priemerná mzda mužov 1000€?
atď.
Na to, aby sme mohli dokázať platnosť nášho tvrdenia, potrebujeme nejaký
prostriedok, ktorý rozhodne o tom, či náš výrok platí alebo nie a „dôkazný
materiál“, na základe ktorého sa rozhodneme. Ako prostriedok na rozhodovanie
použijeme štatistický test a „dôkazný materiál“ budú použité dáta.
96
Pri testovaní nulovej hypotézy voči alternatívnej hypotéze sa však môžeme
dopustiť dvoch chýb:
chyba 1. druhu – H0 zamietame, aj keď v skutočnosti platí,
chyba 2. druhu – H0 nezamietame, aj keď v skutočnosti neplatí.
tab. 7 Chyby testovania hypotéz
SKUTOČNOSŤ
ROZHODNUTIE
H0 nezamietame H0 zamietame
H0 platí správne rozhodnutie chyba 1. druhu
H0 neplatí chyba 2. druhu správne rozhodnutie
Pravdepodobnosť chyby 1. druhu sa označuje ako α a nazýva sa
hladina významnosti testu. Pravdepodobnosť chyby 2. druhu sa ako označuje β.
Číslo 1-β sa nazýva sila testu. Toto číslo vyjadruje pravdepodobnosť, s
akou test vypovie, že H0 neplatí.
Štatistická významnosť
Štatistická významnosť alebo signifikancia spadá do oblasti testovania
hypotéz. Pre lepšie pochopenie uvedieme jednoduchý príklad. V marketingovom
výskume sme zisťovali hypotézu, či je priemerná mzda všetkých respondentov
napr. 800 €. V tomto prípade nestačí len vypočítať aritmetický priemer, ale musíme
zistiť, či je vypočítaná hodnota aj štatisticky významná alebo sa jedná o náhodu.
Práve na to slúži vypočítaná signifikancia, ktorá nás informuje o tom, či prijímame
nulovú hypotézu H0 alebo alternatívnu hypotézu H1. Samotné testovanie hypotéz je
založené na testovacej štatistike (číslo), ktorá je vypočítaná z dát. Podľa tejto
štatistiky sa rozhodujeme, či test vyšiel štatisticky významne alebo nie. Pri každom
97
teste je potrebné zvoliť už spomínanú chybu prvého druhu – α. Z tejto hodnoty sa
stanoví tzv. interval spoľahlivosti. Ak je α=0,05, interval spoľahlivosti je 95%.
Z vypočítanej štatistiky porovnávame, či leží alebo neleží v tomto intervale.
Pre bežné testovanie hypotéz v marketingovom výskume stačí signifikanciu
porovnať s hodnotou 0,05, čo je najbežnejšia hladina testu. Ak je signifikancia
menšia ako táto hodnota, interval testovanú štatistiku nepokrýva a nulovú hypotézu
zamietame. Pokiaľ by bola signifikancia väčšia ako 0,05, potom nulovú hypotézu
nezamietame.
V prípade, že nám stačí iba rozhodnutie, či testovanie hypotéz vyšlo
štatisticky významne, potom signifikancia je jediný ukazovateľ, ktorý potrebujeme.
Výhoda spočíva v tom, že je jedno akú hladinu α si zvolíme. Signifikancia
poskytuje informáciu pre všetky hladiny α. Pokiaľ je signifikancia menšia než
zvolená hladina testu α, tak zamietame nulovú hypotézu, pokiaľ nie, tak nulovú
hypotézu nezamietame.
Dôležité je však vedieť, čo testujeme, resp. čo má daný test potvrdiť alebo
vyvrátiť, t.j. ako znie nulová hypotéza. Pri testovaní normality dát (test normálneho
rozloženia) je nulová hypotéza stanovená tak, že rozdelenie je normálne. Pokiaľ
hypotézu zamietame, znamená to, že dáta normálne rozloženie nemajú.
Často používané testy hypotéz v marketingovom výskume
V marketingovom výskume sa stretávame s rôznymi typmi premenných. Na
rozdiel od výskumov napr. medicínskych, kde prevažujú premenné kvantitatívne
(číselné), v marketingovom výskume sú dominantnejšie premenné kvalitatívne
(slovné).
V marketingovom výskume môžeme použiť testovanie hypotéz v nasledovných
vzorových prípadoch:
testovanie hypotézy o priemere kvantitatívnej premennej (t-test),
98
zistenie, či sú preferencie odpovedí respondentov rovnaké u mužov a žien
(chí-kvadrát test).
Pre testovanie hypotéz je možné použiť a softvér MS EXCEL, ale v tomto
prípade odporúčame siahnuť po profesionálnom štatistickom softvéri.
Otázky
1. Čo je úlohou induktívnej štatistiky?
2. Na čo sa používa testovanie hypotéz?
3. Ako sa nazýva základná hypotéza, ktorú stanovujeme pri testovaní
hypotéz?
4. Voči akej hypotéze stanovujeme základnú hypotézu?
5. Aké základné typy testov hypotéz poznáte?
6. Aký účel má štatistická významnosť (signifikancia)?
7. Je hodnota štatistickej významnosti (signifikancie) závislá od stanovenej
hladiny testu α?
8. Čo je sila testu?
9. Akých chýb sa môžeme dopustiť pri testovaní hypotéz?
10. Aké najčastejšie testy môžeme použiť pri vyhodnocovaní marketingového
výskumu?
99
Určenie veľkosti výberovej vzorky
Výber a určenie veľkosti výberovej vzorky možno považovať za základ
ľubovoľného výskumu. Prvým krokom je rozhodnutie o tom, aký typ
respondentov bude zapojený do výskumu (tzv. cieľová populácia). V prípade
vykonávania výskumu zaoberajúceho sa napr. postom zamestnancov k určitému
problému, cieľovú populáciu nie je ťažké stanoviť. Problém môže nastať v napr.
v prípade snahy o zistenie úspešnosti určitého produktu. V takomto prípade je
určenie cieľovej populácie ťažšie. Správne určenie cieľovej populácie pre
marketingový výskum je veľmi dôležitým bodom. V prípade, že do výskumu
zahrniete nesprávnu cieľovú populáciu, získané výsledky môžu byť skreslené alebo
nesprávne.
Ďalší krok v poradí, je rozhodnutie o tom, aká veľká má byť cieľová
populácia, čiže určenie počtu respondentov, ktorí budú odpovedať na otázky. Malá
reprezentatívna vzorka bude odzrkadľovať názory a postoje skupiny, z ktorej bola
odobratá. Väčšia vzorka už presnejšie reprezentuje cieľovú skupinu. Aj napriek
tomu však miera zlepšenia presnosti pri zvyšovaní veľkosti vzorky klesá. Napríklad
zvýšenie počtu vzorky z 250 na 1000 presnosť zdvojnásobí. Pri voľbe veľkosti
vzorky sa musíme rozhodnúť na základe viacerých faktorov. Medzi najdôležitejšie
patrí:
čas, ktorý máme k dispozícii na realizáciu marketingového výskumu,
rozpočet,
nevyhnutná úroveň spoľahlivosti (štatistické hľadisko).
Rozpočet niekedy potiera všetky ostatné faktory. Vo viacerých prípadoch,
kedy sa študenti snažia vo svojich záverečných prácach robiť marketingový
„výskum“, neberú do úvahy prvé dva faktory. Bez rozmýšľania a pochopenia
100
dosadia do vzorca na výpočet veľkosti výberovej vzorky11
štandardné údaje
a zistené číslo považujú za smerodajné. Omnoho väčší význam by malo, ak by na
problém veľkosti vzorky pozreli opačným smerom a zistili by, s akým intervalom
spoľahlivosti12
prezentujú svoje výsledky. Tento pohľad má význam aj
z praktického hľadiska, kedy sa veľkosť vzorky stanovuje na základe dostupných
finančných prostriedkov vyčlenených na výskum.
Terminológia pri určovaní veľkosti výberovej vzorky
Existujú tri faktory, ktoré určujú veľkosť intervalu spoľahlivosti pre danú
hladinu spoľahlivosti. Jedná sa o:
veľkosť vzorky,
percento vzorky, ktoré si vybralo konkrétne odpovede,
veľkosť populácie.
Veľkosť vzorky
Čím väčšia je vzorka, tým si môžeme byť istejší v tom, že odpovede budú
skutočne odrážať stanovisko celej populácie. Pre zvolenú hladinu spoľahlivosti to
znamená, že čím bude veľkosť vzorky väčšia, tým menší bude interval
spoľahlivosti. Tento vzťah však nie je lineárny (t.j. zdvojnásobenie veľkosti vzorky
nezmenší interval spoľahlivosti o polovicu).
Percento vzorky, ktoré si vybralo konkrétne odpovede (podiel znaku)
Presnosť tiež závisí na percente vzorky, ktorá si zvolila konkrétnu odpoveď.
Ak 99% vzorky odpovedalo „Áno“ a iba 1% odpovedalo „Nie“, pravdepodobnosť
chybného rozhodnutia je malá bez ohľadu veľkosť vzorky. Ak sú však odpovede
11 Pozri kapitolu Výpočet veľkosti výberovej vzorky
12 Pozri kapitolu Terminológia pri určovaní veľkosti výberovej vzorky
101
rozdelené napr. v pomere 51% a 49%, pravdepodobnosť chybného rozhodnutia je
oveľa väčšia.
Pri stanovení veľkosti vzorky potrebnej pre danú úroveň presnosti musíme
použiť percento najhoršieho prípadu, aký môže nastať (50%). Túto hodnotu
použijeme aj vtedy, ak chceme určiť všeobecnú úroveň presnosti pre vzorku, ktorú
už máme k dispozícii (nepoznáme hodnoty pre zistenie podielu znaku).
Veľkosť populácie
Veľkosť populácie môže byť chápaná ako napr. počet obyvateľov mesta
ktoré skúmame, počet ľudí ktorí si kupujú nové auto, atď. Vo väčšine prípadov ale
nemusíme poznať presnú veľkosť populácie. Matematická pravdepodobnosť
dokazuje, že veľkosť populácie je irelevantná, pokiaľ nie je veľkosť vzorky väčšia
ako niekoľko percent z celkového počtu štatistických jednotiek, ktoré skúmame. To
znamená, že vzorka 500 respondentov je rovnako užitočná pri skúmaní názorov
v populácii 15000000 štatistických jednotiek ako aj v populácii 100000
štatistických jednotiek. Z tohto dôvodu sa veľkosť populácie ignoruje, ak je veľmi
veľká alebo neznáma. Veľkosť populácie môže vystupovať ako faktor pri výskume
relatívne malej a známej skupiny štatistických jednotiek (napr. členovia združenia).
Pri výpočte intervalu spoľahlivosti predpokladáme, že výber vzorky bol
náhodný. Ak výber vzorky nie je náhodný, interval spoľahlivosti môže byť
nepresný. Nenáhodný výber vzorky v sebe nesie určitú chybu vyplývajúcu z výberu
vzorky. Príkladom takejto chyby môže byť to, že napr. pri telefonickom dopytovaní
počas pracovnej doby sa nemusíte dovolať potenciálnemu respondentovi.
Nemôžeme teda skonštatovať, že nepracujúca populácia reprezentuje celú
(pracujúcu a nepracujúcu) populáciu.
102
Interval spoľahlivosti
Interval spoľahlivosti je číslo (plus-mínus) ktoré môže byť deklarované
napr. ako výsledok výskumu verejnej mienky. Ak používame interval spoľahlivosti
5% (0,05) a vieme, že 44% respondentov odpovedalo na otázku „áno“, potom
môžeme tvrdiť, že pri položení tej istej otázky celej populácii si odpoveď „áno“
vyberie medzi 39% (44-5) a 49% (44+5) respondentov celej populácie.
Úroveň spoľahlivosti
Úroveň spoľahlivosti nám hovorí o tom, ako istí si môžeme byť tvrdeniami
alebo výrokmi. Je vyjadrená v percentách a predstavuje koľko respondentov by si
vybralo odpoveď ležiacu v intervale spoľahlivosti. 95% úroveň spoľahlivosti
znamená, že si môžeme byť istí na 95%, 99% hladina spoľahlivosti zase
znamená, že si môžeme byť istí na 99%. Vo väčšine prípadov výskumných
štúdií sa používa 95% hladina spoľahlivosti.
Interval spoľahlivosti a hladinu spoľahlivosti môžeme použiť aj
spoločne. Potom môžeme tvrdiť, že sme si na 95% istí tým, že pri položení tej
istej otázky celej populácii si odpoveď „áno“ vyberie medzi 39% a 49%
respondentov celej populácie.
Výpočet veľkosti výberovej vzorky
Na výpočet veľkosti výberovej vzorky slúži jednoduchý vzťah. Je však
veľmi dôležité správne pochopenie jednotlivých parametrov, ktoré do vzťahu
vstupujú.
𝑛 =𝑍2∗𝑝∗(1−𝑝)
𝐶2 (20)
kde:
n – veľkosť výberovej vzorky
103
Z – Z hodnota, dosadzujúca sa zo štatistických tabuliek. Pre úroveň spoľahlivosti
95% je Z hodnota rovná 1,96, pre 99% úroveň spoľahlivosti sa rovná 2,58.
p – podiel znaku, pri neznámych hodnotách je p=0,5
c – prípustné rozpätie chýb, v bežnom marketingovom výskume sa stanovuje od 2%
do 10%.
Podiel znaku charakterizuje šikmosť rozdelenia populácie. V prípade, že
nedisponujeme touto informáciou, dosadená hodnota 0,5 nám vráti najväčšiu
veľkosť vzorky.
Napr. pre úroveň spoľahlivosti 95%, prípustné rozpätie chýb 5% a podiel
znaku 0,5 je minimálna veľkosť vzorky 384 respondentov. Tento vzorec však
môžeme použiť len vtedy, ak nepoznáme veľkosť celej populácie. Pri bližšom
skúmaní jeho parametrov zistíme, že veľkosť populácie nie je zohľadnená.
V prípade, že veľkosť populácie poznáme, môžeme prísť k záveru, že
predchádzajúci vzťah nám vráti toľko respondentov, koľko neobsahuje celá
populácia (napr. zamestnanci malého podniku). V takom prípade musíme zohľadniť
veľkosť populácie a vypočítať korekciu pre celkovú populáciu.
𝑛𝑘𝑜𝑟 =𝑛
1+𝑛−1
𝑝𝑜𝑝
(21)
kde:
n – veľkosť výberovej vzorky bez zohľadnenia veľkosti populácie
pop – veľkosť populácie
Napr. pri známej veľkosti populácie 100 nám k realizácii marketingového
výskumu postačuje 80 respondentov (v závislosti od parametrov, ktoré sme použili
v predchádzajúcom vzťahu na výpočet veľkosti vzorky).
104
Otázky
1. Aké faktory vplývajú na veľkosť výberovej vzorky?
2. K akému účelu sa používa zistenie o veľkosti výberovej vzorky?
3. Aký je rozdiel medzi populáciou a výberovou vzorkou?
4. Čo charakterizuje podiel znaku vo vzorci na výpočet veľkosti výberovej vzorky?
5. Kedy musíme využiť vzorec pre korekciu pre celkovú populáciu?
105
Dolovanie dát – vytváranie pokročilých analýz
V súvislosti s vytváraním rozličných predikcií v marketingu je potrebné
aspoň spomenúť oblasť, ktorá významne prispieva k získaniu plnohodnotnejších
výsledkov.
Dolovanie dát je proces analýzy dát z rôznych perspektív a ich premena na
užitočné informácie. Z matematického a štatistického hľadiska ide o hľadanie
korelácií, teda vzájomných vzťahov alebo vzoriek v dátach.
Modely dolovania dát využívajú niektoré štatistické metódy, hlavne
koreláciu, lineárnu a logistickou regresiu, diskriminačnú analýzu a metódy
predpovedania. Zložitejšie postupy sú realizované pomocou neurónových sietí
alebo genetických algoritmov.
Marketingový sektor poskytuje veľké možnosti nasadenia rozličných metód
a algoritmov dolovania dát. Jednou z nich je použitie asociačných pravidiel v tzv.
analýze nákupného košíka. Tieto asociácie dokážu identifikovať vzťahy medzi
produktmi, ktoré spotrebiteľ nakupuje. Z výsledkov je potom možné stanoviť
postupnosti, ktoré môžu dopomôcť k lepšiemu predaju produktov a lepšiemu
zacieleniu marketingovej kampane.
Cieľom analýzy nákupného košíka je identifikovať produkty alebo skupiny
produktov, ktoré majú tendenciu vyskytovať sa spoločne (sú asociované) v
nákupnej transakcii. Inak povedané, v nákupnom košíku. Poznatky získané z
analýzy nákupného košíka môžu byť veľmi cenné. Napríklad zamestnanci
supermarketov môžu reorganizovať rozloženie tovaru tak, aby produkty ktoré sa
predávajú spolu boli umiestnené blízko seba. Iné využitie je na zlepšenie účinnosti
propagačnej kampane – produkty ktoré sú asociované nesmú byť súčasne v
kampani. Stačí, keď bude v kampani podporovaný len jeden výrobok a následne
môžeme predpokladať, že sa zvýši aj predaj asociovaných výrobkov.
106
Na obrázku 81 je zobrazený model, pomocou ktorého môžeme vykonať
analýzu nákupného košíka.
obr. 81 Model dolovania dát pre vykonanie analýzy nákupného košíka
107
Prehľad štatistických funkcií v MS Excel
Názov funkcie Popis funkcie
AVEDEV Vráti priemernú hodnotu absolútnych odchýlok údajových bodov od ich
priemeru
AVERAGE Vráti priemernú hodnotu argumentov
AVERAGEA Vráti priemernú hodnotu argumentov vrátane čísel, textu a logických
hodnôt
AVERAGEIF Vráti priemer (aritmetický priemer) buniek v rozsahu spĺňajúcich zadané
kritériá
AVERAGEIFS Vráti priemernú hodnotu (aritmetický priemer) všetkých buniek, ktoré
spĺňajú viacero kritérií
BETA.DIST Vráti hodnotu distribučnej funkcie rozdelenia pravdepodobnosti beta
BETA.INV Vráti inverznú hodnotu distribučnej funkcie pre určené rozdelenie
pravdepodobnosti beta
BINOM.DIST Vráti hodnotu binomického rozdelenia pravdepodobnosti jednotlivých
veličín
BINOM.INV Vráti najmenšiu hodnotu, pre ktorú má distribučná funkcia binomického
rozdelenia hodnotu väčšiu alebo rovnajúcu sa hodnote kritéria
CHISQ.DIST Vráti hodnotu funkcie kumulatívnej hustoty pravdepodobnosti beta
CHISQ.DIST.RT Vráti jednostrannú pravdepodobnosť pre rozdelenie chí-kvadrát
CHISQ.INV Vráti hodnotu funkcie kumulatívnej hustoty pravdepodobnosti beta
CHISQ.INV.RT Vráti hodnotu funkcie inverznej k funkcii jednostrannej pravdepodobnosti
rozdelenia chí-kvadrát
CHISQ.TEST Počíta test nezávislosti
CONFIDENCE.NORM Vráti interval spoľahlivosti pre strednú hodnotu základného súboru
CONFIDENCE.T Vráti hodnotu intervalu spoľahlivosti pre strednú hodnotu populácie so
Studentovým t-rozdelením
CORREL Vracia korelačný koeficient pre dva súbory údajov
COUNT Spočíta počet čísel v zozname argumentov
COUNTA Spočíta počet hodnôt v zozname argumentov
COUNTBLANK Spočíta počet prázdnych buniek v rozsahu
COUNTIF Spočíta bunky v rozsahu, ktoré zodpovedajú daným kritériám
COUNTIFS Spočíta bunky v rozsahu, ktoré zodpovedajú viacerým kritériám
108
Názov funkcie Popis funkcie
COVARIANCE.P Vracia hodnotu kovariancie, priemernú hodnotu súčinu párových odchýlok
COVARIANCE.S Vráti vzorovú kovarianciu, čiže priemer odchýlok produktov pre jednotlivé
páry údajových bodov v dvoch množinách údajov
DEVSQ Vráti súčet druhých mocnín odchýlok
EXPON.DIST Vráti hodnotu distribučnej funkcie alebo hustoty exponenciálneho
rozdelenia
F.DIST Vráti hodnotu rozdelenia pravdepodobnosti F
F.DIST.RT Vráti hodnotu rozdelenia pravdepodobnosti F
F.INV Vráti hodnotu inverznej funkcie k distribučnej funkcii rozdelenia
pravdepodobnosti F
F.INV.RT Vráti inverznú hodnotu hodnoty rozdelenia pravdepodobnosti F
F.TEST Vráti výsledok F-testu
FISHER Vráti hodnotu Fisherovej transformácie
FISHERINV Vráti hodnotu inverznej funkcie k Fisherovej transformácii
FORECAST Vráti hodnotu lineárneho trendu
FREQUENCY Vráti rozdelenie početnosti ako zvislé pole
GAMMA.DIST Vráti hodnotu distribučnej funkcie alebo hustoty rozdelenia gama
GAMMA.INV Vráti hodnotu inverznej funkcie k distribučnej funkcii rozdelenia gama
GAMMALN Vráti prirodzený logaritmus funkcie gama Γ(x)
GAMMALN.PRECISE Vráti prirodzený logaritmus funkcie gama, Γ(x)
GEOMEAN Vráti geometrický priemer
GROWTH Vráti hodnoty exponenciálneho trendu
HARMEAN Vráti harmonický priemer
HYPGEOM.DIST Vráti hodnotu hypergeometrického rozdelenia
INTERCEPT Vypočíta súradnice prieniku priamky lineárnej regresie
KURT Vráti špicatosť množiny údajov
LARGE Vráti k-tu najväčšiu hodnotu v množine údajov
LINEST Vráti parametre lineárneho trendu
LOGEST Vráti parametre exponenciálneho trendu
LOGNORM.DIST Vráti hodnotu distribučnej funkcie lognormálneho rozdelenia
LOGNORM.INV Vracia inverznú funkciu ku kumulatívnej funkcii lognormálneho rozdelenia
MAX Vráti najvyššiu hodnotu zo zoznamu argumentov
109
Názov funkcie Popis funkcie
MAXA Vráti najvyššiu hodnotu zo zoznamu argumentov vrátane čísel, textu a
logických hodnôt
MEDIAN Vráti medián daných čísel
MIN Vráti najnižšiu hodnotu zo zoznamu argumentov
MINA Vráti najnižšiu hodnotu zo zoznamu argumentov vrátane čísel, textu a
logických hodnôt
MODE.MULT Vráti zvislé pole najčastejšie sa vyskytujúcich alebo opakujúcich hodnôt v
poli alebo v rozsahu údajov
MODE.SNGL Vráti hodnotu, ktorá sa v množine údajov vyskytuje najčastejšie
NEGBINOM.DIST Vráti hodnotu záporného binomického rozdelenia
NORM.DIST Vráti hodnotu distribučnej funkcie normálneho rozdelenia
NORM.INV Vráti inverznú funkciu k distribučnej funkcii normálneho rozdelenia
NORM.S.DIST Vráti hodnotu distribučnej funkcie štandardného normálneho rozdelenia
NORM.S.INV Vráti inverznú funkciu k distribučnej funkcii štandardného normálneho
rozdelenia
PEARSON Vráti Pearsonov koeficient korelácie
PERCENTILE.EXC Vráti k-ty percentil hodnôt v rozsahu, kde k je z otvoreného intervalu 0..1
PERCENTILE.INC Vráti k-ty percentil hodnôt v rozsahu
PERCENTRANK.EXC Vráti pozíciu hodnoty v množine údajov ako percentuálnu hodnotu
(hodnotu väčšiu ako 0 a menšiu ako 1) množiny údajov
PERCENTRANK.INC Vráti percentuálne poradie hodnoty v množine údajov
PERMUT Vráti počet permutácií pre daný počet objektov
POISSON.DIST Vráti hodnoty Poissonovho rozdelenia
PROB Vráti pravdepodobnosť s akou sa hodnoty v rozsahu nachádzajú medzi
dvoma hranicami
QUARTILE.EXC Vráti kvartil množiny údajov na základe hodnôt percentilov, ktoré sú väčšie
ako 0 a menšie ako 1
QUARTILE.INC Vráti kvartil množiny údajov
RANK.AVG Vráti relatívnu veľkosť čísla v zozname čísel
RANK.EQ Vráti pozíciu čísla v zozname čísel
RSQ Vráti druhú mocninu Pearsonovho koeficientu korelácie
SKEW Vráti šikmosť rozdelenia
SLOPE Vráti gradient priamky lineárnej regresie
110
Názov funkcie Popis funkcie
SMALL Vráti k-tu najmenšiu hodnotu v množine údajov
STANDARDIZE Vráti normalizovanú hodnotu
STDEV.P Vypočíta smerodajnú odchýlku základného súboru
STDEV.S Odhadne smerodajnú odchýlku na základe vzorky
STDEVA Odhadne smerodajnú odchýlku na základe vzorky vrátane čísel, textu a
logických hodnôt
STDEVPA Vypočíta smerodajnú odchýlku základného súboru vrátane čísel, textu a
logických hodnôt
STEYX Vráti štandardnú chybu predpokladanej hodnoty y pre každé x v regresii
T.DIST Vráti percentuálne body (pravdepodobnosť) pre Studentovo t-rozdelenie
T.DIST.2T Vráti percentuálne body (pravdepodobnosť) pre Studentovo t-rozdelenie
T.DIST.RT Vráti hodnotu Studentovho t-rozdelenia
T.INV Vráti ľavostranné inverzné Studentovo t-rozdelenie
T.INV.2T Vráti obojstranné inverzné Studentovo t-rozdelenie
TREND Vráti hodnoty lineárneho trendu
TRIMMEAN Vráti priemernú hodnotu vnútornej časti množiny údajov
T.TEST Vráti pravdepodobnosť súvisiacu so Studentovým t-testom
VAR.P Vypočíta rozptyl základného súboru
VAR.S Odhadne rozptyl na základe vzorky
VARA Odhadne rozptyl na základe vzorky vrátane čísel, textu a logických hodnôt
VARPA Vypočíta rozptyl základného súboru vrátane čísel, textu a logických hodnôt
WEIBULL.DIST Vráti hodnotu distribučnej funkcie alebo hustoty Weibullovho rozdelenia
Z.TEST Vráti jednostrannú hodnotu pravdepodobnosti z-testu
111
Záver
Štatistika je nám nápomocná v rozličných vedných oblastiach. Výnimku
netvorí ani oblasť spracovanie marketingového výskumu. V praxi sa môžeme
stretnúť s prípadmi, kedy pracovníci marketingového oddelenia prehlasujú, že
vykonali plnohodnotný marketingový výskum. Po zbežnom nahliadnutí do takýchto
výskumov nezostáva nič iné, len suché konštatovanie – toto nie je marketingový
výskum. V tom lepšom prípade sa jedná iba prieskum. S marketingovým
prieskumom sa bežne stretávame v médiách, keď čítame články o tom, koľko
percent opýtaných respondentov odpovedalo áno, aké majú vzdelanie, akú politickú
stranu by volili... Pri marketingovom výskume si však s takýmto strohým
konštatovaním nevystačíme. Tu je potrebné stanoviť závery, ktoré môžu byť
aplikovateľné pre celú populáciu, nie len pre respondentov, ktorí boli z populácie
vybraní na základe určitých pravidiel.
Vysokoškolská učebnica ponúka základný pohľad na štatistické metódy,
ktoré môžeme použiť pri vyhodnocovaní marketingových výskumov. Každá
metóda je dôkladne popísaná ako na teoretickej úrovni, tak aj na praktickej. Z toho
vyplýva, že študent po naštudovaní by nemal robiť základné chyby pri výbere
vhodnej štatistickej metódy.
Ako príklad nesprávneho použitia štatistických metód pre vyhodnotenie
marketingového výskumu by sme spomenuli napríklad využitie regresnej analýzy
a korelačnej analýzy na dátach, ktoré vykazovali časovú periodicitu.
V marketingovom výskume bola použitá nesprávna štatistická metóda a teda aj
výsledky boli interpretované nesprávne.
Na záver zostáva len dúfať, že podobných nezmyslov bude pri
vyhodnocovaní marketingových výskumov čo najmenej a k tomu dopomôže táto
učebnica.
112
Resumé
Vysokoškolská učebnica s názvom „Základné štatistické metódy
marketingového výskumu“ si kladie za cieľ oboznámenie študenta so štatistickými
postupmi použiteľnými pri spracovaní dát v marketingovom výskume. Samotný
marketingový výskum musí byť realizovaný systematicky, na základe vopred
určeného plánu. Učebnica sa nezameriava na celý proces marketingového výskumu,
ale zrozumiteľnou formou vysvetľuje metódy a postupy pri spracovaní
a vyhodnotení dát pomocou štatistických metód.
Po pochopení základných pojmov zo štatistiky je študentovi predostretý
celý rad deskriptívnych štatistických metód, pomocou ktorých dokáže
marketingový výskum vyhodnotiť. Aby sme nezostali len pri planom popise
premenných v dátovom súbore, študent sa dozvie ako a akým spôsobom vytvorí
jednoduché analýzy, pomocou ktorých dokáže nájsť skryté súvislosti (napr. krížové
tabuľky, korelačná analýza, regresná analýza).
Pomocou induktívnej štatistiky je zase možné využiť testovanie hypotéz
a marketingový výskum obohatiť o výsledky štatistickej významnosti. V učebnici
sme sa tejto forme vyhodnotenie dát venovali len stručne, pretože vyžaduje
podrobnejšie znalosti zo štatistiky. Aj napriek tomu dúfame, že sa nám podarilo
induktívnu štatistiku vysvetliť tak, že prípadný záujemca o jej štúdium po prečítaní
učebnice nadobudne základné vedomosti z tejto oblasti. Nevenovali sme sa tzv.
neparametrickým testom, pretože predpokladáme, že reálny marketingový výskum
prinesie toľko dát, že ich použitie nebude nutné.
V neposlednom rade treba spomenúť aj časť štatistických výpočtov, ktoré
sa používajú pri zistení veľkosti vzorky. Niekedy môžu mať študenti problém
s pochopením pojmu veľkosť populácie a veľkosť vzorky. Pri výbere vhodnej
metódy na výpočet veľkosti vzorky je potrebné brať do úvahy fakt, či poznáme
alebo nepoznáme veľkosť populácie z ktorej chceme vybrať vzorku. Aj keď sme sa
113
snažili vysvetliť základné metódy a postupy bez použitia vzorcov, v prípade určenia
veľkosti vzorky sa im nevyhneme. Jedná sa však len o jednoduché vzorce, ktorých
pochopenie vedie k správnemu určeniu veľkosti vzorky.
Ako základný štatistický nástroj, ktorým disponuje väčšina študentov, bol
použitý softvér MS EXCEL. Aj napriek jeho jednoduchosti a spoľahlivosti,
odporúčame pri realizácii komplexnejších marketingových výskumov používať
profesionálne štatistické softvéry.
114
Zoznam bibliografických zdrojov
Foret Miroslav. Marketingový průzkum: Poznávame svoje zákazníky. Computer
Press, 2008. 121s., ISBN 978-80-251-2183-2
Gavora Peter, et al. Elektronická učebnica pedagogického výskumu. [on-line].
Univerzita Komenského, 2010. Dostupné na: http://www.e-
metodologia.fedu.uniba.sk ISBN 978-80-223-2951-4.
Horálek Vratislav, et al. Základní statistické výpočty s podporou Microsoft Excel.
Česká společnost pro jakost, 2001. 176 s., ISBN 80-02-01427-8
Chajdiak Jozef. Štatistika jednoducho. Statis, 2010. 194 s., ISBN 978-80-85659-60-
3
Chajdiak Jozef. Štatistika v Exceli 2007. Statis, 2009. 304 s., ISBN 978-80-85659-
49-8
Kozel Roman, et al. Moderní marketingový výzkum. Grada, 2006. 277 s., ISBN 80-
247-0966-X
Kozel Roman, Mynářová Lenka, Svobodová Hana. Moderní metody a techniky
marketingového výzkumu. Grada, 2011. 304 s., ISBN 978-80-247-3527-6
Lacko Ľuboslav: Business Inteligence v SQL Serveru 2005: Reportovací,
analytické a další datové služby. Computer Press, 2006, 391 s., ISBN 80-251-1110-
5
Larose Daniel: Discovering Knowledge in Data: An Introduction to Data Mining,
John Wiley, 2005, 222 s., ISBN 0-471-66657-2
Pacáková Viera, et al. Štatistické metódy pre ekonómov. Iura Edition, 2009. 411 s.,
ISBN 978-80-8078-284-9
Punch F. Keith. Základy kvantitativního šetření. Portál, 2008. 151 s., ISBN 978-80-
7367-381-9
115
Půlpán Zdeněk. Odhad informace z dat vágní povahy. Academia, 2012. 198 s.,
ISBN 978-80-200-2076-5
Rimarčík Marián. Štatisitika pre prax. 2007. 200 s., ISBN 978-80-969813-1-1
Šoltés Erik. Regresná a korelačná analýza s aplikáciami. Iura Edition, 2008. 287 s.,
ISBN 978-80-8078-163-7
Tošenovský Josef, Dudek Martin. Základy statistického zpracování dat. VŠB –
Technická Univerzita Ostrava, 2006. 82 s., ISBN 80-248-0006-3
Turčan Matěj, et al. Statistika. VŠB – Technická Univerzita Ostrava, 2002. 170 s.,
ISBN 80-248-0131-0
Trnka Andrej. Asociačné pravidlá dolovania dát v marketingu. In: Nové trendy v
marketingu : spoločenská zodpovednosť : zborník z medzinárodnej vedeckej
konferencie organizovanej v Kongresovom centre SAV na Smolenickom zámku v
dňoch 6. - 7. novembra 2012 / Jozef Matúš, Dana Petranová. - Trnava : Fakulta
masmediálnej komunikácie, Univerzita sv. Cyrila a Metoda v Trnave, 2012. - ISBN
978-80-8105-438-9, s. 274-282.
Zoznam elektronických zdrojov
Correlation Coefficients. [on-line]. Dostupné na
http://www.jerrydallal.com/LHSP/corr.htm
Korelácie. [on-line]. Dostupné na
http://www.fhpv.unipo.sk/cvt/statistika/stbasic2.htm
Miles Jeremy. Regression with Microsoft Excel. [on-line]. Dostupné na
http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/excel
Nápověda a postupy k aplikaci Excel. [on-line]. Dostupné na:
http://office.microsoft.com/cs-cz/excel-help
116
Sample Size Methodology and Optimization for Market Research Surveys. [on-
line]. Dostupné na: http://macorr.com/sample-size-methodology.htm
Statistics Picture Book. [on-line]. Dostupné na
https://statisticspicturebook.wordpress.com/tag/population/
Statsoft. Nebojte se p-hodnot! [on-line]. Dostupné na
http://www.statsoft.cz/file1/PDF/newsletter/2014_06_26_StatSoft_Nebojte_se_p-
hodnot.pdf
Statsoft. Pohádkový soudní proces. [on-line]. Dostupné na
http://www.statsoft.cz/file1/PDF/newsletter/2012_12_10_StatSoft_Soudni_proces.p
df
Štatistické funkcie. [on-line]. Dostupné na: http://office.microsoft.com/sk-sk/excel-
help/statisticke-funkcie-odkaz-HP010342920.aspx
Štatistický úrad SR. Revidované údaje HDP za roky 1995 - 2010 v bežných cenách.
Dostupné na http://portal.statistics.sk/showdoc.do?docid=44189
Toleranční analýza lineárních rozměrových řetězců. [on-line]. Dostupné na:
http://www.mitcalc.cz/doc/tolanalysis1d/help/cz/tolanalysis1d.htm
Základné štatistické metódy marketingového výskumu
Autor: Ing. Andrej Trnka, PhD.
Recenzenti: prof. Ing. Pavol Tanuška, PhD.
prof. Ing. Anna Zaušková, PhD.
Vydala: Fakulta masmediálnej komunikácie, Univerzita sv. Cyrila a Metoda v Trnave
Náklad: 150 ks
Počet strán: 116
ISBN 978-80-8105-768-7