Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
EXCEL pielietojumi statistikā
EXCEL satur ļoti daudz līdzekļu, ko var izmantot statistikā. Visu līdzekļu grupu, kas ir
paredzēta datu apstrādei ar statistikas metodēm var sadalīt divās grupās:
Data Analysis Tools un Statistical Functions.
Data Analysis Tool satur 18 apakšprogrammas, kas ir domātas dažādu veidu pielietojumiem
statistikā. Data Analysis Tool ir Analysis ToolPak sastāvdaļa, kas atrodas Add-ins menu.
Programmas, kas atrodas Add-ins menu, palielina EXCEL iespējas.
Lai izmantotu Data Analysis Tools, vispirms jāskatās Tools menu. Ja Tools menu satur
komponenti Data Analysis…, tad Data Analysis Tools ir instalēts uz datora un ir gatavs darbam. Ja
Tools menu nesatur komponenti Data Analysis…, tad jāizvēlas Add-ins no Tools menu. Ja uz ekrāna
būs redzama komponente Analysis ToolPak, tad to vajag atzīmēt ar peles kursoru un nospiest Ok.
Ja komponenti Data Analysis ir izvēlēta no Tools menu, tad uz ekrāna būs redzams saraksts,
kas satur dažādu veidu apakšprogrammas, kuras var izmantot datu apstrādē. Aplūkosim dažādas
apakšprogrammas šajā sarakstā:
(a) Histogram. Šī programma ir paredzēta biežumu u relatīvo biežumu aprēķināšanai, kā arī poligona
konstruēšanai.
(b) Descriptive Statistics. Ar šīs programmas palīdzību ir iespējams aprēķināt gadījuma lieluma
skaitliskos raksturotājus, piemēram, vidējo vērtību, dispersiju, standartnovirzi, modu, mediānu un
citus rādītājus.
(c) Regression. Šī programma izpilda vienfaktoru vai daudzfaktoru regresējas analīzi.
EXCEL satur arī daudz dažāda veida funkciju. Funkcijas ir sadalītas pa grupām, piemēram,
Financial, Math&Trig, un tā tālāk. Aplūkosim tikai funkcijas no statistiskas grupas: Statistical.
Vienu un to pašu rezultātu var dabūt, izmantojot vai nu Data Analysis Tools, vai funkcijas no
statistikas grupas. Visbiežāk izmantotās funkcijas no Statistical grupas ir šādas:
Average – aprēķina vidējo vērtību;
Median - aprēķina mediānu;
Mode - aprēķina modu;
Count - aprēķina izlases apjomu;
Frequency – aprēķina radītāja biežumu katrā intervālā;
Stdev- aprēķina izlases standartnovirzi (saucējā ir n-1, kur n ir izlases apjoms);
Stdevp- aprēķina ģenerālās kopas standartnovirzi (saucējā ir N, kur N ir ģenerālās kopas
elementu skaits);
Var - aprēķina izlases dispersiju (saucējā ir n-1, kur n ir izlases apjoms);
1
Varp- aprēķina ģenerālās kopas dispersiju (saucējā ir N, kur N ir ģenerālās kopas elementu
skaits);
Max- aprēķina maksimālo vērtību skaitļu kopā;
Min- aprēķina minimālo vērtību skaitļu kopā.
Lai izmantotu vienu no minētajām funkcijām, vispirms jāizvēlas Function Wizard komponenti
(tā ir apzīmēta ar simbolu ). Pēc tam jāizvēlas kategoriju Statistical un no šīs
kategorijas ir iespējams izvēlēties jebkuru no iepriekš minētajām funkcijām.
1. piemērs. Pieņemsim, ka vides aizsardzības dienests pārbauda ūdens kvalitāti Baltijas jūrā
netālu no Ventspils. Dažādos gadījumos tiek konstatēts, ka ūdens satur naftas pilienus.
Laika intervāli (minūtēs) starp pārbaudēm, kas satur pilienus, ir parādīti tabulā 1.
Tabula 1.
33 17 16 4 3 1 7 5 37 1531 2 22 20 36 6 64 16 45 330 8 31 11 1 2 24 38 14 4118 48 19 1 21 73 20 28 19 5
Izlases apjoms n=40. Lai raksturotu laika intervālu X, var konstruēt statistisko sadalījumu,
izmantojot visas 40 vērtības. Dažos gadījumos tas nav ērti (ja izlases apjoms ir pietiekami liels). Šajos
gadījumos gadījuma lieluma X vērtības sadala grupās vai intervālos. Parasti izmanto no 5 līdz 15
intervāliem. Visiem intervāliem ir viens un tas pats garums. Izvēlēsimies 5 intervālus un pieņemsim,
ka katra intervāla garums ir 15 minūtes. Rezultātā konstruēsim tabulu 3.2.
Tabula 2.
Intervāli Relatīvie biežumi (%)0≤x<15 37.515≤x<30 32.530≤x<45 20.045≤x<60 5.060≤x<75 5.0
Relatīvos biežums var aprēķināt šādi. Aplūkosim intervālu 0≤x<15 un atradīsim visu x vērtību
skaitu, kas nepārsniedz 15 minūtes. Var pārbaudīt, ka šo vērtību skaits ir 15. Tādējādi relatīvo biežumu
wi, kas atbilst intervālam 0≤x<15 var aprēķināt šādi:
jeb 37,5%. Analogi aprēķināsim pārējos elementus tabulā 3.2.
Aplūkosim, kā var konstruēt histogrammu un poligonu, izmantojot EXCEL Data Analysis
Tools. Lai konstruētu biežumu sadalījumu, ir nepieciešams uzrādīt 1) intervālu skaitu, 2) intervāla
garumu un 3) pirmā intervāla sākuma vērtību. EXCELā intervālus sauc ar vārdu “bins”. Ja “bins” nav
uzrādīts, tad EXCEL aptuveni aprēķinās intervālu skaitu kā kvadrātsakni no izlases apjoma. Katra
2
intervāla garums ir vienāds ar starpību starp izlases maksimālo un minimālo vērtību dalīts ar intervālu
skaitu.
Pirmkārt, ierakstīsim visus skaitļus no Tabulas 1.; piemēram, pirmajā kolonnā EXCEL tabula,
tad izlases adrese tabulai ir A1:A40. Lai sakārtot augošā secībā (konstruēt variācijas rindu) jāizmanto
pogu Sort Ascending.(sk. 1.zīm)
1.zīm.
Pieņemsim, ka intervālu skaits ir 5 un katra intervāla garums ir 15 minūtes. Ierakstīsim,
piemēram, otrā kolonnā skaitļus 14, 29, 44, 59, 74 sākot ar šūnu B1, tad šo skaitļu (“bins”) adrese būs
B1:B5. Izmantojot elementus otrajā kolonnā, EXCEL konstruēs intervālus (x≤14), (14<x≤29), (29<x
≤44), (44<x ≤59) un (59<x ≤74). Kā var redzēt, šajā gadījumā intervāli pilnīgi sakrīt ar intervāliem
tabula 3.2. EXCEL konstruēs arī tukšo intervālu x>74.
Tagad izvēlēsimies apakšprogrammu Histogram no Data Analysis Tools menu, pēc tam Ok.
Uz ekrāna redzēsim dialoga logu, kas satur šādas pozīcijas:
2.zīm.
Input Range: jāuzrāda vietu, kur glabājas izlases elementi; mūsu piemērā A1:A40;
Bin Range: jāuzrāda vietu, kur glabājas informācija par intervāliem (“bins”); mūsu piemērā
B1:B5.
Ja mēs gribam konstruēt histogrammu un poligonu uz tās pašas lappuses, kur glabājas izlases
elementi, tad ar peles kursoru jāatzīmē Output Range. Šajā gadījumā melns punkts parādīsies lodziņā.
Pēc tam lodziņā, kas atrodas pretim Output Range, jāuzrāda koordināti, piemēram, C2, kur mēs
gribam redzēt apakšprogrammas Histogram rezultātus. Precīzāk sakot, rezultāti būs redzami
3
taisnstūrī, kura kreisā augšējā virsotne atrodas pozīcijā C2. Atzīmēsim ar peles kursoru vēl pozīcijas
Cumulative Percentage un Chart Output un izvēlēsimies Ok ar peles kursoru.
Rezultātā uz ekrāna var redzēt relatīvos biežumus, kas pilnīgi sakrīt ar biežumiem tabula2.
Ekrāna kreisajā pusē būs redzama histogramma un kumulatīvo biežumu sadalījums.
Pamēģiniet nomainīt intervālu skaitu (šajā gadījumā ir jāmaina elementus kolonnā B, tikai
jāņem vērā, ka visu intervālu garumiem jābūt vienādiem). Vispārīgajā gadījumā, histogrammas un
poligona forma mainīsies, tā ka histogramma un poligons ir atkarīgi no intervālu garumiem.
Aplūkotā piemēra rezultāti:
3.zīm.
Skaitliskos raksturotājus var viegli aprēķināt ar EXCEL palīdzību. Aplūkosim to pašu
piemēru, bet pieņemsim, ka dati ir paņemti no tabulas 1. Ievadīsim datus EXCEL tabulā pirmajā
kolonnā no šūnas A1 līdz šūnai A40. Izvēlēsimies Tools, pēc tam Data Analysis Tools un Descriptive
Statistics. Kā parasti, dialoga logs būs redzams uz ekrāna. Dati atrodas intervālā A1:A40, tāpēc
ievadīsim šo informāciju kā Input Range. Lai redzētu rezultātus tai pašā lappusē, kur ir mūsu dati,
ievadīsim kādu šūnu, piemēram, C3, kā Output Range, atzīmēsim ar peles kursoru Summary
Statistics. Ticamības intervāla aprēķināšanai atzīmēsim Confidence un lodziņā ievadīsim ticamības
varbūtības vērtību (mūsu gadījumā tā ir vienāda ar 0,95). ( sk.4.zīm)
4.zīm.
4
Uzklikšķinot uz OK, iegūsim rezultātu tabulu, kas attēlota 5. zīmējumā.
Rezultātā uz ekrāna būs redzama tabula, kas satur šādu informāciju:
Mean 20.875 Vidējā vērtībaStandard Error 2.743568 StandartkļūdaMedian 18.5 MediānaMode 1 ModaStandard Deviation 17.35185 StandartnovirzeSample Variance 301.0865 Izlases dispersijaKurtosis 1.177346 Asimetrijas koeficientsSkewness 1.087579 Ekscesa koeficientsRange 72 AmplitūdaMinimum 1 Minimālā vērtībaMaximum 73 Maksimālā vērtībaSum 835 SummaCount 40 Elementu skaitsConfidence Level(95.0%) 5.549384 δ vērtība
5.zīm.
Ticamības intervāla apakšēja robeža =15.3256
Ticamības intervāla augšēja robeža =26.4244
Ticamības intervāls ir (15.3256;26.4244).
2 .piemērs. MS Excel iebūvēto funkciju lietošana sadalījuma rindu aprēķinos.
Pakļausim apstrādei ar MS Excel statistiskos datus, kas raksturo iedzīvotāju skaitu visos
Latvijas administratīvajos rajonos, izņemot Rīgas rajonu. Aprēķinos izmantosim datus par iedzīvotāju
skaitu Latvijas rajonos **** gadā, kas iegūti no statistiskā krājuma.
MS Excel darba lapas šūnu blokā A3:A27 (šeit un turpmāk sk. 6. zīm.) ievadīsim Latvijas
rajonu nosaukumus, šūnu blokā B3:B27 - iedzīvotāju skaitu šajos rajonos ****. gadā.
Šūnā G3 ar formulu = COUNT(B3:B27) aprēķināsim grupas apjomu. Lai uzrakstītu biežumu
sadalījuma rindu, noteiksim šī rādītāja izmaiņas diapazonu, atbilstoši ievadot šūnās G4 un G5
formulas: =MIN(B3:B27) un =MAX(B3:B27).
Izmantojot iegūtos rezultātus (xmin= 15.5 un xmax=63.6), šūnā G22 ar formulu =G5-G4
aprēķināsim variācijas amplitūdu, kuras vērtība ir vienāda ar 48.1. Sadalīsim iedzīvotāju datu kopu
8 intervālos. Šūnā G6 ar formulu =G22/8 aprēķināsim intervālu garumu, rezultātā iegūsim tā vērtību
6.0.
Blokos D11:D18 un E11:E18 aprēķināsim atbilstošās apskatāmo intervālu apakšējās un
augšējās robežas, blokā F11:F18 - katra intervāla viduspunktu. Intervālu parametru aprēķina formulas
atbilstoši ievada norādītajos blokos sekojošā veidā:
5
Intervāla apakšējā robeža
= G4
Intervāla augšējā robeža
= G4+G$6
Intervāla vidus
=(E11+D11)/2= D11+G$6 = E11+G$6 =(E12+D12)/2= D12+G$6 = E12+G$6 =(E13+D13)/2
... ... ...= D17+G$6 = E17+G$6 =(E18+D18)/2
Kolonnā G11:G18 aprēķināsim pazīmes vērtību biežumu katrā no intervāliem. Ar šo nolūku
šūnā G11 ievadīsim formulu:
=FREQUENCY(B3:B27; E11:E18).
Funkcijas FREQUENCY argumentu nozīme ir šāda:
pirmais arguments (šūnu bloks B3:B27) norāda izejas datu kopu - iedzīvotāju skaitu tajos
rajonos, kuros tiek aprēķināti biežumi;
otrais arguments (šūnu bloks E11:E18) definē to intervālu kopu (intervālu augšējās robežas),
kuros grupējas izejas dati.
Pēc formulas ievadīšanas šūnā G11 iegūsim pazīmes vērtību biežumu pirmajā intervālā. Lai
iegūtu pilnu biežumu statistisko sadalījuma rindu, šūnu blokā G11:G18 veiksim sekojošas darbības:
1) sākot ar šūnu G11, iezīmēsim bloku G11:G18;
2) ar peli uzklikšķinām formulas ievada rindā (t.i., aktivizēsim rindu Formula Bar);
3) vienlaicīgi nospiedīsim trīs taustiņus Ctrl-Shift-Enter.
6.zīm.
Blokā H11:H18 ar formulām =G11/G$3, .... =G18/G$3 aprēķināsim rajonu iedzīvotāju skaita
relatīvos biežumus. Izmantojot iegūto biežumu sadalījumu, uzzīmēsim iedzīvotāju skaita histogrammu
un relatīvo biežumu poligonu, šie grafiki ir redzami 7. un 8 zīm.
6
7.zīm
8.zīm.
Lai noteiktu rajonu iedzīvotāju skaita kumulatīvo relatīvo biežumu bloka 111:118 šūnās secīgi
ievadīsim formulas: =H11; =H12+I11; =H13+Il2; =H14+I13; =H15+I14; =H16+I15; =H17+I16;
=H18+I17 un uzzīmēsim kumulātas līkni (9. zīm.).
9.zīm.
Bloka G20:G25 šūnās aprēķināsim statistiskās rindas skaitliskos raksturotājus ar formulām:
=AVERAGE(B3:B27) - aritmētiskais vidējais (šūna G20)
=MEDIAN(B3:B27) - mediāna (šūna G21);
=VARP(B3:B27) - statistiskā dispersija (šūna G23);
7
=STDEV(B3:B27) - vidējā kvadrātiskā novirze (šūna G24);
=G24/G20 - variācijas koeficients (šūna G25, šūnas formāts %)
3. piemērs. Pakotnes AnalysiS TootPak lietošana sadalījuma rindu aprēķinos.
Aplūkosim aprakstošās statistikas uzdevumu risināšanu pakotnē Analysis ToolPak, izmantojot
3.1. piemēra novērotās izlases datus, kas ievadīti MS Excel darba lapā blokā A3:B27 (sk. 6. zīm.).
Lai iedarbinātu pakotni Analysis ToolPak, izvēlēsimies izvēlnes komandu Tools-Data Analysis.
Atvērtajā Data Analysis logā no uzdevumu saraksta izvēlēsimies Descriptive Statistics un
uzklikšķināsim uz OK.
Descriptive Statistics loga rindas Input Range lodziņā (10. zīm.) ievadīsim tā bloka B2:B27
koordinātes, kurš satur apstrādājamos datus - tabulas kolonnas virsrakstu un rajonu iedzīvotāju skaitu.
Grouped By izvēle norāda izejas datu novietojumu, un šim parametram ir jāatzīmē izvēle Columns
(kolonnas). Mūsu atzīmētās izvēles nozīmē sekojošo: kāsītis Labels in First Row rūtiņā norāda, ka pir-
mā bloka rinda tiks izmantota kā rezultātu tabulas nosaukums, New Worksheet Ply atzīme - ka
rezultāti tiks ievietoti jaunā lapā, kāsītis Summary statistics rūtiņā -ka tiks veidota detalizēta rezultātu
tabula, kas mūsu piemēram ir attēlota 11.zīm.
10.zīm. 11.zīm.
Vairums parametru, kas paradīti 11.zīm., ir aplūkoti agrāk un to vērtības pilnībā sakrīt ar
atbilstošiem 2. piemēra rezultātiem. Uzskaitīsim šos parametrus: Mean (vidējais), Median (mediāna),
Standard Deviation (vidējā kvadrātiskā novirze), Sample Variance (izlases dispersija), Range
(variācijas amplitūda), Minimum (minimālā vērtība), Maximum (maksimālā vērtība), Count (izlases
apjoms). Parametra Mode (moda) vērtība nav noteikta, jo izlase nesatur vienveidīgus datus. Tabula
satur arī papildus parametrus: Standard Error (stan-dartkļūdu), Kurtosis (ekscesu), Skewness
(asimetriju), Sum (vērtību summu).
8
Lai iegūtu rajonu iedzīvotāju skaita biežumu grafiku, izmantosim moduli Histogram. Šajā
nolūkā izmantosim izvēlnes Tools-Data Analysis komandu un atvērtajā Data Analysis logā no moduļu
saraksta izvēlēsimies Histogram, pēc tam uzklikšķināsim uz OK.
Histogram dialoga logā ievadīsim apstrādājamo datu bloka B3:B27 koordinātes, un atzīmēsim
izvēli New Worksheet Ply (sk. līdzīgu agrāk apskatītu procedūru). Pēc noklusējuma modulis izvada
tikai absolūto biežumu tabulu. Lai tabulā iekļautu kumulatīvos relatīvos biežumus un uzzīmētu
iedzīvotāju skaita biežumu grafiku, atzīmēsim atbilstoši izvēles Cumulative Percentage un Chart
Output. Pēc OK noklikšķināšanas, iegūtie aprēķinu rezultāti tiek izvadīti jaunā lapā, kas attēlota
12. zīmējumā. Tabulas pirmajā kolonnā parādītas intervālu viduspunktu vērtības, nākošajās divās
kolonnās - biežumi (absolūtie un kumulatīvie relatīvie). Parametrs Bin grafikā norāda iedzīvotāju
skaita intervālu viduspunktus, grafiks Frequency ir biežumu histogramma, bet grafiks Cumulative % -
kumulātas līkne.
12. zīm.
Atzīmēsim, ka aplūkotajā piemērā intervālu skaits un to izmērs nosakās automātiski. Intervālu
skaits ir aptuveni vienāds ar kvadrātsakni no novērojumu skaita izlasē. Tomēr lietotājs var arī noteikt
vēlamos intervālus dialoga loga rindiņā Bin Range (sk.1.piemērs).
9