Deskriptīvās statistikas uzdevumu risināšana ar MS … · Web viewEXCEL satur ļoti daudz līdzekļu, ko var izmantot statistikā. Visu līdzekļu grupu, kas ir paredzēta datu

EXCEL pielietojumi statistikā

EXCEL satur ļoti daudz līdzekļu, ko var izmantot statistikā. Visu līdzekļu grupu, kas ir

paredzēta datu apstrādei ar statistikas metodēm var sadalīt divās grupās:

Data Analysis Tools un Statistical Functions.

Data Analysis Tool satur 18 apakšprogrammas, kas ir domātas dažādu veidu pielietojumiem

statistikā. Data Analysis Tool ir Analysis ToolPak sastāvdaļa, kas atrodas Add-ins menu.

Programmas, kas atrodas Add-ins menu, palielina EXCEL iespējas.

Lai izmantotu Data Analysis Tools, vispirms jāskatās Tools menu. Ja Tools menu satur

komponenti Data Analysis…, tad Data Analysis Tools ir instalēts uz datora un ir gatavs darbam. Ja

Tools menu nesatur komponenti Data Analysis…, tad jāizvēlas Add-ins no Tools menu. Ja uz ekrāna

būs redzama komponente Analysis ToolPak, tad to vajag atzīmēt ar peles kursoru un nospiest Ok.

Ja komponenti Data Analysis ir izvēlēta no Tools menu, tad uz ekrāna būs redzams saraksts,

kas satur dažādu veidu apakšprogrammas, kuras var izmantot datu apstrādē. Aplūkosim dažādas

apakšprogrammas šajā sarakstā:

(a) Histogram. Šī programma ir paredzēta biežumu u relatīvo biežumu aprēķināšanai, kā arī poligona

konstruēšanai.

(b) Descriptive Statistics. Ar šīs programmas palīdzību ir iespējams aprēķināt gadījuma lieluma

skaitliskos raksturotājus, piemēram, vidējo vērtību, dispersiju, standartnovirzi, modu, mediānu un

citus rādītājus.

(c) Regression. Šī programma izpilda vienfaktoru vai daudzfaktoru regresējas analīzi.

EXCEL satur arī daudz dažāda veida funkciju. Funkcijas ir sadalītas pa grupām, piemēram,

Financial, Math&Trig, un tā tālāk. Aplūkosim tikai funkcijas no statistiskas grupas: Statistical.

Vienu un to pašu rezultātu var dabūt, izmantojot vai nu Data Analysis Tools, vai funkcijas no

statistikas grupas. Visbiežāk izmantotās funkcijas no Statistical grupas ir šādas:

Average – aprēķina vidējo vērtību;

Median - aprēķina mediānu;

Mode - aprēķina modu;

Count - aprēķina izlases apjomu;

Frequency – aprēķina radītāja biežumu katrā intervālā;

Stdev- aprēķina izlases standartnovirzi (saucējā ir n-1, kur n ir izlases apjoms);

Stdevp- aprēķina ģenerālās kopas standartnovirzi (saucējā ir N, kur N ir ģenerālās kopas

elementu skaits);

Var - aprēķina izlases dispersiju (saucējā ir n-1, kur n ir izlases apjoms);

1

Varp- aprēķina ģenerālās kopas dispersiju (saucējā ir N, kur N ir ģenerālās kopas elementu

skaits);

Max- aprēķina maksimālo vērtību skaitļu kopā;

Min- aprēķina minimālo vērtību skaitļu kopā.

Lai izmantotu vienu no minētajām funkcijām, vispirms jāizvēlas Function Wizard komponenti

(tā ir apzīmēta ar simbolu ). Pēc tam jāizvēlas kategoriju Statistical un no šīs

kategorijas ir iespējams izvēlēties jebkuru no iepriekš minētajām funkcijām.

1. piemērs. Pieņemsim, ka vides aizsardzības dienests pārbauda ūdens kvalitāti Baltijas jūrā

netālu no Ventspils. Dažādos gadījumos tiek konstatēts, ka ūdens satur naftas pilienus.

Laika intervāli (minūtēs) starp pārbaudēm, kas satur pilienus, ir parādīti tabulā 1.

Tabula 1.

33 17 16 4 3 1 7 5 37 1531 2 22 20 36 6 64 16 45 330 8 31 11 1 2 24 38 14 4118 48 19 1 21 73 20 28 19 5

Izlases apjoms n=40. Lai raksturotu laika intervālu X, var konstruēt statistisko sadalījumu,

izmantojot visas 40 vērtības. Dažos gadījumos tas nav ērti (ja izlases apjoms ir pietiekami liels). Šajos

gadījumos gadījuma lieluma X vērtības sadala grupās vai intervālos. Parasti izmanto no 5 līdz 15

intervāliem. Visiem intervāliem ir viens un tas pats garums. Izvēlēsimies 5 intervālus un pieņemsim,

ka katra intervāla garums ir 15 minūtes. Rezultātā konstruēsim tabulu 3.2.

Tabula 2.

Intervāli Relatīvie biežumi (%)0≤x<15 37.515≤x<30 32.530≤x<45 20.045≤x<60 5.060≤x<75 5.0

Relatīvos biežums var aprēķināt šādi. Aplūkosim intervālu 0≤x<15 un atradīsim visu x vērtību

skaitu, kas nepārsniedz 15 minūtes. Var pārbaudīt, ka šo vērtību skaits ir 15. Tādējādi relatīvo biežumu

wi, kas atbilst intervālam 0≤x<15 var aprēķināt šādi:

jeb 37,5%. Analogi aprēķināsim pārējos elementus tabulā 3.2.

Aplūkosim, kā var konstruēt histogrammu un poligonu, izmantojot EXCEL Data Analysis

Tools. Lai konstruētu biežumu sadalījumu, ir nepieciešams uzrādīt 1) intervālu skaitu, 2) intervāla

garumu un 3) pirmā intervāla sākuma vērtību. EXCELā intervālus sauc ar vārdu “bins”. Ja “bins” nav

uzrādīts, tad EXCEL aptuveni aprēķinās intervālu skaitu kā kvadrātsakni no izlases apjoma. Katra

2

intervāla garums ir vienāds ar starpību starp izlases maksimālo un minimālo vērtību dalīts ar intervālu

skaitu.

Pirmkārt, ierakstīsim visus skaitļus no Tabulas 1.; piemēram, pirmajā kolonnā EXCEL tabula,

tad izlases adrese tabulai ir A1:A40. Lai sakārtot augošā secībā (konstruēt variācijas rindu) jāizmanto

pogu Sort Ascending.(sk. 1.zīm)

1.zīm.

Pieņemsim, ka intervālu skaits ir 5 un katra intervāla garums ir 15 minūtes. Ierakstīsim,

piemēram, otrā kolonnā skaitļus 14, 29, 44, 59, 74 sākot ar šūnu B1, tad šo skaitļu (“bins”) adrese būs

B1:B5. Izmantojot elementus otrajā kolonnā, EXCEL konstruēs intervālus (x≤14), (14<x≤29), (29<x

≤44), (44<x ≤59) un (59<x ≤74). Kā var redzēt, šajā gadījumā intervāli pilnīgi sakrīt ar intervāliem

tabula 3.2. EXCEL konstruēs arī tukšo intervālu x>74.

Tagad izvēlēsimies apakšprogrammu Histogram no Data Analysis Tools menu, pēc tam Ok.

Uz ekrāna redzēsim dialoga logu, kas satur šādas pozīcijas:

2.zīm.

Input Range: jāuzrāda vietu, kur glabājas izlases elementi; mūsu piemērā A1:A40;

Bin Range: jāuzrāda vietu, kur glabājas informācija par intervāliem (“bins”); mūsu piemērā

B1:B5.

Ja mēs gribam konstruēt histogrammu un poligonu uz tās pašas lappuses, kur glabājas izlases

elementi, tad ar peles kursoru jāatzīmē Output Range. Šajā gadījumā melns punkts parādīsies lodziņā.

Pēc tam lodziņā, kas atrodas pretim Output Range, jāuzrāda koordināti, piemēram, C2, kur mēs

gribam redzēt apakšprogrammas Histogram rezultātus. Precīzāk sakot, rezultāti būs redzami

3

taisnstūrī, kura kreisā augšējā virsotne atrodas pozīcijā C2. Atzīmēsim ar peles kursoru vēl pozīcijas

Cumulative Percentage un Chart Output un izvēlēsimies Ok ar peles kursoru.

Rezultātā uz ekrāna var redzēt relatīvos biežumus, kas pilnīgi sakrīt ar biežumiem tabula2.

Ekrāna kreisajā pusē būs redzama histogramma un kumulatīvo biežumu sadalījums.

Pamēģiniet nomainīt intervālu skaitu (šajā gadījumā ir jāmaina elementus kolonnā B, tikai

jāņem vērā, ka visu intervālu garumiem jābūt vienādiem). Vispārīgajā gadījumā, histogrammas un

poligona forma mainīsies, tā ka histogramma un poligons ir atkarīgi no intervālu garumiem.

Aplūkotā piemēra rezultāti:

3.zīm.

Skaitliskos raksturotājus var viegli aprēķināt ar EXCEL palīdzību. Aplūkosim to pašu

piemēru, bet pieņemsim, ka dati ir paņemti no tabulas 1. Ievadīsim datus EXCEL tabulā pirmajā

kolonnā no šūnas A1 līdz šūnai A40. Izvēlēsimies Tools, pēc tam Data Analysis Tools un Descriptive

Statistics. Kā parasti, dialoga logs būs redzams uz ekrāna. Dati atrodas intervālā A1:A40, tāpēc

ievadīsim šo informāciju kā Input Range. Lai redzētu rezultātus tai pašā lappusē, kur ir mūsu dati,

ievadīsim kādu šūnu, piemēram, C3, kā Output Range, atzīmēsim ar peles kursoru Summary

Statistics. Ticamības intervāla aprēķināšanai atzīmēsim Confidence un lodziņā ievadīsim ticamības

varbūtības vērtību (mūsu gadījumā tā ir vienāda ar 0,95). ( sk.4.zīm)

4.zīm.

4

Uzklikšķinot uz OK, iegūsim rezultātu tabulu, kas attēlota 5. zīmējumā.

Rezultātā uz ekrāna būs redzama tabula, kas satur šādu informāciju:

Mean 20.875 Vidējā vērtībaStandard Error 2.743568 StandartkļūdaMedian 18.5 MediānaMode 1 ModaStandard Deviation 17.35185 StandartnovirzeSample Variance 301.0865 Izlases dispersijaKurtosis 1.177346 Asimetrijas koeficientsSkewness 1.087579 Ekscesa koeficientsRange 72 AmplitūdaMinimum 1 Minimālā vērtībaMaximum 73 Maksimālā vērtībaSum 835 SummaCount 40 Elementu skaitsConfidence Level(95.0%) 5.549384 δ vērtība

5.zīm.

Ticamības intervāla apakšēja robeža =15.3256

Ticamības intervāla augšēja robeža =26.4244

Ticamības intervāls ir (15.3256;26.4244).

2 .piemērs. MS Excel iebūvēto funkciju lietošana sadalījuma rindu aprēķinos.

Pakļausim apstrādei ar MS Excel statistiskos datus, kas raksturo iedzīvotāju skaitu visos

Latvijas administratīvajos rajonos, izņemot Rīgas rajonu. Aprēķinos izmantosim datus par iedzīvotāju

skaitu Latvijas rajonos **** gadā, kas iegūti no statistiskā krājuma.

MS Excel darba lapas šūnu blokā A3:A27 (šeit un turpmāk sk. 6. zīm.) ievadīsim Latvijas

rajonu nosaukumus, šūnu blokā B3:B27 - iedzīvotāju skaitu šajos rajonos ****. gadā.

Šūnā G3 ar formulu = COUNT(B3:B27) aprēķināsim grupas apjomu. Lai uzrakstītu biežumu

sadalījuma rindu, noteiksim šī rādītāja izmaiņas diapazonu, atbilstoši ievadot šūnās G4 un G5

formulas: =MIN(B3:B27) un =MAX(B3:B27).

Izmantojot iegūtos rezultātus (xmin= 15.5 un xmax=63.6), šūnā G22 ar formulu =G5-G4

aprēķināsim variācijas amplitūdu, kuras vērtība ir vienāda ar 48.1. Sadalīsim iedzīvotāju datu kopu

8 intervālos. Šūnā G6 ar formulu =G22/8 aprēķināsim intervālu garumu, rezultātā iegūsim tā vērtību

6.0.

Blokos D11:D18 un E11:E18 aprēķināsim atbilstošās apskatāmo intervālu apakšējās un

augšējās robežas, blokā F11:F18 - katra intervāla viduspunktu. Intervālu parametru aprēķina formulas

atbilstoši ievada norādītajos blokos sekojošā veidā:

5

Intervāla apakšējā robeža

= G4

Intervāla augšējā robeža

= G4+G$6

Intervāla vidus

=(E11+D11)/2= D11+G$6 = E11+G$6 =(E12+D12)/2= D12+G$6 = E12+G$6 =(E13+D13)/2

... ... ...= D17+G$6 = E17+G$6 =(E18+D18)/2

Kolonnā G11:G18 aprēķināsim pazīmes vērtību biežumu katrā no intervāliem. Ar šo nolūku

šūnā G11 ievadīsim formulu:

=FREQUENCY(B3:B27; E11:E18).

Funkcijas FREQUENCY argumentu nozīme ir šāda:

pirmais arguments (šūnu bloks B3:B27) norāda izejas datu kopu - iedzīvotāju skaitu tajos

rajonos, kuros tiek aprēķināti biežumi;

otrais arguments (šūnu bloks E11:E18) definē to intervālu kopu (intervālu augšējās robežas),

kuros grupējas izejas dati.

Pēc formulas ievadīšanas šūnā G11 iegūsim pazīmes vērtību biežumu pirmajā intervālā. Lai

iegūtu pilnu biežumu statistisko sadalījuma rindu, šūnu blokā G11:G18 veiksim sekojošas darbības:

1) sākot ar šūnu G11, iezīmēsim bloku G11:G18;

2) ar peli uzklikšķinām formulas ievada rindā (t.i., aktivizēsim rindu Formula Bar);

3) vienlaicīgi nospiedīsim trīs taustiņus Ctrl-Shift-Enter.

6.zīm.

Blokā H11:H18 ar formulām =G11/G$3, .... =G18/G$3 aprēķināsim rajonu iedzīvotāju skaita

relatīvos biežumus. Izmantojot iegūto biežumu sadalījumu, uzzīmēsim iedzīvotāju skaita histogrammu

un relatīvo biežumu poligonu, šie grafiki ir redzami 7. un 8 zīm.

6

7.zīm

8.zīm.

Lai noteiktu rajonu iedzīvotāju skaita kumulatīvo relatīvo biežumu bloka 111:118 šūnās secīgi

ievadīsim formulas: =H11; =H12+I11; =H13+Il2; =H14+I13; =H15+I14; =H16+I15; =H17+I16;

=H18+I17 un uzzīmēsim kumulātas līkni (9. zīm.).

9.zīm.

Bloka G20:G25 šūnās aprēķināsim statistiskās rindas skaitliskos raksturotājus ar formulām:

=AVERAGE(B3:B27) - aritmētiskais vidējais (šūna G20)

=MEDIAN(B3:B27) - mediāna (šūna G21);

=VARP(B3:B27) - statistiskā dispersija (šūna G23);

7

=STDEV(B3:B27) - vidējā kvadrātiskā novirze (šūna G24);

=G24/G20 - variācijas koeficients (šūna G25, šūnas formāts %)

3. piemērs. Pakotnes AnalysiS TootPak lietošana sadalījuma rindu aprēķinos.

Aplūkosim aprakstošās statistikas uzdevumu risināšanu pakotnē Analysis ToolPak, izmantojot

3.1. piemēra novērotās izlases datus, kas ievadīti MS Excel darba lapā blokā A3:B27 (sk. 6. zīm.).

Lai iedarbinātu pakotni Analysis ToolPak, izvēlēsimies izvēlnes komandu Tools-Data Analysis.

Atvērtajā Data Analysis logā no uzdevumu saraksta izvēlēsimies Descriptive Statistics un

uzklikšķināsim uz OK.

Descriptive Statistics loga rindas Input Range lodziņā (10. zīm.) ievadīsim tā bloka B2:B27

koordinātes, kurš satur apstrādājamos datus - tabulas kolonnas virsrakstu un rajonu iedzīvotāju skaitu.

Grouped By izvēle norāda izejas datu novietojumu, un šim parametram ir jāatzīmē izvēle Columns

(kolonnas). Mūsu atzīmētās izvēles nozīmē sekojošo: kāsītis Labels in First Row rūtiņā norāda, ka pir-

mā bloka rinda tiks izmantota kā rezultātu tabulas nosaukums, New Worksheet Ply atzīme - ka

rezultāti tiks ievietoti jaunā lapā, kāsītis Summary statistics rūtiņā -ka tiks veidota detalizēta rezultātu

tabula, kas mūsu piemēram ir attēlota 11.zīm.

10.zīm. 11.zīm.

Vairums parametru, kas paradīti 11.zīm., ir aplūkoti agrāk un to vērtības pilnībā sakrīt ar

atbilstošiem 2. piemēra rezultātiem. Uzskaitīsim šos parametrus: Mean (vidējais), Median (mediāna),

Standard Deviation (vidējā kvadrātiskā novirze), Sample Variance (izlases dispersija), Range

(variācijas amplitūda), Minimum (minimālā vērtība), Maximum (maksimālā vērtība), Count (izlases

apjoms). Parametra Mode (moda) vērtība nav noteikta, jo izlase nesatur vienveidīgus datus. Tabula

satur arī papildus parametrus: Standard Error (stan-dartkļūdu), Kurtosis (ekscesu), Skewness

(asimetriju), Sum (vērtību summu).

8

Lai iegūtu rajonu iedzīvotāju skaita biežumu grafiku, izmantosim moduli Histogram. Šajā

nolūkā izmantosim izvēlnes Tools-Data Analysis komandu un atvērtajā Data Analysis logā no moduļu

saraksta izvēlēsimies Histogram, pēc tam uzklikšķināsim uz OK.

Histogram dialoga logā ievadīsim apstrādājamo datu bloka B3:B27 koordinātes, un atzīmēsim

izvēli New Worksheet Ply (sk. līdzīgu agrāk apskatītu procedūru). Pēc noklusējuma modulis izvada

tikai absolūto biežumu tabulu. Lai tabulā iekļautu kumulatīvos relatīvos biežumus un uzzīmētu

iedzīvotāju skaita biežumu grafiku, atzīmēsim atbilstoši izvēles Cumulative Percentage un Chart

Output. Pēc OK noklikšķināšanas, iegūtie aprēķinu rezultāti tiek izvadīti jaunā lapā, kas attēlota

12. zīmējumā. Tabulas pirmajā kolonnā parādītas intervālu viduspunktu vērtības, nākošajās divās

kolonnās - biežumi (absolūtie un kumulatīvie relatīvie). Parametrs Bin grafikā norāda iedzīvotāju

skaita intervālu viduspunktus, grafiks Frequency ir biežumu histogramma, bet grafiks Cumulative % -

kumulātas līkne.

12. zīm.

Atzīmēsim, ka aplūkotajā piemērā intervālu skaits un to izmērs nosakās automātiski. Intervālu

skaits ir aptuveni vienāds ar kvadrātsakni no novērojumu skaita izlasē. Tomēr lietotājs var arī noteikt

vēlamos intervālus dialoga loga rindiņā Bin Range (sk.1.piemērs).

9

Documents

Deskriptīvās statistikas uzdevumu risināšana ar MS … · Web viewEXCEL satur ļoti daudz līdzekļu, ko var izmantot statistikā. Visu līdzekļu grupu, kas ir paredzēta datu