СЪДЪРЖАНИЕ ЛЕКЦИЯ 9 2 9 - fmi-plovdiv.orgfmi-plovdiv.org/evlm/DBbg/database/courses_PM2/9 lekcia PM2 za STD 4.pdf · Размах (ранг) на извадката

С. Гочева-Илиева, Х. Кулина, Приложна математика 2

СЪДЪРЖАНИЕ

ЛЕКЦИЯ 9 Статистическа обработка на данни. Описателна

статистика ................................................................................................... 2

9.1. Основни понятия ............................................................................ 3

9.2. Първична обработка на данните ................................................... 5

9.3. Точкови оценки ............................................................................ 24

9.4. Интервални оценки ...................................................................... 34

9.5. Корелационен анализ ................................................................... 39

9.6. Линеен регресионен анализ ......................................................... 53


2

ЛЕКЦИЯ 9 Статистическа обработка на данни. Описателна

статистика


3

9.1. Основни понятия

Извадка наричаме частта от генералната съвкупност, която се

изследва. Броят на елементите в извадката се нарича обем на

извадката.

Репрезентативна (представителна) извадка е тази, която отразява

достоверно генералната съвкупност. Ако изборът на елементите

става по случаен начин, то извадката се нарича случайна. Случайните

извадки с голям обем се смятат за репрезентативни. Затова ще

разглеждаме само случайни извадки.

Тъй като изборът на елементи от генералната съвкупност е

случаен, то променливата която се изучава, ще разглеждаме като

случайна величина X с неизвестен закон на разпределение, а резул-

татите от всяко измерване (или броене) – възможни стойности


4

1 2, , , nx x x на случайните величини 1 2, , , nX X X със същия закон

на разпределение.

Така при изследване на количествената променлива Х на генерал-

ната съвкупност:

1. Величината X считаме за случайна величина с неизвестен за-

кон на разпределение;

2. Извадката представяме като многомерна случайна величина

1 2( , , , )nX X X , чийто компоненти iX = {резултат от i -тото наблюде-

ние} имат разпределение, съвпадащо с разпределението на X ;

Наблюдаваните стойности 1 2, , , nx x x са реализация на величи-

ните 1 2, , , nX X X , т.е. наблюдавани са събитията 1 1 2 2,X x X x и

т.н. Следователно, теоретичната основа на статистиката е теорията на

вероятностите.


5

9.2. Първична обработка на данните

Нека е направена случайна извадка с обем n и са получени n на

брой стойности от измерването на наблюдавания признак и по реда

на получаването им те са: 1 2, , , nx x x . За тези данни се казва, че са в

негрупиран статистически ред.

Вариационен ред на данните е подреденият във възходящ ред

техен негрупиран статистически ред, например: 1 2ˆ ˆ ˆnx x x .

Пример 9.1. Трудовият стаж (в години) на десет случайно избрани

работника в една фирма е: 7, 14, 11, 17, 21, 15, 18, 20, 30, 15.

Вариационният ред на данните е: 7, 11, 14, 15, 15, 17, 18, 20, 21,

30.


6

Честотна таблица Често в данните за една извадка наблюдавана-

та променлива има повтарящи се стойности. Когато извадката е с го-

лям обем е удобно да имаме по-компактно представяне на данните.

Честотната таблица представя всички получени стойности на наблю-

даваната променлива с честотата на тяхното срещане. Нека

1 2, , , kx x x са всички различни стойности, а in , за 1, 2, ,i k е

честотата на срещане за всяко ix . Очевидно

1

k

ii

n n

.

Честотна таблица (или таблица на абсолютните честоти) се нарича

таблица от вида:

ix 1x 2x … kx

in 1n 2n … kn


7

Таблица на относителните честоти Нека 1 2, , , kx x x са всички

различни стойности на наблюдаваната променлива и ii

n

n . Таблица

на относителните честоти се нарича таблица от вида:

ix 1x 2x … kx

i 1 2 … k

Таблица на натрупаните (кумулативни) честоти Нека

1 2, , , kx x x са всички различни стойности на наблюдаваната про-

менлива и

1

i

i jj

n

. Таблица на натрупаните (кумулативните) често-

ти се нарича таблица от вида:


8

ix 1x 2x … kx

i 1 1n 2 1 2n n … k n

Таблица на натрупаните относителни честоти При горните оз-

начения нека ii

n

. Таблица на натрупаните относителни честоти

се нарича таблица от вида:

ix 1x 2x … kx

i 11

n

n 1 2

2n n

n

… 1k


9

Пример 9.2. Трудовият стаж в години на 22 работника във фирма

е: 12, 14, 12, 11,14, 17, 11, 7, 15, 15, 14, 17, 11, 7, 12, 14, 12, 14, 11, 7,

14, 12.

Таблиците на абсолютните, относителните, кумулативните и

натрупаните кумулативни честоти на данните са:

ix 7 11 12 14 15 17

in 3 4 5 6 2 2

i 3

0,13622

4

0,18222

3

0,22722

6

0,27322

2

0,09122

2

0,09122

i 3 7 12 18 20 22

i 3

0,13622

7

0,31822

12

0,54522

18

0,81822

20

0,90922

22

122


10

При стартиране на SPSS в прозореца от долния десен ъгъл

избираме Variable View, за да въведем името на променливата, типа

й, броя на знаците след десетичната запетая и др.


11

В прозореца Data View, в първата колона е въведеното от нас име

на променливата – staj и може да въведем данните.


12

Вариационен ред в SPSS: Data Sort Cases

В прозореца Sort by избираме променливата, на която търсим

вариационен ред и след OK получаваме подредените данни.


13

Честотна таблица, таблица на относителните честоти и на

натрупаните (кумулативни) относителни честоти в SPSS:

Analyze Descriptive Statistics Frequencies

SPSS работи с два прозореца Data Editor за дефиниране,

въвеждане, редактиране на данни и запазване на някои междинни

резултати и Viewer за отпечатване на резултатите от статистическата

обработка – таблици, графики и др.


14

В прозореца Viewer виждаме следната таблица:

Staj Frequency Percent Valid Percent Cumulative Percent

Valid

7 3 13,6 13,6 13,6

11 4 18,2 18,2 31,8

12 5 22,7 22,7 54,5

14 6 27,3 27,3 81,8

15 2 9,1 9,1 90,9

17 2 9,1 9,1 100,0

Total 22 100,0 100,0

Колоната Frequency представлява честотната таблица, колоната

Percent е таблицата на относителните честоти (умножени по 100 –


15

защото е в проценти (%)), а колоната Cumulative Percent е таблицата

на натрупаните относителни честоти в %.

Групиран статистически ред Използва се, когато данните са

много. Тогава вариационният ред се разделя на интервали, обикно-

вено с равни дължини. Броят на подинтервалите k може да се намери

от неравенството min : 2kk n . Определят се средите на получените

интервали – im . Построява се таблица на групирания статистически

ред, като на първия ред се записват стойностите на im , а на втория –

честотите, т.е. броят на данните, които се намират в дадения

подинтервал.

im 1m 2m … km

if 1f 2f … kf


16

Пример 9.3. Трудовият стаж в години на 60 случайни работника от

една фирма е: 7, 14, 11, 17, 17, 21, 15, 15, 18, 11, 15, 16, 20, 14, 25, 25,

35, 27, 24, 24, 31, 28, 33, 25, 28, 33, 24, 7, 13, 21, 16, 22, 23, 28, 23, 27,

27, 31, 34, 34, 37, 41, 20, 41, 13, 20, 20, 25, 30, 22, 22, 34, 31, 34, 24, 29,

34, 36, 8, 37. Да се състави групиран статистически ред на данните.

Броят на данните е 60n . Избираме брой подинтервали 6k 6(2 60) . Дължината на интервалите определяме по следният начин

max min 41 75,666 6

6

x xh

k

, т.е. 6h .

интервал (6,12] (12, 18] (18, 24] (24, 30] (30, 36] (36, 42]

im 9 15 21 27 33 39

if 5 11 12 15 12 5


17

Хистограма Групираният статистически ред се използва за пос-

трояване на хистограма на данните. Хистограмата е основен вид

графика за представяне на информацията от наблюденията върху

даден числов признак на извадката. Визуализацията представлява

правоъгълници с еднаква ширина h и височина – честотата на

данните. Видът на хистограмата се влияе съществено от избраната

ширина на интервала.

Получаване на хистограма в SPSS: Graphs Legacy Dialogs

Histogram. Избираме променливата с данните, на които ще

правим хистограма


18

С двоен клик върху графиката на получената хистограма може да

определяме дължините на интервалите или техния брой, както и да

избираме други параметри – цвят, надписи и т.н.


19


20

Бокс-плот Квантил от ред p (0 1)p се нарича числото px , за

което 100. %p от извадката са по-малки от него.

Най-често се пресмятат 0,25x , 0,50x , 0,75x квантили, които се

наричат съответно първи, втори и трети квантил на разпределението

и се означават с 1Q , 2Q , 3Q . Диаграма от вида

1̂x 1Q 2Q 3Q ˆnx


21

се нарича бокс-плот или още „кутия с мустаци“, на която

дължината на „левия мустак“ е 25% от данните от началото на

вариационния ред, а „десния мустак“ са последните 25 % от данните

във вариационния ред.

Получаване на бокс-плот в SPSS: Graphs Legacy Dialogs

Boxplot:

Simple

Summaries of separate variables Define

Графичните визуализации на данните обикновено служат за

ориентир за това дали извадката е взета от нормално разпределена

генерална съвкупност. Хистограмата може да бъде сравнена с

нормалната крива. Близостта до нормалната крива показва и бокс-

плота на данните, когато е относително симетричен. С бокс-плота на


22

данните може да се види и дали има данни, които значително се

отклоняват от стойностите на извадката.

В SPSS, хистограмата и бокс-плотът на данните могат да се

получат едновременно и от друго меню: Analyze Descriptive

Statistics ExplorePlots:

Histogram;

Normality plots with tests Continue OK.


23


24

9.3. Точкови оценки

Характеристиките (мерките) на генералната съвкупност се нари-

чат параметри. Съответните характеристики на извадката се нари-

чат статистики. За да се различават характеристиките, които се

отнасят за генералната съвкупност, от тези, които се отнасят за из-

вадката, се използват различни означения. Тук разглеждаме нормал-

но разпределени генерални съвкупности със средно и стандартно

отклонение , а съответните статистики означаваме с x и s .

Извадково средно Извадковото средно (средно аритметично на

извадката) е ефективна оценка на математическото очакване на

генералната съвкупност (ГС) и се пресмята по следния начин:


25

за вариационен ред 1 2 ... nx x xx

n

;

за статистически ред: 1 1 2 2 ... k kn x n x n xx

n

за групиран статистически ред: 1 1 2 2 ... k km f m f m fx

n

Медиана на извадката (Md) Медианата е число, представляващо

е 0,5-тия квантил на извадката, т.е. 50% от данните в извадката са по-

малки от нея и 50% са по-големи. Извадковата медиана е оценка на

медианата на ГС.

Мода на извадката (Mo). Модата е най-често срещаната стойност

в извадката, т.е. тази стойност ix , за която в честотната таблица съот-

ветната й честота in е най-голяма.


26

Размах (ранг) на извадката Това е разликата между най-

голямата и най-малката стойност във вариационния ред, т.е.

max minR x x .

Извадкова дисперсия (s2 ). Тя е ефективна оценка на дисперси-

ята на ГС и се пресмята по следния начин:

за вариационен ред: 2 2

1

1( )

1

n

ii

s x xn

;

за статистически ред: 2 2

1 1

1n ( )

... 1

k

i ik i

s x xn n

за групиран статистически ред: 2 2

1 1

1( )

... 1

k

i ik i

s f m xf f


27

Стандартното отклонение (s) на извадката е ефективна оценка

на стандартното отклонение на ГС 2s s .

Извадков коефициент на асиметрия (Sk) – дава представа за

симетричността на разпределението. Пресмята се по следния начин:

за вариационен ред:

3

13

( )

( 1)( 2)

n

ii

x xn

Skn n s

за статистически ред:

3

13

( )

( 1)( 2)

k

i ii

n x xn

Skn n s


28

за групиран статистически ред:

3

13

( )

( 1)( 2)

k

i ii

f x xn

Skn n s

От знака на Sk се съди за симетричността на разпределението.

0Sk 0Sk 0Sk симетрично дясно ляво

асиметрично асиметрично


29

Извадков коефициент на ексцес (Ku) – Ексцесът е мярка, която

определя степента на издигнатост или сплеснатост на

разпределението спрямо нормалната крива.

0Ku 0Ku 0Ku

Пример 9.4. Да се намерят числовите характеристики на данните

от Пример 9.2.

Размахът на извадката е 17 7 10R .

Извадковото средно: 1 1 2 2 ... k kn x n x n xx

n


30

7.3 11.4 12.5 14.6 15.2 17.212,4

22

Модата на данните е 14Mo .

Извадковата дисперсия пресмятаме по формулата:

2 2

1 1

1( ) 7,968

... 1

k

i ik i

s n x xn n

. За извадковото стандартно

отклонение получаваме 2 7,968 2,823s s


31

В SPSS: Analyze

Descriptive Statistics

Descriptives Options:


32

Получаваме следната таблица:

N Range Mean Std. Deviation

Statistic Statistic Statistic Statistic

staj 22 10 12,41 2,823

Valid N 22

Variance Skewness Kurtosis

Statistic Statistic Std. Error Statistic

7,968 -,545 ,491 ,115

Обемът на извадката е 22N , рангът е 10R , извадкото средно

(Mean) e 12,41x , извадковото стандартно откл. (Std. Deviation) e

2,823s , извадковата дисперсия (Variance) e 2 7,968s , извадковият

коефициент на асиметрия (Skewness) e 0,545Sk , т.е. разпределени-


33

ето е ляво асиметрично, извадковият коефициент на ексцес (Kurtosis)

e 0,115Ku .

В SPSS числовите характеристики

на данните могат да бъдат получе-

ни и от други менюта, например:

Analyze Descriptive Statistics

Frequencies Statistics. Тук сме

отбелязали Quartiles, т.е. ще полу-

чим 0,25, 0,5 и 0,75 квантил на из-

вадковите резултати, а именно:

1 11Q , 2 12Q , 3 14Q .


34

9.4. Интервални оценки

За неизвестните параметри и на генералната съвкупност в

§9.3. показахме точковите оценки x и s .

Определение 9.3. Интервалът 1 2( , )L L се нарича 100. % доверителен

интервал за средното на генералната съвкупност, ако

( )1 2P L µ L .

Стандартно доверителната вероятност е 0,95 . Но могат да се

търсят доверителни интервали с 0,90 , 0,98 и т.н.

Доверителен интервал за математическото очакване с

доверителна вероятност по извадка с обем n се пресмята по

следния начин:

ако параметърът на ГС е известен, 100. % ДИ за е интерва-

лът:


35

1 1

2 2

,x z x zn n

където 1

2

z е 1

2

квантилът на стандартното нормално

разпределение.

ако параметърът на ГС е неизвестен, 100. % ДИ за е

интервалът:

1 1, 1 , 1

2 2

,n n

s sx t x t

n n


36

където 1

2

t е 1

2

квантила на t-разпределението с 1n степени

на свобода (виж Приложение 2).

Пример 9.5 Направена e 33 дневна извадка за закъсненията (в

мин.) на международния влак Истанбул – София, пристигащ на гара

София. Да се намери 95% доверителен интервал за средното годишно

закъснение:10, 5, 3, 4, 3, 11, 5, 2, 11, 10, 5, 3, 1, 5, 5, 2, 9, 2, 13, 14, 14,

9, 2, 4, 3, 6, 8, 5, 4, 3, 12, 7, 6.

Въвеждаме данните в SPSS и пресмятаме 6,24x и 3,83s .

Търсим 1 1 0,95

0,9752 2

квантила на t-разпределението на


37

Стюдънт. Може да го намерим от Приложение 2 или с Mathematica:

Quantile[StudentTDistribution[32],0.975], получаваме 0,975;32 2,036t .

Пресмятаме

1

2

3,836,24 2,036 4,89

33

sx t

n

1

2

3,836,24 1,96 7,597

33

sx t

n .

Получаваме, че 95% ДИ за е интервалът (4,89; 7,597)


38

В SPSS: Analyze

Descriptive Statistics

Explore Statistics:

Descriptives

Descriptives

Statistic

staj

Mean 6,24

95% Confidence Interval for Mean

Lower

Bound

4,89

Upper

Bound

7,60

Std. Deviation 3,825


39

Стандартно се търси 95% ДИ, но това може да се променя. Нека

намерим 98% ДИ за средното закъснение на влака.

Пресмятаме 1 1 0,98

0,992 2

и 0,975;32 2,448t

1

2

3,836,24 2,448 4,61

33

sx t

n

1

2

3,836,24 1,96 7,87

33

sx t

n .

Получаваме, че 98% ДИ за е интервалът (4,61; 7,87).

9.5. Корелационен анализ


40

Главната задача на статистическите анализи е установяване на ко-

личествени връзки от статистически характер между наблюдаваните

величини. Да разгледаме основния случай на две величини X и Y .

Извадката трябва да включва едновременни наблюдения 1 1( , )x y ,

2 2( , ),x y ,( , )n nx y , които обикновено се представят в таблица:

ix 1x 2x … nx

iy 1y 2y … ny

В този случай казваме, че е дадено съвместното разпределение

на X и Y . Ако съвместното разпределение на метричните величини

X и Y е нормално, статистическата зависимост между тях, заложена

в данните от извадката, се изразява т.н. извадков коефициент на


41

линейна корелация или още извадков корелационен коефициент на

Пирсън и се означава с r .

Извадковият коефициент r се пресмята по формулата: 2

2 2 1

1 1

( )

n

in ni

i ii i

x

SSx x x xn

,

2

2 2 1

1 1

(y )

n

in ni

i ii i

y

SSy y yn

,


42

1 1

1 1

(x x)(y )

n n

i in ni i

i i i ii i

x y

SSxy y x yn

.

SSxyr

SSx SSy

Това, че взаимна връзка между X и Y в се изразява с едно един-

ствено число се явява един от многото благоприятни факти, които

правят статистическите модели сравнително лесни за прилагане в

сложни ситуации. Пресметнатият по формулата коефициент е точко-

ва оценка за теоретичния (популационния) коефициент на корелация,

означаван с .


43

Двете величини X и Y са статистически независими, когато са

разпределени независимо, т.е. когато разпределението на едната не

съдържа информация за разпределението на другата. Статистическа-

та независимост означава, че по наблюденията над едната променли-

ва не можем да правим заключения за поведението на другата про-

менлива.

Статистическата независимост има взаимен характер. При нор-

мално съвместно разпределение независимостта означава, че попула-

ционният коефициент на линейна корелация е равен на нула. Това,

разбира се, не означава, че извадковият коефициент r ще бъде винаги

равен на нула, понеже във всяка извадка винаги има елементи на

случайност. Затова се прилагат тестове за проверка на хипотези. Ако

обаче 0 , то с нарастване обема на извадката стойностите на r ще

се стремят към нула. Така ние изследваме зависимостта, отнесена


44

към популацииите, а данните от извадката служат за нейното оценя-

ване.

Коефициентите на линейна корелация и r представляват числа

между 1 и 1, като самите крайни стойности 1 и 1 на практика не се

достигат. Линейният коефициент на корелация представлява индика-

тор за линейната статистическа зависимост между величините, която

зависимост се характеризира с посока и сила. По тази причина коре-

лационният коефициент се интерпретира по знак и абсолютна стой-

ност. Знакът „+“ означава наличие на право пропорционална връзка –

нарастването при едната променлива е свързано с нарастване при

другата, а знакът „–“ означава наличие на обратно пропорционална

връзка – нарастването при едната променлива е свързано с

намаляване при другата. Колкото е по-голяма абсолютната стойност

на корелационния коефициент (максимална абсолютна стойност 1),


45

толкова е по-силно изразена съответната връзка. Линейните преобра-

зования и на двете променливи (с положителни множители) не про-

менят стойността на корелационния коефициент, което всъщност

представлява неговото най-важно математическо свойство.

Пример 9. 6 За производство на химически продукт са получени

следните данни за зависимостта на изходния продукт Y (кг/ч) от

температурата на реакция X (C).

Да се изследва има ли статистическа зависимост между X и Y и

да се оцени значимостта на извадковия корелационен коефициент с

ниво на значимост 0,05 .

X 28 35 40 29 53 58 65 75

Y 5,3 20,7 21,7 9,2 55,4 64,3 79,1 101


46

Построяваме таблицата, изчисляваме сумите и заместваме във

формулите за r .

i ix iy 2ix 2

iy .i ix y

1 28 5,3 784 28,09 148,4

2 35 20,7 1225 428,49 724,5

3 40 21,7 1600 470,89 868

4 29 9,2 841 84,64 266,8

5 53 55,4 2809 3069,16 2936,2

6 58 64,3 3364 4134,49 3729,4

7 65 79,1 4225 6256,81 5141,5

8 75 101 5625 10201 7575

Сума 383 356,7 20473 24673,57 21389,8


47

По формулите пресмятаме 2

2 2 1

1 1

383.383( ) 204473 2136,875

8

n

in ni

i ii i

x

SSx x x xn

2

2 2 1

1 1

356,7.356,7(y ) 24673,57 8769,20875

8

n

in ni

i ii i

y

SSy y yn


48

1 1

1 1

(x x)(y )

n n

i in ni i

i i i ii i

x y

SSxy y x yn

1 1

1 1

(x x)(y )

n n

i in ni i

i i i ii i

x y

SSxy y x yn

383.356,721389,8 4312,7875

8

4312,78750,996

2136,875. 8769,20875

SSxyr

SSx SSy


49

Ако извадковия корелационен коефициент 0,85r , то може да се

предполага, че между X и Y има силна зависимост, но това не е

достатъчно.

Проверка за значимост След определянето на корелационния

коефициент r се прави проверка за неговата значимост. При предпо-

ложение за нормално разпределени ГС: 1 1( , )X N , 2 2( , )Y N

се разглеждат хипотезите:

0 : 0H , т.е. няма корелационна зависимост между X и Y ;

1 : 0H , т.е. има корелационна зависимост между X и Y .

За проверката на тези хипотези се използва t-статистиката по

разпределението на Стюдънт в следните стъпки:


50

1. Пресмята се величината 2

27,2876

1

2

rt

r

n

;

2. По избрано ниво на значимост се намира

1 , 22

критичноn

t t

3. Решаващо правило Ако .крt t се отхвърля основната

хипотеза 0H и се приема, че X и Y са корелационно зависими.

Ако .крt t . , то се приема, че X и Y са корелационно незави-

сими.


51

За разглеждания от нас пример пресмятаме 2

27,3039

1

2

rt

r

n

.

Пресмятаме 0,975;61 , 2

2

2,447критичноn

t t t

. Тъй като .крt t ,

отхвърляме нулевата хипотеза 0 : 0H и заключаваме, че същест-

вува корелационна зависимост между X и Y .


52

В SPSS въвеждаме

данните: Analyze

Regression Linear

Тъй като изследваме дали масата на изходния продукт зависи от

температурата, то Y е зависимата променлива, а X e независима.


53

Model R R Square Adjusted R

Square

Std. Error

of the

Estimate

Change Statistics

R

Square

Change

F

Change

df1 df2 Sig. F

Change

1 ,996a ,993 ,991 3,2875 ,993 805,393 1 6 ,000

В таблицата виждаме 0,996r . Коефициентът 2r се нарича

коефициент на детерминация и показва колко процента от извадката

Y зависят от X . Тук 2 0,993r , т.е. 99,3% от Y зависят от X .

9.6. Линеен регресионен анализ


54

Този вид статистически анализ е предназначен да даде

количествен израз на ефектите на дадена група метрични

променливи 1 2, , , kX X X , които условно се наричат независими

(independent) върху друга променлива Y , която условно се нарича

зависима (dependent). Независимите променливи се наричат

понякога и фактори.

Търси се функционална връзка от вида

(1) 1 2( , , , )ky f x x x ,

която по статистически обоснован начин дава израз на ефектите

на отделните независими променливи върху зависимата.


55

Уравнението (1) се нарича уравнение на регресия на Y върху

1 2, , , kX X X и се получава на база усредняване стойностите на Y

при фиксирани стойности на 1 2, , , kX X X .

Когато взаимното популационно разпределение на всичките про-

менливи е нормално, уравнението на регресия (1) се оказва линейно

(2) 0 1 2 2 k ky a a x a x a x ,

Където 0 1 2, , , , ka a a a са коефициентите на уравнението. Тези

коефициенти лесно се интерпретират по знак. Ако например 0ia ,

то нарастването на ix води до нарастване на y , ако 0ia , то

нарастването на ix води до намаляване на y . По-големите по абсо-


56

лютна стойност коефициенти са свързани с по-голяма промяна при

зависимата променлива.

Съпоставката по абсолютна стойност на тези коефициенти като

критерий доколко е голям ефектът на отделните независими промен-

ливи трябва да отчита и други обстоятелства, свързани с дисперсиите

на променливите. По тази причина е по-удобно всичките променливи

да бъдат приведени към z-стойности (нормално стандартно

разпределение) вместо (2), при което се получава уравнението

(3) 1 1 2 21 2

1 2

... k kk

y k

x xy y x x x x

s s s s

в което свободният коефициент е равен на нула, а коефициентите

1 2, , , k се наричат стандартизирани коефициенти на регресия.


57

Стандартизираните коефициенти се интерпретират по знак, както

преди, но вече са съпоставими и по абсолютна стойност.

За всеки от коефициентите на регресия се пресмята значимост, ка-

то фактически се проверява нулева хипотеза, че съответният

популационен коефициент е равен на нула. При тези хипотези

проверяващата статистика има разпределение на Стюдънт с 1n k

степени на свобода, където n е обемът на извадката. Ако някой от

коефициентите се получи с пренебрежима значимост, то съответната

независима променлива може да бъде изключена от анализа без

съществена загуба на информация.

Ако с t-статистиката се установи наличието на значимост, тя мо-

же да се определи явно като формула с различни методи за прибли-

жаване на функции. Един от най-използваните е методът на най-мал-

ките квадрати (МНМК).


58

Линейна регресия Когато графиката на данните прилича на

отсечка, приближаваща функция се търси като полином от първа

степен във вида 0 1ˆ( )y x a a x .

Коефициентите 0a , 1a се определят от линейната система:

0 11 1

20 1

1 1 1

n n

i ii i

n n n

i i i ii i i

na x a y

x a x a x y

.


59

Намерените суми

1

383n

ii

x

, 2

1

20473n

ii

x

,

1

356,7n

ii

y

и

1

21389,8n

i ii

x y

заместваме в системата за линейна регресия, полу-

чаваме системата:

0 1

0 1

8 383 356,7

383 20473 21389,8

a a

a a

.

Можем да решим системата например по метода на Крамер.

Пресмятаме детерминантите

8 3838.20473 383.383 17095

383 20473 ,


60

1

356,7 383356,7.20473 383.21389,8 889574,3

21389,8 20473 ,

2

8 356,78.21389,8 356,7.383 34502,3

383 21389,8 .

Тогава 10

889574,352,037

17095a

, 21

34502,32,018

17095a

.

Уравнението на линейна регресия е: ˆ( ) 52,037 2,018y x x .

В SPSS въвеждаме данните: Analyze Regression Linear и получаваме

таблицата:


61

Model Unstandardized

Coefficients

Standardized

Coefficients

t Sig.

B Std. Error Beta

(Constant)

-52,037 3,598 -

14,464

,000

X 2,018 ,071 ,996 28,379 ,000

a. Dependent Variable: Y

Регресионният коефициент 0 52,037a (свободният член в

регресионното уравнение) е означен като (Constant) и е

статистически значим. Това се вижда от неговото равнище на

значимост (Sig T), което е 0 и е по-малко от грешката 0,05 .


62

Регресионният коефициент пред факторната променлива е

1 2,018a Той е статистически значим, тъй като неговото равнище

на значимост (Sig T) e 0.00 и е по-малко от грешката 0,05 .

За този коефициент е изчислен и съответният му стандартизиран

коефициент, наречен Beta. Най-често той служи за сравняване влия-

нието на различните факторни променливи, когато те са две или по-

вече. Най-силно е влиянието на онзи фактор, чийто стандартизиран

регресионен коефициент Beta е най-голям.


63

Начертаването на корелограмата,

представяща зависимостта между

X и Y с пакета SPSS: Graphs

Legacy Dialogs Scatter/Dot

Simple Scatter Define.

Пример 9.7 Даденa е извадка от наблюдения на нормално

разпределените случайни величини X и Y . Да се намерят:

a) коефициентът на корелация;

б) да се провери хипотезата за некорелираност на величините X и

Y с ниво на значимост 0,01 .


64

в) да се намери уравнението на линейната регресия на Y от X . Да

се начертаят на една координатна система данните и линията на

регресия.

г) да се коментира значимостта на регресионните коефициенти от

в).

X 51 32 80 73 64 45 83 44 93

Y 52,7 15,2 89,5 94,8 76 39,3 114,8 36,5 137,4

а) 0,987 0,85r , т.е може да се предполага, че между X и Y има

зависимост.


65

б) Пресмятаме 2

16,248

1

2

rt

r

n

.

За 0,01 намираме 0,995;71 , 2

2

3,499критичноn

t t t

. Тъй

като .крt t ., заключаваме, че съществува корелационна зависимост

между X и Y .

в) линейната регресия на Y от X : 1,898 46,252Y X

Регресионният коефициент 0 46,252a е статистически значим,

защото неговото равнище на значимост е (Sig T) е 0,001 0,01 .


66

Регресионният коефициент пред факторната променлива 1 1,898a

е статистически значим, тъй като неговото равнище на значимост

(Sig T) e 0.00 .

Начертаване на данните и

линиите на регресия с SPSS:

Analyze Regression

Curve Estimation: Linear


67

Квадратична регресия По МНМК търсим приближаваща

функция като полином от втора степен 20 1 2ˆ( )y x a a x а x .

Коефициентите 0а , 1а и 2а се намират от линейната система

20 1 2

1 1 1

2 30 1 2

1 1 1 1

2 3 4 20 1 2

1 1 1 1

n n n

i i ii i i

n n n n

i i i i ii i i i

n n n n

i i i i ii i i i

na x a x a y

x a x a x a x y

x a x a x a x y


68

Пример 9.8 Ако е известно, че има корелационна зависимост на Y

от X и тя е от вида 20 1 2ˆ( )y x a a x а x , да се намерят неизвестните

коефициенти по данните.

X 0 2 4 6 8 10

Y 5 -1 -0,5 1,5 4,5 8,5

Съставяме системата:

0 1 2

0 1 2

0 1 2

6 30 220 18

30 220 1800 126

220 1800 15664 1180

a a a

a a a

a a a


69

по пресметнатите суми:

i ix iy 2ix 2

iy i ix y 3ix 4

ix 2i ix y

1 0 5 0 25 0 0 0 0

2 2 -1 4 1 -2 8 16 -4

3 4 -0,5 16 0,25 -2 64 256 -8

4 6 1,5 36 2,25 9 216 1296 54

5 8 4,5 64 20,25 36 512 4096 288

6 10 8,5 100 72,25 85 1000 10000 850

Сума 30 18 220 121 126 1800 15664 1180

Решаваме системата: 0 4а , 1 2,16429а , 2 0,267857а 20,268 2,164 4Y X X


70

Квадратична регресия с

SPSS: Analyze Regression

Curve Estimation:

Quadratic

Documents

СЪДЪРЖАНИЕ ЛЕКЦИЯ 9 2 9 - fmi-plovdiv.orgfmi-plovdiv.org/evlm/DBbg/database/courses_PM2/9 lekcia PM2 za STD 4.pdf · Размах (ранг) на извадката