25
Описательная статистика Грауэр Л.В.

1.3 Описательная статистика

  • Upload
    devtype

  • View
    197

  • Download
    0

Embed Size (px)

Citation preview

Описательная статистика

Грауэр Л.В.

Описательная статистика

Цельобработкасистематизацияграфическое представлениерасчет числовых статистических характеристик

эмпирических данных

Зачем нужна описательная статистика?

Выявить ошибки в данных

Увидеть структуру данных

Найти нарушения в статистических предположениях

Сгенерировать гипотезы

Порядковые статистики. Вариационный ряд

ξ, X[n] = (X1, . . . , Xn)

Порядковые статистики:X(1) = min {X1, . . . ,Xn} — первая порядковая статистика,X(2) = min

{{X1, . . . ,Xn} \X(1)

}— вторая порядковая статистика,

X(3) = min{{X1, . . . ,Xn} \

{X(1),X(2)

}}— третья порядковая

статистика,. . .X(n) = max {X1, . . . ,Xn} — n-ая порядковая статистика.

Вариационный ряд: X(1) 6 X(2) 6 . . . 6 X(n).

Примеры

Рост баскетболистовX[10]=(205, 184, 207, 198, 195, 187, 201, 177, 191, 194)

Количество попаданий в мишень из 5 выстреловX[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)

Статистический ряд

(X(1) 6 X(2) 6 . . . 6 X(n)) ⇒ (Z(1) < Z(2) < . . . < Z(k))

xi Z(1) Z(2) . . . Z(k)

ni n1 n2 . . . nkni/n n1/n n2/n . . . nk/n∑ij=1 nj/n n1/n

∑2j=1 nj/n . . . 1

ПримерX[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)

Полигон частот

X[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)

Группированный статистический ряд. Гистограмма

Интервал (a, b), где a ≤ X(1) и X(n) ≤ b разобьем

a0 = a < a1 < a2 < . . . < ar = b,

(ai−1, ai ], i = 1, . . . , r .

ni — количество элементов выборки, попавших в (ai−1, ai ].

n1 + n2 + . . .+ nr = n,

∆i = ai − ai−1,

hi =ni

∆in.

Группированный статистический ряд

xi [a0, a1] (a1, a2] . . . (ar−1, ar ]

ni n1 n2 . . . nrni/n n1/n n2/n . . . nr/n

Гистограмма

f ∗n (x) =

0, если x 6 a0;h1, если a0 < x 6 a1;. . .

hr , если ar−1 < x 6 ar ;0, если x > ar .

Пример

X[n] :38 60 41 51 33 4245 21 53 60 68 5247 46 49 49 14 5754 59 67 47 28 4858 32 42 58 61 30

xi [14, 23] (23, 32] (32,41] (41, 50] (50,59] (59,68]ni

nin

Как выбрать K?

X[1000] ∝ N(5, 1)

r = 100 r=4

r = [1 + 3.2 lg n] r =[1.72n1/3

]

Выборочные числовые характеристики

Выборочное среднее

X = a∗1 =1

n

n∑i=1

Xi

Выборочный начальный момент r-го порядка

a∗r =1

n

n∑i=1

X ri

Выборочная дисперсия

D∗ = D∗X[n] =1

n

k∑i=1

(Xi − X

)2Выборочный центральный момент r-го порядка

µ∗r =1

n

n∑i=1

(Xi − X

)r

Выборочная квантиль xp порядка p —([np] + 1) элемент X(1) ≤ X(2) ≤ . . . ≤ X(n).

Квартили Q1, Q2, Q3 — квантили порядков 0.25, 0.5, 0.75

Выборочная медиана

x∗med =

X(k+1), n = 2k + 1

X(k) + X(k+1)

2, n = 2k

Пример

X[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)

Выборочные характеристиками положения

I выборочное среднее

I выборочная медиана

I выборочная мода

Выборочные меры рассеяния

I размах R = Xmax − Xmin

I средний межквартильный размахI персентильный размах P90 − P10,I выборочная дисперсияI исправленная дисперсия s2 = nD∗X[n]/(n − 1)

I среднее квадратическое отклонение s =√s2

Коэффициент вариации v = s/X

Оценка формы распределения

I коэффициент асимметрии Sk1 = µ∗3/s3

I коэффициент эксцесса K = µ∗4/s4 − 3

Квантильный коэффициент асимметрии

Sk2 = (Q3 − Q1 − 2Q2)/(Q3 − Q1)

Ящики с усами

Выборочные характеристики многомерных выборок

(ξ, η)T (X1

Y1

), . . . ,

(Xn

Yn

)Выборочный коэффициент корреляции

rξ,η =1n

∑ni=1 XiYi − X Y

sX sY

Диаграммы рассеивания