агістерська дисертаціяmatan.kpi.ua/public/files/2017/dis/Chubyk.pdf · 2017. 6. 15. · розпізнавання образів, інтелектуальний

1

НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ УКРАЇНИ «КИЇВСЬКИЙ ПОЛІТЕХНІЧНИЙ ІНСТИТУТ

ІМЕНІ ІГОРЯ СІКОРСЬКОГО» Фізико-математичний факультет

(повна назва інституту/факультету)

Кафедра математичного аналізу та теорії ймовірностей (повна назва кафедри)

«На правах рукопису»

УДК 519.21

«До захисту допущено» Завідувач кафедри

________ Клесов О.І. (підпис) (ініціали, прізвище)

« 7 » червня 2017 р.

Магістерська дисертація

на здобуття ступеня магістра зі спеціальності 8.04020101 «Математика» на тему: «Дослідження ймовірності помилки при класифікації методом найближчого сусіда»

Виконала: студентка VI курсу, групи ОМ-51м (шифр групи)

Чубик Лідія Миколаївна __________ (прізвище, ім’я, по батькові) (підпис)

Науковий керівник доктор фізико-математичних наук, професор

Пилипенко А.Ю. __________ (посада, науковий ступінь, вчене звання, прізвище та ініціали) (підпис)

Рецензент старший науковий співробітник, доктор фізико-математичних наук

інституту геофізики ім. С. І. Субботіна НАН України

Арясова О.В. __________ (посада, науковий ступінь, вчене звання, прізвище та ініціали) (підпис)

Засвідчую, що у цій магістерській дисертації немає запозичень з праць інших авторів без відповідних посилань. Студент _____________

(підпис)

Київ – 2017 року

2

Національний технічний університет України

«Київський політехнічний інститут імені

Ігоря Сікорського»

Інститут (факультет) Фізико-математичний факультет (повна назва)

Кафедра Математичного аналізу та теорії ймовірностей (повна назва)

Рівень вищої освіти – другий (магістерський)

Спеціальність 8.04020101 «Математика» (код і назва)

ЗАТВЕРДЖУЮ

Завідувач кафедри

_______ Клесов О.І. (підпис) (ініціали, прізвище)

« » 2017 р.

ЗАВДАННЯ на

магістерську дисертацію студенту

Чубик Лідії Миколаївній (прізвище, ім’я, по батькові)

1. Тема «Дослідження ймовірності помилки при класифікації методом

найближчого сусіда»,

науковий керівник дисертації доктор фізико-математичних наук, професор

Пилипенко А.Ю. , (прізвище, ім’я, по батькові, науковий ступінь, вчене звання)

затверджені наказом по університету від « 22 » березня 2017 р. № 1197-с

2. Термін подання студентом дисертації: 11. 06. 2017 р. 3. Об’єкт дослідження: класифікація методом найближчого сусіда. 4. Предмет дослідження: ймовірність хибної класифікації при застосуванні методу найближчого сусіда. 5. Перелік завдань, які потрібно розробити:

1) вивчити метод класифікації методом найближчого сусіда; 2) дослідити розподіл порядкових статистик; 3) вивчити метод перевалу для дослідження асимптотичної поведінки інтегралів,

що залежать від параметру;

4) розв’язати задачі про обчислення ймовірності хибної класифікації.

3

6. Орієнтовний перелік ілюстративного матеріалу: 16 слайдів

7. Орієнтовний перелік публікацій ‒ 1

8. Дата видачі завдання: 08.02.2017 р.

Календарний план

№

з/п

Назва етапів виконання

магістерської дисертації

Термін виконання етапів

магістерської дисертації Примітка

1. Взяття завдання та вивчення теоретичних

відомостей про метод класифікації

методом найближчого сусіда

08.02.17 – 20.02.17 виконала

2. Розгляд прикладів даного методу та

розв’язування підготовчих задач 20.02.17 – 06.03.17

виконала

3. Вивчення методу перевалу для

дослідження асимптотичної поведінки

інтегралів, що залежать від параметру

06.03.17 – 20.03.17

виконала

4. Розв’язування прикладів на використання

методу перевалу 20.03.17 – 29.03.17

виконала

5. Обчислення ймовірності хибної

класифікації 29.03.17 – 17.04.17 виконала

6. Знаходження границі ймовірності хибної

класифікації методом найближчого сусіда 17.04.17 – 10.05.17 виконала

7. Аналіз та перевірка отриманих результатів.

Оформлення роботи 10.05.17 – 10.05.17

виконала

Студент ____________ Чубик Л. М. (підпис) (ініціали, прізвище)

Науковий керівник дисертації ____________ Пилипенко А.Ю. (підпис) (ініціали, прізвище)

4

Реферат

Магістерська дисертація: 48 сторінок, 7 посилань

В магістерській дисертації розглядається задача класифікації об’єктів за

допомогою методу найближчого сусіда. Припускається, що навчальна вибірка

складається з an об’єктів першого та bn об’єктів другого типу, що обираються

з двох абсолютно неперервних розподілів.

Дослідження ймовірності хибної класифікації. Мета роботи, в

залежності від відношення кількості навчальних об’єктів у цих вибірках,

полягає в знаходженні асимптотичної поведінки, якщо n прямує до

нескінченності.

Ключові слова: машинне навчання, метод найближчого сусіда,

порядкові статистики, ймовірність помилкової класифікації.

5

Реферат

Магистерская диссертация: 48 страниц, 7 ссылок

В магистерской диссертации рассматривается задача классификации

объектов с помощью метода ближайшего соседа. Предполагается, что

обучающая выборка состоит из an объектов первого и bn объектов второго

типа, избираемых из двух абсолютно непрерывных распределений.

Исследование вероятности ложной классификации. Цель работы, в

зависимости от отношения количества обучающих объектов в этих выборках,

заключается в нахождении асимптотического поведения, сли n стремится к

бесконечности.

Ключевые слова: машинное обучение, метод ближайшего соседа,

порядковые статистики, вероятность ложной классификации.

6

Abstract

Master's thesis: 48 pages, 7 links

A problem of classification using the nearest neighbor’s method is considered.

It is assumed that two large training samples from different distributions is given.

The subject of the thesis is the investigation of the probability of false

classification of the asymptotic behavior.

The purpose of this work is to find the asymptotic behavior of the false

classification probability.

Key words: machine learning, nearest neighbor method, order statistics, the

probability of a false classification.

7

Зміст

ВСТУП ................................................................................................................... 8

Розділ 1. Теоретичні відомості ........................................................................... 13

1.1. Метод найближчого сусіда і його узагальнення ................................... 13

1.1.1. Узагальнений метричний класифікатор. ............................................ 14

1.1.2. Метод найближчих сусідів .................................................................. 16

1.1.3. Недоліки найпростіших метричних алгоритмів типу kNN. ............... 20

1.1.4. Метод парзенівского вікна .................................................................. 21

1.1.5. Метод потенційних функцій ............................................................... 23

1.1.6. Відсів викидів ....................................................................................... 25

1.1.7. Гідність та недоліки алгоритму ........................................................... 26

1.2. Інтеграли Лапласа ...................................................................................... 27

1.2.1. Евристичні міркування. ....................................................................... 27

1.2.2. Найпростіші оцінки ............................................................................. 30

1.2.3. Вклад від граничної точки максимуму (основний випадок). ............ 31

Розділ 2. Дослідження ймовірності помилки при класифікації ........................ 33

2.1. Постановка задачі ...................................................................................... 33

2.1.1. Одновимірний випадок. ....................................................................... 33

2.1.2. Багатовимірний випадок ...................................................................... 41

2.2. Ймовірність хибної класифікації .............................................................. 45

ВИСНОВКИ ........................................................................................................ 47

СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ...................................................... 48

8

ВСТУП

Машинне навчання (англ. Machine Learning) ‒ це область наукового

знання, яка працює з алгоритмами, «здатними навчатися»; клас методів

штучного інтелекту, характерною рисою яких є не пряме рішення задачі, а

навчання в процесі застосування рішень безлічі подібних завдань. Необхідність

використання методів машинного навчання пояснюється тим, що для багатьох

складних - «інтелектуальних» - задач (наприклад, розпізнавання рукописного

тексту, мови і т. д.) дуже складно (або навіть неможливо) розробити «явний»

алгоритм їх вирішення, проте часто можна навчити комп'ютер навчитися

вирішенню цих завдань. Для побудови таких методів використовуються засоби

математичної статистики, чисельні методи, методи оптимізації, теорія

ймовірності, теорія графів, різні техніки роботи з даними в цифровій формі [8].

Розрізняють два типи навчання: 1) навчання по прецедентах, або індуктивне

навчання, засноване на виявленні закономірностей в емпіричних даних; 2)

дедуктивне навчання передбачає формалізацію знань експертів і їх

перенесення в комп'ютер у вигляді бази знань [8].

Дедуктивне навчання прийнято відносити до області експертних систем,

тому терміни машинне навчання і навчання по прецедентах можна вважати

синонімами.

Більшість методів індуктивного навчання розроблялися як альтернатива

класичним статистичним підходам. Багато методів тісно пов'язані з витяганням

інформації (вилучення інформації), інтелектуальним аналізом даних

(видобуток даних).

Машинне навчання ‒ сучасна область наукового знання, яка інтенсивно

розвивається і є одним із перших технічний предмет. Загальна задача якої

полягає у відновленні заздалегідь невідомої залежності за вибіркою, складеної

з пар «вхід-вихід». Якщо виходом є дійсна змінна, то завдання називається

завданням відновлення регресії, якщо вихід приймає скінченне число значень,

то отримуємо задачу класифікації, якщо входи і виходи ‒ це значення деяких

https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D0%B9%D1%81%D0%BA%D0%B8%D0%B9_%D1%8F%D0%B7%D1%8B%D0%BA

9

величин в моменти часу, то говорять про завдання прогнозування. Відновлення

регресії з'являється вже в роботах К. Гауса і А. Лежандра. Завдання

прогнозування і класифікації з'являються значно пізніше.

Сплеск інтересу до машинного навчання почався в 60-х роках минулого

століття. Одним з перших, хто використав термін "машинне навчання", був

винахідник першої самонавчальної комп'ютерної програми гри в шашки А. Л.

Самуель в 1959 р. [5]. Під навчанням він розумів процес, в результаті якого

комп'ютер здатний показати поведінку, яку в неї не було закладено "явно". Це

визначення не витримує критики, оскільки не зрозуміло, що означає

прислівник "явно". Більш точне визначення дав набагато пізніше Т. М. Мітчелл

[6]: кажуть, що комп'ютерна програма навчається на основі досвіду E по

відношенню до деякого класу задач T і міри якості P, якщо якість вирішення

завдань з T, виміряний на основі P, поліпшується з набуттям досвіду E.

Як окрема область, воно почало бурхливо розвиватися в 1990-х роках. Ця

область змінила свої цілі з досягання штучного інтелекту на розв'язання

розв'язних задач практичного характеру. Вона змістила фокус із символьних

підходів, успадкованих нею від штучного інтелекту, в бік методів та моделей,

позичених зі статистики та теорії ймовірності. Вона також виграла від

збільшуваної доступності оцифрованої інформації та можливості

розповсюджувати її через Інтернет. В даний час ведуться інтенсивні теоретичні

та прикладні дослідження в цій області в Європі (Ю.І. Журавльов, В.Н. Вапник

[8], А.Я. Червоненкис [7], К.В. Рудаков, Н.Г. Загоруйко , К.В. Воронцов, J.

Friedman, L. Breiman, Y. Freund, R. Schapire, PL Bartlett, R. Tibshirani, T. Hastie

і багато інших). Деякі їхні роботи: 1) Hastie T., Tibshirani R., Friedman J. The

Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer,

2001; 2) Hastie T., Tibshirani R., Friedman J. Chapter 7.9. Vapnik–Chervonenkis

Dimension // The Elements of Statistical Learning: Data Mining, Inference, and

Prediction. — 2nd ed. — Springer-Verlag, 2009. — 746 p.; 3) Alex Gammerman,

Vladimir Vovk. Preface to this Special Issue in Memory of Alexey Chervonenkis //

Journal of Machine Learning Research. — 2015. — Т. 16, вип. 9. ; 4) Вапник, В.

https://uk.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D1%96%D1%8F_%D0%B9%D0%BC%D0%BE%D0%B2%D1%96%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%96

https://uk.wikipedia.org/wiki/%D0%86%D0%BD%D1%82%D0%B5%D1%80%D0%BD%D0%B5%D1%82

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

http://www.jmlr.org/papers/volume16/gammerman15a/gammerman15a.pdf

10

Н., Червоненкис, А. Я. Теория распознавания образов. — М.: Наука, 1974. —

416 с.; 5) Воронцов К. В., Инякин А. С., Лисица А. В.

Система эмпирического измерения качества алгоритмов классификации //

Математические методы распознавания образов-13. — М.: МАКС Пресс, 2007.

Існує велика кількість різноманітних методів машинного навчання. Ці

методи успішно застосовуються в широкому спектрі найважливіших додатків:

розпізнавання образів, інтелектуальний аналіз даних (Data Mining), обробка

природних мов, комп'ютерний зір, медична діагностика, біоінформатика,

робототехніка, технічна діагностика, фінансові програми, пошук і рубрикація

текстів, інтелектуальні ігри, експертні системи та ін.

Методи [1] :

1. Байєсова теорія класифікації заснована на застосуванні оптимального

байєсівського класифікатора і оцінюванні щільності розподілу класів за

навчальною вибіркою. Різні методи оцінювання щільності породжують велику

різноманітність байєсівских класифікаторів. Серед них можна виділити три

групи методів: параметричне оцінювання щільності, непараметричне

оцінювання щільності, оцінювання щільності як суміші параметричних

щільності.

2. Метричні алгоритми класифікації застосовуються в тих завданнях, де

вдається природним чином задавати об'єкти не їх ознаковими описами, а

матрицею попарних відстаней між об'єктами. Класифікація об'єктів по їх

схожості заснована на гіпотезі компактності, в якій мовиться, що в «гарній

задачі» схожі об'єкти частіше лежать в одному класі, ніж в різних. Метричні

алгоритми відносяться до методів міркування на основі прецедентів. Тут

можна говорити про «міркування», так як на питання «чому об'єкт u був

віднесений до класу y?» алгоритм може дати зрозумілий експерту відповідь:

«тому , що є прецеденти ‒ схожі з ним об'єкти, що належать класу y », і

представити список цих прецедентів. Найбільш відомі метричні алгоритми

класифікації: метод найближчих сусідів; метод парзеновского вікна; метод

11

потенційних функцій; метод радіальних базисних функцій; відбір еталонних

об'єктів.

3. Велика група методів класифікації заснована на явній побудові

розділяючої поверхні в просторі об'єктів. З них частіше за всіх застосовуються

лінійні класифікатори: лінійний дискримінант Фішера; одношаровий

персептрон; логістична регресія; машина опорних векторів = Метод опорних

векторів = SVM.

4. Нейронні сітки засновані на принципі конективізму ‒ в них з'єднується

велика кількість відносно простих елементів, а навчанняш зводиться до

побудови оптимальної структури зв'язків і налаштування параметрів зв'язків:

персептрон; одношаровий персептрон; багатошаровий персептрон; метод

стохастичного градієнта та ін.

Метод найближчих сусідів базується на реальному зберіганні навчальних

об'єктів. Ставиться завдання не просто зберегти суттєвий обсяг інформації, але

і в мінімальний часовий проміжок встигати знаходити довільний об'єкт u серед

k найближчих сусідів. Для того щоб впоратися з поставленою задачею,

застосовують два способи:

o проріджують вибірку з допомогою викидання не інформаційних об'єктів;

o застосовують спеціальні ефективні структури та індекси даних для

моментального пошуку найближчих сусідів.

Метод найближчого сусіда застосовують при вирішенні практичних

завдань, в яких відома заздалегідь функція відстані. При описі об'єктів

числовими векторами використовують евклідову метрику. Подібний вибір не

має спеціального обґрунтування, але передбачає вимірювання всіх ознак «в

єдиному масштабі». Якщо не врахувати цей фактор, то в метриці буде

переважати ознака, що має найбільші числові значення.

При наявності значної кількості ознак, обчислення відстані у вигляді суми

відхилень за конкретними ознаками з'являється серйозна проблема

розмірності. У просторі високої розмірності далекими один від одного

12

виявляться всі об'єкти. В кінцевому підсумку довільною буде вибірка

найближчих для досліджуваного об'єкта k сусідів. Для усунення подібної

проблеми відбирається невелике число інформативних ознак. Алгоритми

розрахунку оцінок вибудовують на основі різних наборів ознак, причому для

кожного окремого вибудовують свою функцію близькості [3].

Математичні обчислення досить часто передбачають застосування

різноманітних методик, які мають свої відмінні характеристики, переваги і

недоліки. Розглянутий метод найближчих сусідів дозволяє вирішувати досить

серйозні проблеми, пов'язані з характеристикою математичних об'єктів.

Експериментальні концепції в даний час активно використовують у засобах

штучного інтелекту. В експертних системах необхідно не просто

класифікувати об'єкти, але і показувати користувачеві пояснення розглянутої

класифікації. У даному методі пояснення такого явища виражаються

відношенням об'єкта до певного класу, а також розташуванням його відносно

використовуваної вибірки. Фахівці юридичної галузі, геологи, медики,

приймають цю «прецедентну» логіку, активно користуються нею у своїх

дослідженнях. Для того щоб аналізований метод був максимально

достовірним, ефективним, давав бажаний результат, необхідно брати

мінімальний показник k, а також не допускати викидів серед аналізованих

об'єктів [4].

Метою дипломної роботи є теоретичне дослідження класифікації

методом найближчого сусіда. Основним питанням, що розглядається, є

дослідження ймовірності хибної класифікації, коли об’єм навчальної вибірки

прямує до нескінченності.

13

Розділ 1. Теоретичні відомості

У багатьох прикладних задачах вимірювати ступінь подібності об'єктів

істотно простіше, ніж формувати ознакові описи. Наприклад, такі складні

об'єкти, як фотографії осіб, підписи, часові ряди або первинні структури білків

природніше порівнювати безпосередньо один з одним шляхом деякого

«накладення з вирівнюванням», ніж винаходити якісь ознаки і порівнювати

ознакові описи. Якщо міра подібності об'єктів введена досить вдало, то, як

правило, виявляється, що схожим об'єктів дуже часто відповідають схожі

відповіді. В задачах класифікації це означає, що класи утворюють компактно

локалізовані підмножини. Це припущення прийнято називати гіпотезою

компактності1. Для формалізації поняття «подібності» вводиться функція

відстані в просторі об'єктів 𝑋. Методи навчання, засновані на аналізі подібності

об'єктів, будемо називати метричними, навіть якщо функція відстані не

задовольняє всім аксіомам метрики (зокрема, аксіомі трикутника) [1].

1.1. Метод найближчого сусіда і його узагальнення

Нехай на множині об'єктів 𝑋 задана функція відстані 𝜌: 𝑋 × 𝑋 → [0,∞).

Існує цільова залежність 𝑦∗: 𝑋 → 𝑌, значення якої відомі тільки на об'єктах

навчальної вибірки 𝑋𝑙 = (𝑥𝑖 , 𝑦𝑖)𝑖=1𝑙 , 𝑦𝑖 = 𝑦

∗(𝑥𝑖) . Множина класів 𝑌 скінченна.

Потрібно побудувати алгоритм класифікації 𝑎: 𝑋 → 𝑌, наближаючи цільову

залежність 𝑦∗(𝑥) на всій множині 𝑋 [1].

1 Компактними називають обмежені замкнуті множини. Гіпотеза компактності не має нічого спільного з цим

поняттям, і повинна розумітися швидше в «побутовому» сенсі цього слова.

14

1.1.1. Узагальнений метричний класифікатор.

Для довільного об'єкта 𝑢 ∈ 𝑋 розташуємо елементи навчальної вибiрки

𝑥1, … , 𝑥𝑙 в порядку зростання відстаней до 𝑢:

𝜌 (𝑢, 𝑥𝑢(1)) ≤ 𝜌 (𝑢, 𝑥𝑢

(2)) ≤ ⋯ ≤ 𝜌 (𝑢, 𝑥𝑢

(𝑙)),

де через 𝑥𝑢(𝑖)

позначається i-й сусід об'єкта 𝑢. Відповідно, відповідь на i-мy

сусідові об'єкта 𝑢 буде 𝑦𝑢(𝑖)= 𝑦∗ (𝑥𝑢

(𝑖)). Таким чином, будь-який об'єкт 𝑢 ∈ 𝑋

породжує свою перенумерацію вибірки.

Означення 1. [1] Метричний алгоритм класифікації з навчальною

вибіркою 𝑋𝑙 відносить об'єкт u до того класу 𝑦 ∈ 𝑌, для якого сумарна вага

найближчих навчальних об'єктів Γ𝑦(𝑢, 𝑋𝑙) максимальний:

𝑎(𝑢; 𝑋𝑙) = argmax𝑦∈𝑌

Γ𝑦(𝑢, 𝑋𝑙); Γ𝑦(𝑢, 𝑋

𝑙) = ∑ [𝑦𝑢(𝑖)= 𝑦]𝑤(𝑖, 𝑢); (1)𝑙

𝑖=1

де вагова функція 𝑤(𝑖, 𝑢) оцінює ступінь важливості i-го сусіда для

класифікації об'єкта u. Функція Γ𝑦(𝑢, 𝑋𝑙) називається оцінкою близькості

об'єкта u до класу y.

Метричний класифікатор визначений з точністю до вагової функції

𝑤(𝑖, 𝑢). Зазвичай вона вибирається невід’ємною, і не зростаючою по i. Це

відповідає гіпотезі компактності, згідно з якої, чим ближче об'єкти u і 𝑥𝑢(𝑖)

, тим

вище шанси, що вони належать одному класу.

Навчальна вибірка 𝑋𝑙 грає роль параметра алгоритму a. Налаштування

зводиться до запам'ятовування вибірки, і, можливо, оптимізації якихось

параметрів вагової функції, однак самі об'єкти не піддаються обробці і

зберігаються «як є». Алгоритм 𝑎(𝑢; 𝑋𝑙) будує локальну апроксимацію вибірки

𝑋𝑙 , причому обчислення відкладаються до моменту, поки не стане відомий

об'єкт u. З цієї причини метричні алгоритми відносяться до методів ледачого

навчання (lazy learning), на відміну від старанного навчання (eager learning),

коли на етапі навчання будується функція, що апроксимує вибірку [1].

15

Метричні алгоритми класифікації відносяться також до методів

міркування по прецедентах (case-based reasoning, CBR). Тут дійсно можна

говорити про «міркуванні», так як на питання «чому об'єкт u був віднесений до

класу y?» Алгоритм може дати зрозуміле експертам пояснення: «тому, що є

схожі з ним прецеденти класу y», і пред'явити список цих прецедентів.

Вибираючи вагову функцію 𝑤(𝑖, 𝑢), можна отримувати різні метричні

класифікатори, які детально розглядаються нижче [1].

16

1.1.2. Метод найближчих сусідів

Алгоритм найближчого сусіда (nearest neighbor, NN) відносить

класифікується об'єкт 𝑢 ∈ 𝑋𝑙 до того класу, якому належить найближчий

навчальний об'єкт:

𝑤(𝑖, 𝑢) = [𝑖 = 1]; 𝑎(𝑢; 𝑋𝑙) = 𝑦𝑢(1).

На рис.1 та рис.2 зображено випадки, коли об’єкт класифікації

знаходиться на прямій та на площині, відповідно.

Цей алгоритм є, по всій видимості, найпростішим класифікатором.

Навчання NN зводиться до запам'ятовування вибірки 𝑋𝑙 .

Єдине перевага цього алгоритму ‒ простота реалізації. Недоліків

набагато більше:

• Нестійкість до похибок. Якщо серед навчальних об'єктів є викид ‒

об'єкт, що знаходиться в оточенні об'єктів чужого класу, то не тільки він сам

буде класифікований невірно, але і ті навколишні його об'єкти, для яких він

виявиться найближчим.

• Відсутність параметрів, які можна було б налаштовувати по вибірці.

Алгоритм повністю залежить від того, наскільки вдало обрана метрика ρ.

• В результаті - низька якість класифікації [1].

Алгоритм k найближчих сусідів (k nearest neighbors, kNN) [1]. Щоб

згладити вплив викидів, будемо відносити об'єкт u до того класу, елементів

якого виявиться більше серед k найближчих сусідів 𝑥𝑢(𝑖), 𝑖 = 1,… , 𝑘:

𝑤(𝑖, 𝑢) = [𝑖 ≤ 𝑘]; 𝑎(𝑢; 𝑋𝑙 , 𝑘) = argmax𝑦∈𝑌

∑ [𝑦𝑢(𝑖)= 𝑦]𝑘

𝑖=1 .

При 𝑘 = 1 цей алгоритм збігається з попереднім, отже, нестійкий до

шуму. При 𝑘 = 𝑙, навпаки, він надмірно стійкий і вироджується в константу.

17

Рис. 1

𝜉1 ‒ відстань від точки О до точки А; 𝜉2 ‒ відстань від точки О до точки

В; О ‒ точка класифікації.

Точку О віднесемо до набору «хрестиків», якщо відстань до елемента А,

буде меншою, ніж до елемента В.

18

Рис. 2

О ‒ точка класифікації.

Точку О класифікуємо як «кружечок», бо відстань від О до точки А

менша, ніж до всіх «зірочок».

19

Таким чином, крайні значення k небажані. На практиці оптимальне

значення параметра k визначають за критерієм змінного контролю з

виключенням об'єктів по одному (leave-one-out, LOO). Для кожного об'єкта

𝑥𝑖 ∈ 𝑋𝑙перевіряється, чи правильно він класифікується за своїми k найближчих

сусідів.

LOO(𝑘, 𝑋𝑙) = ∑ [𝑎(𝑥𝑖; 𝑋𝑙{𝑥𝑖}, 𝑘) ≠ 𝑦𝑖] → min

𝑘.𝑙

𝑖=1

Зауважимо, що якщо класифікується об'єкт 𝑥𝑖 не виключати з навчальної

вибірки, то найближчим сусідом 𝑥𝑖завжди буде сам 𝑥𝑖, і мінімальне (нульове)

значення функціоналу LOO (k) буде досягатися при 𝑘 = 1. Існує і

альтернативний варіант методу kNN: в кожному класі вибирається k

найближчих до u об'єктів, і об'єкт u відноситься до того класу, для якого

середня відстань до k найближчих сусідів мінімальна [1].

Алгоритм k зважених найближчих сусідів [1].

Недолік kNN в тому, що максимум може досягатися відразу на декількох

класах. У завданнях з двома класами цього можна уникнути, якщо взяти

непарне k. Більш загальна тактика, яка годиться і для випадку багатьох класів

‒ ввести строго спадну послідовність вагамих ваг 𝑤𝑖, які задають внесок i-го

сусіда в класифікацію:

𝑤(𝑖, 𝑢) = [𝑖 ≤ 𝑘]𝑤𝑖; 𝑎(𝑢; 𝑋𝑙 , 𝑘) = argmax

𝑦∈𝑌∑ [𝑦𝑢

(𝑖)= 𝑦]𝑤𝑖

𝑘𝑖=1 .

Вибір послідовності 𝑤𝑖 є евристикою. Якщо взяти лінійно спадні ваги

𝑤𝑖 =𝑘+1−𝑖

𝑘, то неоднозначності також можуть виникати, хоча і рідше (приклад:

класів два; перший і четвертий сусід голосують за клас 1, другий і третій ‒ за

клас 2; суми голосів збігаються). Неоднозначність усувається остаточно, якщо

взяти нелінійно спадну послідовність, скажімо, геометричну прогресію:

𝑤𝑖 = 𝑞𝑖 ,

де знаменник прогресії 𝑞 ∈ (0,1) є параметром алгоритму. Його можна

підбирати за критерієм LOO, аналогічно числу сусідів k.

20

1.1.3. Недоліки найпростіших метричних алгоритмів типу kNN.

1) Доводиться зберігати навчальну вибірку цілком. Це призводить до

неефективної витрати пам'яті і надмірного ускладнення вирішального правила.

При наявності похибок (як у вихідних даних, так і в моделі подібності ρ) це

може призводити до зниження точності класифікації поблизу кордону класів.

Має сенс відбирати мінімальне підмножина еталонних об'єктів, дійсно

необхідних для класифікації [1].

2) Пошук найближчого сусіда передбачає порівняння класифікуючого

об'єкта з усіма об'єктами вибірки за 𝑂(𝑙) операцій. Для задач з великими

вибірками та високою частотою запитів це може виявитися накладно.

Проблема вирішується за допомогою ефективних алгоритмів пошуку

найближчих сусідів, які потребують в середньому 𝑂(ln 𝑙) операцій [1].

3) У найпростіших випадках метричні алгоритми мають вкрай бідний набір

параметрів, що виключає можливість настройки алгоритму за даними [1].

21

1.1.4. Метод парзенівского вікна

Ще один спосіб задати ваги сусідам ‒ визначити 𝑤𝑖 як функцію від

відстані 𝜌(𝑢, 𝑥𝑢(𝑖)), а не від рангу сусіда i. Введемо функцію ядра 𝐾 (𝑧),

незростаюча на [0,∞). Поклавши 𝑤 (𝑖, 𝑢) = 𝐾(1

ℎ𝜌(𝑢, 𝑥𝑢

(𝑖))) в загальній формулі

(1), отримаємо алгоритм

𝑎(𝑢; 𝑋𝑙 , ℎ) = argmax𝑦∈𝑌

∑[𝑦 𝑢( 𝑖)= 𝑦]𝐾(

1

ℎ𝜌(𝑢, 𝑥𝑢

(𝑖)))

𝑙

𝑖=1

(2)

Параметр h називається шириною вікна і грає приблизно ту ж роль, що і

число сусідів k. «Вікно» ‒ це сферичний окіл об'єкта u радіуса h, при попаданні

в яку навчальний об'єкт 𝑥𝑖 «голосує» за віднесення об'єкта u до класу 𝑦𝑖 . Цей

алгоритм був знайдений чисто евристичним шляхом, проте він має більш

суворе обгрунтування в байєсівської теорії класифікації, і, фактично, збігається

з методом парзенівского вікна [1].

Параметр h можна задавати апріорі або визначати через ковзний

контроль. Залежність LOO (h), як правило, має характерний мінімум, оскільки

занадто вузькі вікна призводять до нестійкої класифікації; а надто широкі ‒ до

виродження алгоритму в константу. Фіксація ширини вікна h не підходить для

тих завдань, в яких навчальні об'єкти істотно нерівномірно розподілені по

простору 𝑋. В околиці одних об'єктів може надаватися дуже багато сусідів, а в

околиці інших ‒ жодного. У цих випадках застосовується вікно змінної ширини.

Візьмемо фінітне ядро ‒ незростаючу функцію 𝐾 (𝑧), додатню на відрізку

[0,1], і рівну нулю поза ним. Визначимо ℎ як найбільше число, при якому рівно

𝑘 найближчих сусідів об'єкта 𝑢 отримують ненульові ваги:

ℎ (𝑢) = 𝜌 (𝑢, 𝑥𝑢(𝑘 + 1)

).

Тоді алгоритм набирає вигляду

𝑎(𝑢; 𝑋𝑙 , 𝑘) = argmax𝑦∈𝑌

∑[𝑦 𝑢( 𝑖)= 𝑦]𝐾 (

𝜌(𝑢, 𝑥𝑢(𝑖))

𝜌(𝑢, 𝑥𝑢(𝑖)))

𝑘

𝑖=1

(3)

22

Зауважимо, що при фінітному ядрі класифікація об'єкта зводиться до пошуку

його сусідів, тоді як прі не фінітному ядрі (наприклад, гаусовському) потрібний

перебір всієї навчальної вибірки [1].

23

1.1.5. Метод потенційних функцій

У методі парзеновского вікна центр радіального ядра

𝐾ℎ(𝑢, 𝑥) = 𝐾 (1

ℎ𝜌 (𝑢, 𝑥))

поміщається в класифікується об'єкт 𝑢. В силу симетричності функції відстані

𝜌 (𝑢, 𝑥) можливий й інший, двоїстий, погляд на метричну класифікацію.

Припустимо, що ядро поміщається в кожен навчальний об'єкт 𝑥𝑖 і «притягує»

об'єкт u до класу 𝑦𝑖 , якщо він потрапляє в його окіл радіусу ℎ𝑖:

𝑎(𝑢; 𝑋𝑙) = argmax𝑦∈𝑌

∑[𝑦𝑖 = 𝑦]𝛾𝑖𝐾 (𝜌(𝑢, 𝑥𝑖)

ℎ𝑖)

𝑙

𝑖=1

, 𝛾𝑖 ≥ 0, ℎ𝑖 > 0. (4)

По суті, ця формула відрізняється від (3) тільки тим, що тут ширина вікна

ℎ𝑖 залежить від навчального об'єкта 𝑥𝑖, а не від класифікуючого об'єкта u [1].

Алгоритм 1. [1], [3]

Вхід:

𝑋𝑙 - навчальна вибірка;

Вихід:

Коефіцієнти 𝛾𝑖, 𝑖 = 1, . . . , ℓ в (4);

1: Ініціалізація: 𝛾𝑖, 𝑖 = 1, . . . , ℓ;

2: повторювати

3: вибрати об'єкт 𝑥𝑖 ∈ 𝑋𝑙;

4: якщо 𝑎 (𝑥𝑖) ≠ 𝑦𝑖 то

5: 𝛾𝑖 ≔ 𝛾𝑖 + 1;

6: поки число помилок на вибірці не виявиться достатньо мале.

Дана ідея лежить в основі методу потенційних функцій і має пряму

фізичну аналогію з електричним потенціалом. При 𝑌 = {−1,+ 1} навчальні

об'єкти можна розуміти як позитивні і негативні електричні заряди;

коефіцієнти ‒ 𝛾𝑖 як абсолютну величину цих зарядів; ядро 𝐾 (𝑧) ‒ як залежність

потенціалу від відстані до заряду; а саму задачу класифікації ‒ як відповідь на

24

питання: який знак має електростатичний потенціал в заданій точці простору

u. Зауважимо, що в електростатики 𝐾 (𝑧) = 1

𝑧 або

1

𝑧+𝑎, однак для наших цілей

зовсім не обов'язково брати саме таке ядро.

Алгоритм (4) має досить багатий набір з 2ℓ параметрів 𝛾𝑖, ℎ𝑖.

Найпростіший та історично найперший метод їх налаштування представлений

в алгоритмі 1. Він налаштовує тільки ваги 𝛾𝑖, припускаючи, що радіуси

потенціалів ℎ𝑖 і ядро 𝐾 обрані заздалегідь. Ідея дуже проста: якщо навчальний

об'єкт 𝑥𝑖 класифікується невірно, то потенціал класу 𝑦𝑖 недостатній в точці 𝑥𝑖,

і вага 𝛾𝑖 збільшується на одиницю. Вибір об'єктів на кроці 3 краще здійснювати

не підряд, а у випадковому порядку. Цей метод не так уже й поганий, як можна

було б подумати [1], [4].

25

1.1.6. Відсів викидів

Об'єкти навчання в основному є нерівноцінними, але серед них є такі, які

володіють характерними ознаками класу і іменуються еталонами. При

близькості розглянутого предмета до ідеального зразка висока ймовірність

його приналежності до даного класу.

Наскільки результативний метод найближчих сусідів? Приклад можна

подивитися на основі периферійних і неінформативних категорій об'єктів.

Передбачається щільне оточення розглянутого об'єкта іншими представниками

даного класу. При видаленні їх з взятої вибірки якість класифікації не

постраждає. Потрапити в таку вибірку може певне число шумових викидів, які

знаходяться «в гущавині» іншого класу. Видалення в основному позитивно

відбивається на якості проведеної класифікації. Якщо з взятої вибірки усувають

неінформативні і шумові об'єкти, можна розраховувати на кілька позитивних

результатів одночасно. В першу чергу інтерполяція методом найближчого

сусіда дозволяє підвищувати якість класифікації, скорочувати обсяг

збережених даних, зменшувати час класифікації, яке витрачається на вибір

найближчих еталонів [4].

26

1.1.7. Гідність та недоліки алгоритму

Гідність Алгоритму 1 в тому, що він дуже ефективний, коли навчальні

об'єкти надходять потоком, і зберігати їх в пам'яті немає можливості або

необхідності. У ті роки, коли метод потенційних функцій був придуманий,

зберігання вибірки дійсно було великою проблемою. В даний час такої

проблеми немає, і Алгоритм 1 представляє швидше історичний інтерес.

Недоліків у Алгоритму 1 досить багато [1]:

він повільно сходиться;

результат навчання залежить від порядку представлення об'єктів;

занадто грубо (з кроком 1) налаштовуються ваги 𝛾𝑖:

центри потенціалів чомусь поміщаються тільки в навчальні

об'єкти;

задача мінімізації числа потенціалів (ненульових 𝛾𝑖) взагалі не

ставиться;

взагалі не настроюються параметри ℎ𝑖.

В результаті даний алгоритм не може похвалитися високою якістю

класифікації.

27

1.2. Інтеграли Лапласа

1.2.1. Евристичні міркування.

Інтегралами Лапласа [2] називаються інтеграли виду

𝐹(𝜆) = ∫𝑓(𝑥) exp[𝜆𝑆(𝑥)] 𝑑𝑥, (5)

𝑏

𝑎

де 𝑆(𝑥) – дійснозначна функція, 𝜆 − великий додатній параметр. Функція 𝑓(𝑥)

може приймати комплексні значення. Будемо вважати, що 𝐼 = [𝑎, 𝑏] −

скінчений відрізок і що 𝑓(𝑥), 𝑆(𝑥) − достатньо гладкі при 𝑥 ∈ 𝐼 функції.

Нехай max𝑥∈𝐼

𝑆(𝑥) = 𝑆(𝑥0) функції досягається тільки в точці 𝑥0. Тоді

функція exp[𝜆𝑆(𝑥)] має максимум в точці 𝑥0, який тим різкіший, чим більше 𝜆

(рис. 3).

Інтеграл 𝐹(𝜆) можна замінити інтегралом на малому околі точки

максимуму 𝑥0, і це приближення буде точніше, чим більше 𝜆. Далі, в цьому

околі функції 𝑓, 𝑆 можна наближено замінити по формулі Тейлора, і ми

отримаємо інтеграл, асимптотика якого легко вираховується. Цей метод був

запропонований Лапласом.

Нехай 𝑎 < 𝑥0 < 𝑏. Тоді 𝑆′(𝑥0) = 0; нехай для простоти 𝑆′′(𝑥0) ≠

0, 𝑓(𝑥0) ≠ 0. Тоді [2]

𝑒𝜆𝑆

x a b 𝑥0

Рис. 3

28

𝐹(𝜆) ≈ ∫ 𝑓(𝑥) exp[𝜆𝑆(𝑥)] 𝑑𝑥

𝑥0+

𝑥0−

,

де 휀 > 0 − мале фіксоване число, і

𝑓(𝑥) ≈ 𝑓(𝑥0), 𝑆(𝑥) ≈ 𝑆(𝑥0) +(𝑥 − 𝑥0)

2

2𝑆′′(𝑥0).

Отже,

𝐹(𝜆) ≈ 𝑓(𝑥0) exp[𝜆𝑆(𝑥0)] ∫exp [𝜆𝑆′′(𝑥0)

2𝑡2]

−

𝑑𝑡.

Помітимо, що 𝑆′′(𝑥0) < 0. Останній інтеграл дорівнює

[−𝜆𝑆′′(𝑥0)]−1/2 ∫ 𝑒−𝑡

2/2

√𝜆

− √𝜆

𝑑𝑡 ~ √−2𝜋

𝜆𝑆′′(𝑥0) (𝜆 → ∞),

так як

∫ 𝑒−𝑡2/2

∞

−∞

𝑑𝑡 = √2𝜋.

Отже, ми отримали асимптотичну формулу

𝐹(𝜆) ≈ √−2𝜋

𝜆𝑆′′(𝑥0)𝑓(𝑥0)𝑒

𝜆 𝑆(𝑥0) (𝜆 → + ∞). (6)

Нехай тепер 𝑥0 співпадає з одним із кінців відрізку 𝐼, наприклад, 𝑥0 = 𝑎,

і нехай для простоти 𝑆′(𝑎) ≠ 0, 𝑓(𝑎) ≠ 0. Заміняючи 𝐹(𝜆) інтегралом на

відрізку [𝑎, 𝑎 + 휀] і замінюючи приблизно на цьому відрізку функції

𝑓(𝑥) ≈ 𝑓(𝑎), 𝑆(𝑥) ≈ 𝑆(𝑎) + (𝑥 − 𝑎)𝑆′(𝑎),

отримуємо, що

𝐹(𝜆) ≈ 𝑓(𝑎) exp[𝜆𝑆(𝑎)]∫ exp[𝑡𝑆′(𝑎)]𝑑𝑡 .

𝛿

0

Помітимо, що 𝑆′(𝑎) < 0. Обчислюючи останній інтеграл, отримаємо

29

𝐹(𝜆) ≈ −𝑓(𝑎) exp[𝜆𝑆(𝑎)]

𝜆𝑆′(𝑎) (𝜆 → + ∞). (7)

По суті, ці дві формули є основними асимптотичними формулами для

інтегралів Лапласа. Прості асимптотичні формули вдалось отримати через

наступні причини [2]:

1о. Підінтегральна функція має при великих 𝜆 різкий максимум (тобто

інтеграл по відрізку 𝐼 можна наближено замінити інтегралом по малому околу

точки максимуму.)

2о. В околі точки максимуму підінтегральну функцію можна замінити

більш простою (наприклад, такою, що інтеграл від неї береться або

асимптотика легко вираховується).

30

1.2.2. Найпростіші оцінки

Лема 1.1. [2] Нехай

𝑀 = 𝑠𝑢𝑝𝑎 < 𝑥 < 𝑏

𝑆(𝑥) < ∞ (8)

і при деякому 𝜆0 > 0 інтеграл (5) збігається абсолютно:

∫|𝑓(𝑥)| 𝑒𝑥𝑝[𝜆0𝑆(𝑥)]𝑑𝑥 < ∞. (9)

𝑏

𝑎

Тоді має місце оцінка

|𝐹(𝜆)| ≤ 𝐶|𝑒𝜆𝑀| (𝑅𝑒𝜆 ≥ 𝜆0). (10)

Лема 1.2. [2] (лема Ватсона). Нехай 𝛼 > 0, 𝛽 > 0, 𝑓(𝑥) ∈ 𝐶∞([0, 𝑎]).

Тоді при 𝜆 → ∞, 𝜆 ∈ 𝑆 , справедливе асимптотичний розклад

𝛷(𝜆)~1

𝛼∑𝜆−

𝑘+𝛽𝛼

∞

𝑘=0

𝛤 (𝑘 + 𝛽

𝛼)𝑓(𝑘)(0)

𝑘!. (11)

Цей розклад можна диференціювати по 𝜆 будь-яке число раз.

𝑆 − сектор |arg 𝜆| ≤𝜋

2− 휀 <

𝜋

2 в комплексній площині 𝜆. 휀 > 0 може бути

вибраним скільки завгодно малим, але таким, що не залежить від 𝜆.

31

1.2.3. Вклад від граничної точки максимуму (основний випадок).

Теорема 1.1.[2] Нехай 𝐼 = [𝑎, 𝑏] - скінчений відрізок і виконуються

умови:

1. 𝑚𝑎𝑥𝑥∈𝐼

𝑆(𝑥) досягається тільки в точці 𝑥 = 𝑎.

2. 𝑓(𝑥), 𝑆(𝑥) ∈ 𝐶(𝐼) .

3. 𝑓(𝑥), 𝑆(𝑥) ∈ 𝐶∞ при 𝑥, близьких до 𝑎, і 𝑆′(𝑎) ≠ 0.

Тоді при 𝜆 → ∞, 𝜆 ∈ 𝑆 ,

𝐹(𝜆)~𝑒𝑥𝑝{𝜆𝑆(𝑎)}∑𝑐𝑘𝜆−𝑘−1

∞

𝑘=0

. (12)

Коефіцієнти 𝑐𝑘 мають вид

𝑐𝑘 = −𝑀𝑘 (𝑓(𝑥)

𝑆′(𝑥)) |𝑥=𝑎, 𝑀 = −

1

𝑆′(𝑥)

𝑑

𝑑𝑥. (13)

Цей розклад можна диференціювати по 𝜆 будь-яке число раз.

Доведення [2]. Виберемо 𝛿 > 0 таке, що 𝑆′(𝑥) ≠ 0 при 𝑥 ∈ [𝑎, 𝑎 + 𝛿], і

покладемо 𝐹(𝜆) = 𝐹1(𝜆) + 𝐹2(𝜆), де 𝐹1(𝜆) − інтеграл по відрізку [𝑎, 𝑎 + 𝛿]. В

силу леми 1.1 інтеграл 𝐹2(𝜆) експоненціально малий у порівнянні з exp{𝜆𝑆(𝑎)}.

Інтегруючи частинами, отримуємо

𝐹1(𝜆) = 𝜆−1 ∫

𝑓(𝑥)

𝑆′(𝑥)𝑑 exp[𝜆𝑆(𝑥)] =

𝑎+𝛿

𝑎

=𝑓(𝑥) exp[𝜆𝑆(𝑥)]

𝜆𝑆′(𝑥)|𝑎 + 𝛿

𝑎− 𝜆−1 ∫

𝑑

𝑑𝑥(𝑓(𝑥)

𝑆′(𝑥)) exp[𝜆𝑆(𝑥)]𝑑𝑥.

𝑎+𝛿

𝑎

Інтегруючи точно так же частинами ще 𝑁 − 1 раз, отримуємо

𝐹1(𝜆) = ∑(−𝜆)−𝑘−1𝑁

𝑘=0

𝑀𝑘 (𝑓(𝑥)

𝑆′(𝑥)) exp[𝜆𝑆(𝑥)]𝑑𝑥|

𝑎 + 𝛿

𝑎−

−𝜆−𝑁−1 ∫ [𝑀𝑁 (𝑓(𝑥)

𝑆′(𝑥))]′

𝑎+𝛿

𝑎

exp[𝜆𝑆(𝑥)]𝑑𝑥, (14)

32

де 𝑀 − оператор (13), 𝑀0 − одиничний оператор. Поза інтегральна підстановка

в (14) при 𝑥 = 𝑎 дає 𝑁 доданків ряду (12), а підстановка при 𝑥 = 𝑎 + 𝛿

експоненціально мала у порівнянні з exp[𝜆𝑆(𝑎)]. Останній інтеграл (1.9) є

𝑂(𝜆−𝑁−1 exp[𝜆𝑆(𝑎)]), тобто принаймні того ж порядку, що і останній доданок

в сумі і (14). Це дуже груба оцінка, але її достатньо:

𝐹(𝜆) = exp[𝜆𝑆(𝑎)] [∑ 𝑐𝑘𝜆−𝑘−1

𝑁−1

𝑘=0

+ 𝑂(𝜆−𝑁)], (14′)

і (12) слідує із того, що 𝑁 довільне.

Диференціювання 𝐹(𝜆) по 𝜆 приводить до інтегралу того ж вигляду.

Головний член асимптотики має вид (7)

Теорема 1.2. [2] Нехай умови 1о, 2о теореми 1.1 виконані, і 𝑆(𝑥) ∈ 𝐶1 при

𝑥, близьких до 𝑎, 𝑆′(𝑎) ≠ 0. Тоді при 𝜆 → ∞, 𝜆 ∈ 𝑆 , справедлива формула (7).

33

Розділ 2. Дослідження ймовірності помилки при класифікації

2.1. Постановка задачі

Нехай дано дві навчальні вибірки незалежних однаково розподілених

випадкових величин 𝜉1, … , 𝜉[𝑎𝑛] та 𝜂1, … , 𝜂[𝑐𝑛] із неперервними щільностями

𝑝𝜉(𝑥), 𝑝𝜂(𝑥), 𝑥 ∈ ℝ, відповідно, де 𝑎 > 0, 𝑐 > 0 – фіксовані числа, [𝑥] –

означає цілу частину числа 𝑥.

Нехай 𝑥0- деяка точка. Проведемо класифікацію точки 𝑥0 за допомогою

методу найближчого сусіда.

2.1.1. Одновимірний випадок.

Будемо класифікувати точку 𝑥0 як 𝜉, якщо найближчим сусідом з

𝜉1, … , 𝜉[𝑎𝑛] та 𝜂1, … , 𝜂[𝑐𝑛] є елемент з 𝜉1, … , 𝜉[𝑎𝑛].

Далі цілі частини в [𝑎𝑛] і [𝑐𝑛] будемо опускати для скорочення

позначень. Тобто 𝑥0 класифікується як елемент 𝜉, якщо

min(|𝜉1 − 𝑥0|, … , |𝜉𝑎𝑛 − 𝑥0|) ≤min(|𝜂1 − 𝑥0|, … , |𝜂𝑐𝑛 − 𝑥0|).

Оскільки випадкові величини мають щільність, то ймовірність того, що в

останній нерівності буде рівність, дорівнює нулю.

Для простоти розглянемо випадок, коли 𝑥0 = 0. Розподіли 𝜉 і 𝜂

зосереджені на [0,∞).

Тоді ймовірність того, що точка 𝑥0 класифікується як 𝜉, дорівнює

Ρ(min(𝜉1, … , 𝜉𝑎𝑛) < min(𝜂1, … , 𝜂𝑐𝑛)) =

= ∫ 𝑝min(𝜉1,… ,𝜉𝑎𝑛)(𝑥)𝑝min(𝜂1,… ,𝜂𝑐𝑛)(𝑦)

𝑥≤𝑦

𝑑𝑥𝑑𝑦. (2.1)

34

Як ми знаємо, похідна від функції розподілу дорівнює щільності цього

розподілу

𝑝min(𝜉1,… ,𝜉𝑎𝑛)(𝑥) = 𝐹′min(𝜉1,… ,𝜉𝑎𝑛)(𝑥).

Спочатку знайдемо функцію розподілу мінімуму :

𝐹min(𝜉1,… ,𝜉𝑎𝑛)(𝑥) = 𝑃(min(𝜉1, … , 𝜉𝑎𝑛) ≤ 𝑥) = 1 − 𝑃(min(𝜉1, … , 𝜉𝑎𝑛) > 𝑥) =

= 1 − 𝑃({𝜉1 > 𝑥} ∩ {𝜉2 > 𝑥} ∩ …∩ {𝜉𝑎𝑛 > 𝑥}).

Оскільки 𝜉1, … , 𝜉𝑎𝑛 незалежні, то ймовірність від добутку дорівнює добутку

ймовірностей

1 − 𝑃({𝜉1 > 𝑥} ∩ {𝜉2 > 𝑥} ∩ …∩ {𝜉𝑎𝑛 > 𝑥}) =

= 1 − 𝑃(𝜉1 > 𝑥)𝑃(𝜉2 > 𝑥)…𝑃(𝜉𝑎𝑛 > 𝑥).

За означенням 𝑃(𝜉1 > 𝑥) дорівнює одиниця мінус функція розподілу цієї

випадкової величини

𝑃(𝜉1 > 𝑥) = 1 − 𝐹𝜉1(𝑥).

Тобто маємо

1 − 𝑃(𝜉1 > 𝑥)𝑃(𝜉2 > 𝑥)…𝑃(𝜉𝑎𝑛 > 𝑥) =

= 1 − (1 − 𝐹𝜉1(𝑥)) (1 − 𝐹𝜉1(𝑥))… (1 − 𝐹𝜉1(𝑥)) =

= 1 − (1 − 𝐹𝜉1(𝑥))𝑎𝑛.

Отже,

𝐹min(𝜉1,… ,𝜉𝑎𝑛)(𝑥) = 1 − (1 − 𝐹𝜉(𝑥))𝑎𝑛.

Знайдемо щільність від функції розподілу, що дорівнює похідній від функції

розподілу

𝑝min(𝜉1,… ,𝜉𝑎𝑛)(𝑥) = (1 − (1 − 𝐹𝜉(𝑥))𝑎𝑛)′ = 𝑎𝑛(1 − 𝐹𝜉(𝑥))

𝑎𝑛−1𝐹𝜉(𝑥)

= 𝑎𝑛𝑝𝜉(𝑥)(1 − 𝐹𝜉(𝑥))𝑎𝑛−1.

Аналогічно для іншої випадкової величини

𝑝min(𝜂1,… ,𝜂𝑐𝑛)(𝑦) = 𝐹′min(𝜂1,… ,𝜂𝑐𝑛)

(𝑦),

𝑝min(𝜂1,… ,𝜂𝑐𝑛)(𝑦) = (1 − (1 − 𝐹𝜂(𝑦))𝑐𝑛)′ = 𝑐𝑛(1 − 𝐹𝜂(𝑦))

𝑐𝑛−1𝐹𝜂(𝑦) =

= 𝑐𝑛𝑝𝜂(𝑥)(1 − 𝐹𝜂(𝑦))𝑐𝑛−1.

35

Підставимо знайдені значення у інтеграл (2.1) і розв’яжемо його



𝑥≤𝑦

𝑑𝑥𝑑𝑦 =

= ∫ 𝑑𝑥

∞

0

∫ 𝑎𝑛𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))𝑎𝑛−1

∞

𝑥

𝑐𝑛𝑝𝜂(𝑥) (1 − 𝐹𝜂(𝑦))𝑐𝑛−1

𝑑𝑦 =

= ∫ 𝑎𝑐𝑛2𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))𝑎𝑛−1

(∫ (1 − 𝐹𝜂(𝑦))𝑐𝑛−1

𝑑𝐹𝜂(𝑦)

∞

𝑥

)𝑑𝑥 =

∞

0

= 𝑎𝑐𝑛2∫ 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))𝑎𝑛−1

(−(1 − 𝐹𝜂(𝑦))

𝑐𝑛

𝑐𝑛|∞𝑥)𝑑𝑥 =

∞

0

= 𝑎𝑛∫ 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))𝑎𝑛−1

((1 − 𝐹𝜂(𝑥))𝑐𝑛− (1 − 𝐹𝜂(∞))

𝑐𝑛

) 𝑑𝑥.

∞

0

(2.2)

Оскільки функція розподілу від нескінченності дорівнює одиниці, то

(1 − 𝐹𝜂(∞))𝑐𝑛= 0,

і права частина (2.2) дорівнює

Ρ(min(𝜉1, … , 𝜉𝑎𝑛) < min(𝜂1, … , 𝜂𝑐𝑛)) = ⋯ =

= 𝑎𝑛∫ 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))𝑎𝑛−1

(1 − 𝐹𝜂(𝑥))𝑐𝑛𝑑𝑥 =

∞

0

= 𝑎𝑛∫ 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))−1

(1 − 𝐹𝜉(𝑥))𝑎𝑛

(1 − 𝐹𝜂(𝑥))𝑐𝑛

𝑑𝑥 =

∞

0

= 𝑎𝑛∫ 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))−1

[(1 − 𝐹𝜉(𝑥))𝑎

(1 − 𝐹𝜂(𝑥))𝑐

]𝑛

𝑑𝑥. (2.3)

∞

0

Наступним кроком є знаходження граничної поведінки (2.3) при 𝑛 → ∞.

Для цього розглянемо інтеграл Лапласа 𝐹(𝜆)

36

𝐹(𝜆) = ∫𝑓(𝑥) exp{𝜆𝑆(𝑥)} 𝑑𝑥.

𝑏

𝑎

Перепишемо інтеграл (3) через експоненту та логарифм


= 𝑎𝑛∫ 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))−1

[(1 − 𝐹𝜉(𝑥))𝑎

(1 − 𝐹𝜂(𝑥))𝑐

]𝑛

𝑑𝑥 =

∞

0

= 𝑎𝑛∫ 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))−1𝑒ln[(1−𝐹𝜉(𝑥))

𝑎(1−𝐹𝜂(𝑥))

𝑐

]

𝑛

𝑑𝑥 =

∞

0

= 𝑎𝑛∫ 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))−1𝑒𝑛 ln(1−𝐹𝜉(𝑥))


𝑐

𝑑𝑥. (2.4)

∞

0

Отже,

𝑓(𝑥) = 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))−1,

𝑆(𝑥) = ln (1 − 𝐹𝜉(𝑥))𝑎

(1 − 𝐹𝜂(𝑥))𝑐

, 𝜆 = 𝑛.

Для ілюстрації (2.4) розглянемо наступний приклад.

Приклад 1. Нехай 𝜉1, … , 𝜉𝑎𝑛 і 𝜂1, … , 𝜂𝑐𝑛 мають показниковий розподіл з

параметрами 𝜆 і 𝜇 відповідно. Треба знайти ймовірність того, що точка 𝑥0

класифікується як 𝜉.

Нам треба знайти



𝑥≤𝑦

𝑑𝑥𝑑𝑦,

користуючись формулою (2.4) розв’яжемо даний інтеграл, де

𝑝min(𝜉1,… ,𝜉𝑎𝑛)(𝑥) = 𝐹′min(𝜉1,… ,𝜉𝑎𝑛)(𝑥),

𝑝min(𝜂1,… ,𝜂𝑐𝑛)(𝑦) = 𝐹′min(𝜂1,… ,𝜂𝑐𝑛)(𝑦).

Для показникового розподілу щільність і функція розподілу мають

вигляд відповідно:

37

𝑝𝜉(𝑥) = 𝜆𝑒−𝜆𝑥, 𝑥 ≥ 0, 𝐹𝜉(𝑥) = 1 − 𝑒

−𝜆𝑥, 𝑥 > 0.

Знайдемо функцію розподілу мінімуму:

𝐹min(𝜉1,… ,𝜉𝑎𝑛)(𝑥) = 𝑃(min(𝜉1, … , 𝜉𝑎𝑛) < 𝑥) = 1 − 𝑒−𝜆𝑎𝑛𝑥 , 𝑥 > 0,

𝐹min(𝜂1,… ,𝜂𝑐𝑛)(𝑦) = 1 − 𝑒−𝜇𝑐𝑛𝑦 , 𝑦 > 0.

Тоді

𝑝min(𝜉1,… ,𝜉𝑎𝑛)(𝑥) = (1 − 𝑒−𝜆𝑎𝑛𝑥)

′= 𝜆𝑎𝑛𝑒−𝜆𝑎𝑛𝑥 ,

𝑝min(𝜂1,… ,𝜂𝑐𝑛)(𝑦) = 𝜇𝑐𝑛𝑒−𝜇𝑐𝑛𝑦 .

Підставимо знайдені значення у (2.4):

𝑎𝑛∫ 𝜆𝑒−𝜆𝑥(1 − (1 − 𝑒−𝜆𝑥))−1𝑒𝑛 ln(1−(1−𝑒

−𝜆𝑥))𝑎(1−(1−𝑒−𝜇𝑥))𝑐𝑑𝑥 =

∞

0

= 𝑎𝑛∫ 𝜆𝑒−𝜆𝑥(𝑒−𝜆𝑥)−1𝑒𝑛 ln(𝑒

−𝜆𝑥)𝑎(𝑒−𝜇𝑥)𝑐𝑑𝑥 =

∞

0

= 𝑎𝑛∫ 𝜆𝑒−𝜆𝑥𝑒𝜆𝑥[(𝑒−𝜆𝑥)𝑎(𝑒−𝜇𝑥)𝑐]

𝑛𝑑𝑥 =

∞

0

= 𝑎𝑛𝜆∫[(𝑒−𝜆𝑥)𝑎(𝑒−𝜇𝑥)𝑐]

𝑛𝑑𝑥 = 𝑎𝑛𝜆∫ 𝑒−𝑥(𝜆𝑎𝑛+𝜇𝑐𝑛)𝑑𝑥 =

∞

0

∞

0

= 𝜆𝑎𝑛 (−1

𝜆𝑎𝑛 + 𝜇𝑐𝑛) 𝑒−𝑥(𝜆𝑎𝑛+𝜇𝑐𝑛) |

∞0=

𝜆𝑎

𝜆𝑎 + 𝜇𝑐.

Перевіримо стандартним способом і отримаємо:

∫ 𝑝min(𝜉1,… ,𝜉𝑎𝑛)(𝑥)𝑝min(𝜂1,… ,𝜂𝑐𝑛)(𝑦)

𝑥≤𝑦

𝑑𝑥𝑑𝑦 =

= ∫ 𝑑𝑥

∞

0

∫ 𝜆𝑎𝑛𝑒−𝜆𝑎𝑛𝑥𝜇𝑐𝑛𝑒−𝜇𝑐𝑛𝑦𝑑𝑦 =

∞

𝑥

= ∫ 𝜆𝑎𝑛𝑒−𝜆𝑎𝑛𝑥(𝜇𝑐𝑛(−1

𝜇𝑐𝑛)𝑒−𝜇𝑐𝑛𝑦) |

∞𝑥𝑑𝑥

∞

0

=

38

= 𝜆𝑎𝑛∫ 𝑒−𝑥(𝜆𝑎𝑛+𝜇𝑐𝑛)𝑑𝑥 =

∞

0

𝜆𝑎𝑛 (−1

𝜆𝑎𝑛 + 𝜇𝑐𝑛) 𝑒−𝑥(𝜆𝑎𝑛+𝜇𝑐𝑛) |

∞0=

=𝜆𝑎𝑛

𝜆𝑎𝑛 + 𝜇𝑐𝑛=

𝜆𝑎

𝜆𝑎 + 𝜇𝑐.

Для дослідження асимптотичної поведінки інтеграла (2.4) скористаємося

теоремою 1.1. із попереднього розділу.

У нашому випадку 𝜆 = 𝑛, 𝑓(𝑥) = 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))−1

,

𝑆(𝑥) = ln (1 − 𝐹𝜉(𝑥))𝑎

(1 − 𝐹𝜂(𝑥))𝑐

, 𝑆(0) = 0.

Нам достатньо взяти 𝑘 = 0, щоб знайти головний член асимптотики

інтегралу. Відмітимо, що в роботі [2] функції припускались із класу ℂ∞.

Можна перевірити, що для знаходження головного члена достатньо

припускати лише неперервну диференціальність.

Отже,


= 𝑎𝑛∫ 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))−1𝑒𝑛 ln(1−𝐹𝜉(𝑥))


𝑐

𝑑𝑥~

∞

0

~ 𝑎𝑛𝑒𝑛𝑆(0)𝑐0𝑛−1, 𝑛 → ∞. (2.5)

𝑓(𝑥)|𝑥=0 = 𝑝𝜉(𝑥) (1 − 𝐹𝜉(𝑥))−1|𝑥=0 = 𝑝𝜉(0),

𝑆(𝑥) = ln (1 − 𝐹𝜉(𝑥))𝑎

(1 − 𝐹𝜂(𝑥))𝑐

= −𝑎 ln (1 − 𝐹𝜉(𝑥)) − 𝑐 ln (1 − 𝐹𝜂(𝑥)),

𝑆′(𝑥)|𝑥=0 = −𝑎

1 − 𝐹𝜉(𝑥)(−𝑝𝜉(𝑥)) −

𝑐

1 − 𝐹𝜂(𝑥)(−𝑝𝜂(𝑥)) |𝑥=0 =

= 𝑎𝑝𝜉(0) + 𝑐𝑝𝜂(0),

𝑀0 = 1,

𝑐0 = −𝑀𝑘 (

𝑓(𝑥)

𝑆′(𝑥)) |𝑥=0 =

𝑝𝜉(0)

𝑎𝑝𝜉(0) + 𝑐𝑝𝜂(0).

Звідси

𝑆′(0) = 𝑎𝑝𝜉(0) + 𝑐𝑝𝜂(0).

39

Підставимо отримані значення в (5) і перейдемо до границі при 𝑛 → ∞.

Отже, ми довели, що

lim𝑛→∞

Ρ(min(𝜉1, … , 𝜉𝑎𝑛) ≤min(𝜂1, … , 𝜂𝑐𝑛)) = 𝑎𝑝𝜉(0)

𝑎𝑝𝜉(0) + 𝑐𝑝𝜂(0) .

Аналогічно розглядається класифікація довільної точки 𝑥0 методом

найближчого сусіда.

Теорема 2.1. Нехай 𝑝𝜉(𝑥), 𝑝𝜂(𝑥), 𝑥 ≥ 0 неперервні в точці 𝑥0. Тоді

𝑙𝑖𝑚𝑛→∞

𝛲(𝑚𝑖𝑛(|𝜉1 − 𝑥0|, … , |𝜉𝑎𝑛 − 𝑥0|) ≤𝑚𝑖𝑛(|𝜂1 − 𝑥0|, … , |𝜂𝑐𝑛 − 𝑥0|)) =

= 𝑎𝑝𝜉(0)

𝑎𝑝𝜉(0) + 𝑐𝑝𝜂(0) .

Приклад 2. Нехай випадкові величини 𝜉1, … , 𝜉𝑛 мають рівномірний

розподіл на [0, T], а 𝜂1, … , 𝜂𝑚 – на [0, S], де S > T. Знайдемо всі характеристики,

які виникали у міркуваннях, що провели до теореми 2.1.

Обчислимо функції розподілу

𝐹(𝑥) = {

0, 𝑥 < 0,𝑥

𝑇, 0 ≤ 𝑥 ≤ 𝑇,

1, 𝑥 > 𝑇.

Тому

𝐹min(𝜉1,… ,𝜉𝑛)(𝑥) = {

0, 𝑥 < 0,

1 − (1 −𝑥

𝑇)𝑛

, 0 ≤ 𝑥 ≤ 𝑇,

1, 𝑥 > 𝑇;

𝐹min(𝜂1,… ,𝜂𝑚)(𝑥) = {

0, 𝑦 < 0,

1 − (1 −𝑦

𝑆)𝑛

, 0 ≤ 𝑦 ≤ 𝑆,

1, 𝑦 > 𝑆.

Отже,

𝑝min(𝜉1,… ,𝜉𝑛)(𝑥) = 𝐹′min(𝜉1,… ,𝜉𝑛)

(𝑥) =𝑛

𝑇(1 −

𝑥

𝑇)𝑛−1,

𝑝min(𝜂1,… ,𝜂𝑚)(𝑦) = 𝐹′min(𝜂1,… ,𝜂𝑚)

(𝑦) =𝑚

𝑆(1 −

𝑦

𝑆)𝑚−1.

40

Ρ(min(𝜉1, … , 𝜉𝑛) < min(𝜂1, … , 𝜂𝑚) = ∫𝑑𝑥∫𝑛

𝑇(1 −

𝑥

𝑇)𝑛−1

𝑚

𝑆(1 −

𝑦

𝑆)𝑚−1𝑑𝑦 =

𝑆

𝑥

𝑇

0

= ∫𝑛

𝑇(1 −

𝑥

𝑇)𝑛−1𝑚

𝑆 (−𝑆

𝑚(1 −

𝑦

𝑆)𝑚

|𝑆

𝑥) 𝑑𝑥

𝑇

0

=

= −∫𝑛

𝑇(1 −

𝑥

𝑇)𝑛−1𝑚

𝑆 (−(1 −

𝑥

𝑆)𝑚

) 𝑑𝑥

𝑇

0

=

= ∫𝑛

𝑇(1 −

𝑥

𝑇)𝑛−1

(1 −𝑥

𝑆)𝑚

𝑑𝑥

𝑇

0

= |

Зробимо заміну:𝑥

𝑇= 𝑡, 𝑥 = 𝑇𝑡, 𝑑𝑥 = 𝑇𝑑𝑡,

𝑚 = 𝑐𝑛

| =

= 𝑛∫(1 − 𝑡)𝑛−1 (1 −𝑇𝑡

𝑆)𝑐𝑛

𝑑𝑡 = 𝑛∫(1 − 𝑡)−1 [(1 − 𝑡) (1 −𝑇𝑡

𝑆)𝑐

]

𝑛

𝑑𝑡

1

0

1

0

.

Із теореми 2.1.

lim𝑛→∞

Ρ(min(|𝜉1 − 𝑥0|, … , |𝜉𝑎𝑛 − 𝑥0|) ≤min(|𝜂1 − 𝑥0|, … , |𝜂𝑐𝑛 − 𝑥0|))~

~ 𝑎𝑛𝑒𝑛𝑆(0)𝑐0𝑛−1 =

𝑎𝑝𝜉(0)

𝑎𝑝𝜉(0) + 𝑐𝑝𝜂(0).

Тому розв’язок прикладу матиме вигляд

Ρ(min(𝜉1, … , 𝜉𝑛) < min(𝜂1, … , 𝜂𝑚)~ 𝑎𝑆

𝑎𝑆 + 𝑐𝑇 , 𝑛 → ∞,

де S > T.

41

2.1.2. Багатовимірний випадок

Розглянемо задачу класифікації в багатовимірному просторі, де

𝑋1… , 𝑋𝑎𝑛 та 𝑌1, … , 𝑌𝑐𝑛 – незалежні однаково розподілені випадкові вектори зі

значеннями в ℝ𝑚. Нехай 𝑥0 ∈ ℝ+. Позначимо

𝜉𝑘 = ‖𝑋𝑘 − 𝑥0‖, 𝜂𝑘 = ‖𝑌𝑘 − 𝑥0‖.

Треба знайти

lim𝑛→∞

𝑃( min1≤𝑘≤𝑛

𝜉𝑘 < min1≤𝑘≤𝑛

𝜂𝑘).

Спочатку знайдемо щільність 𝜉𝑘. Для цього, в першу чергу, обчислимо

функцію розподілу

𝐹 𝜉𝑘(𝑥) = 𝑃( 𝜉𝑘 ≤ 𝑥) = 𝑃(‖𝑋𝑘 − 𝑥0‖ ≤ 𝑥) =

= ∫ … ∫ 𝑝(𝑦1, … , 𝑦𝑚)𝑑𝑦1…𝑑𝑦𝑚‖𝑦−𝑥0‖ ≤ 𝑥

. (2.6)

Розглянемо випадок 𝑥0 = 0. Перейдемо до сферичної системи координат.

В 𝑚 − вимірному просторі сферичні координати визначаються наступними

рівностями:

{

𝑦1 = 𝑟 sin 𝜃1 sin 𝜃2…sin 𝜃𝑚−1 = 𝑟∏sin𝜃𝑘

𝑚−1

𝑘=1

,

𝑦2 = 𝑟 cos 𝜃1 sin 𝜃2 sin 𝜃3…sin 𝜃𝑚−1 ,𝑦3 = 𝑟 cos 𝜃2 sin 𝜃3 sin 𝜃4…sin 𝜃𝑚−1 ,

…

𝑦𝑛 = 𝑟 cos 𝜃𝑛−1∏sin𝜃𝑘

𝑚−1

𝑘=2

,

…𝑦𝑚 = 𝑟 cos𝜃𝑚−1 ,

де 𝑟 − сферичний радіус, 𝜃1, … , 𝜃𝑚−1 − сферичні кути в межах 𝑟 ≥ 0, 0 ≤

𝜃1 ≤ 2𝜋, 0 ≤ 𝜃𝑛 ≤ 𝜋 при 𝑛 = 2, 3,… ,𝑚 − 1 .

Обчислимо якобіан

42

𝐼 =𝜕(𝑦1, 𝑦2, … , 𝑦𝑚)

𝜕(𝑟, 𝜃1, … , 𝜃𝑚−1)=

|

|

𝜕𝑦1𝜕𝑟

𝜕𝑦1𝜕𝜃1

…𝜕𝑦1𝜕𝜃𝑚−1

𝜕𝑦2𝜕𝑟

𝜕𝑦2𝜕𝜃1

…𝜕𝑦2𝜕𝜃𝑚−1

…𝜕𝑦𝑚𝜕𝑟

…𝜕𝑦𝑚𝜕𝜃1

…

…𝜕𝑦𝑚𝜕𝜃𝑚−1

|

|

=

=

|

|

|∏ sin 𝜃𝑘

𝑚−1

𝑘=1

𝑟 cos 𝜃1∏sin𝜃𝑘

𝑚−1

𝑘=1

… 𝑟 cos𝜃𝑚−1∏sin𝜃𝑘

𝑚−1

𝑘=1

cos 𝜃1∏sin𝜃𝑘

𝑚−1

𝑘=2

−𝑟 sin 𝜃1∏sin𝜃𝑘

𝑚−1

𝑘=2

… 𝑟 cos 𝜃𝑚−1 cos 𝜃1∏sin𝜃𝑘

𝑚−1

𝑘=2…

cos 𝜃𝑚−1

…0

…… −𝑟 sin 𝜃𝑚−1

|

|

|

=

= 𝑟𝑚−1∏sin𝑘−1 𝜃𝑘

𝑚−1

𝑘=1

.

Перейдемо до заміни в (2.6):

𝐹 𝜉𝑘(𝑟) = ∫∫ ∫…

𝜋

0

2𝜋

0

∫𝑝𝑋(𝑟∏ sin𝜃𝑘

𝑚−1

𝑘=1

𝜋

0

𝑟

0

, 𝑟 cos 𝜃𝑛−1∏sin𝜃𝑘

𝑚−1

𝑘=2

, 𝑟 cos 𝜃𝑚−1) ×

× 𝑟𝑚−1∏sin𝑘−1 𝜃𝑘𝑑𝑟𝑑𝜃1…𝑑𝜃𝑚−1

𝑚−1

𝑘=1

.

Позначимо

∫ ∫…

𝜋

0

2𝜋

0

∫∏sin𝑘−1 𝜃𝑘𝑑𝜃1…𝑑𝜃𝑚−1

𝑚−1

𝑘=1

𝜋

0

= 𝐾, 𝐾 = 𝑐𝑜𝑛𝑠𝑡.

Отже, 𝑝𝜉𝑘(𝑥) = 𝐹′ 𝜉𝑘(𝑥), то при 𝑟 → 0

𝑝𝜉𝑘(𝑥)~𝑝𝑋(0,0,… ,0)𝑟𝑚−1𝐾.

Позначимо

𝛼 = 𝑝𝑋(0,0,… ,0)𝐾, 𝑘 → 0.

Тоді

𝐹 𝜉1(𝑥)~𝛼𝑥𝑚

𝑚,… , 𝐹 𝜉𝑘(𝑥)~

𝛼𝑥𝑚

𝑚.

43

Аналогічно знайдеться асимптотика 𝜂. Отже,

𝑝𝜂𝑘(𝑥) = 𝑝𝑌(0,0,… , 0)𝑥𝑚−1𝐾, 𝑘 → 0.

Позначимо

𝛽 = 𝑝𝑌(0,0,… , 0)𝐾.

Тоді

𝐹 𝜂1(𝑥)~𝛽𝑥𝑚

𝑚,… , 𝐹 𝜂𝑘(𝑥)~

𝛽𝑥𝑚

𝑚.

Знайдемо ймовірність класифікації точки 𝑥0 = 0 в багатовимірному

просторі, використовуючи міркування, які були використанні у одновимірному

випадку. Підставимо отримані значення у (2.4) та розв’яжемо

𝑎𝑛𝐾∫𝛼𝑥𝑚−1 (1 −𝛼𝑥𝑚

𝑚)

−1

𝑒𝑛 ln(1−

𝛼𝑥𝑚

𝑚)𝑎

(1−𝛽𝑥𝑚

𝑚)

𝑐

𝑑𝑥.

δ

0

Використаємо еквівалентність, що ln(1 + 𝑥)~𝑥, 𝑥 → 0, тоді


𝑚)

−1

𝑒𝑛(𝑎𝛼+𝑐𝛽)𝑥𝑚

𝑚 𝑑𝑥.

δ

0

Зробимо деяку заміну:

𝑥𝑚 = 𝑦, 𝑥 = 𝑦1𝑚 , 𝑑𝑥 =

1

𝑚𝑦1−𝑚𝑚 𝑑𝑦.

Тоді


𝑚)

−1

𝑒𝑛(𝑎𝛼+𝑐𝛽)𝑥𝑚

𝑚 𝑑𝑥 =

δ

0

= 𝑎𝑛𝐾∫𝛼𝑦𝑚−1𝑚 (1 − 𝛼𝑦)−1𝑒𝑛(𝑎𝛼+𝑐𝛽)

𝑦𝑚1

𝑚𝑦1−𝑚𝑚 𝑑𝑦 =

δ

0

=𝑎𝑛𝐾

𝑚∫𝛼(1 − 𝛼𝑦)−1𝑒

𝑛𝑚(𝑎𝛼+𝑐𝛽)𝑦𝑑𝑦 =

δ

0

𝑓(𝑦)|𝑦=0 = 𝛼(1 − 𝛼𝑦)−1 = 𝛼,

𝑆(𝑦) =𝑦

𝑚(𝑎𝛼 + 𝑐𝛽), 𝑆(0) = 0, 𝑆′(𝑦) =

1

𝑚(𝑎𝛼 + 𝑐𝛽),

44

𝑀0 = 1, 𝑐0 = −𝑀𝑘 (

𝑓(𝑦)

𝑆′(𝑦)) |𝑦=0 =

𝛼𝑚

(𝑎𝛼+𝑐𝛽).

Отже,

lim𝑘→∞

𝑃(min 𝜉𝑘 < min 𝜂𝑘) = lim𝑘→∞

𝑃(min𝑋𝑘 < min𝑌𝑘) =

= ⋯ =𝑎𝑛𝐾

𝑚𝑒𝑛𝑆(0)𝑐0

1

𝑛=

𝐾𝑎𝛼

(𝑎𝛼 + 𝑐𝛽)=

𝑎𝑝𝑋(0,0,… ,0)

𝑎𝑝𝑋(0,0, … ,0) + 𝑐𝑝𝑌(0,0,… , 0).

Аналогічно розглядається довільна точка 𝑥0. Одержали наступну

теорему.

Теорема 2.2. Нехай 𝑋𝑘 та 𝑌𝑘 – незалежні, однаково розподілені випадкові

вектори. Тоді

lim𝑛→∞

𝑃( min1≤𝑘≤𝑎𝑛

‖𝑋𝑘 − 𝑥0‖ < min1≤𝑘≤𝑐𝑛

‖𝑌𝑘 − 𝑥0‖) =𝑎𝑝𝑋(𝑥0)

𝑎𝑝𝑋(𝑥0) + 𝑐𝑝𝑌(𝑥0).

45

2.2. Ймовірність хибної класифікації

Порахуємо з якою ймовірністю ми можемо зробити помилку, тобто

хибно класифікувати нашу точку:

lim𝑛→∞

𝑃(хибної класифікації, побудованої на вибірках 𝜉1, … , 𝜉𝑎𝑛 і

𝜂1, … , 𝜂𝑐𝑛| спостерігається 𝜉) =

= lim𝑛→∞

∫ 𝑃(min(‖𝜉1 − 𝑥0‖, … , ‖𝜉𝑎𝑛 − 𝑥0‖)

ℝ𝑚

>min(‖𝜂1 − 𝑥0‖, … , ‖𝜂𝑐𝑛 − 𝑥0‖))𝑑𝐹𝜉(𝑥) =

= ∫𝑐𝑝𝜂(𝑥)

𝑎𝑝𝜉(𝑥) + 𝑐𝑝𝜂(𝑥)𝑑𝐹𝜉(𝑥) = ∫

𝑐𝑝𝜂(𝑥)𝑝𝜉(𝑥)

𝑎𝑝𝜉(𝑥) + 𝑐𝑝𝜂(𝑥)𝑑𝑥.

ℝ𝑚ℝ𝑚

Зміну порядку границі та інтегралу можна зробити за теоремою Лебега

про мажоровану збіжність, оскільки підінтегральна функція обмежена

одиницею.

Аналогічно, що

lim𝑛→∞

𝑃(хибної класифікації, побудованої на вибірках 𝜉1, … , 𝜉𝑎𝑛 і

𝜂1, … , 𝜂𝑐𝑛| спостерігається 𝜂) =

= lim𝑛→∞

∫ 𝑃(min(‖𝜉1 − 𝑥0‖, … , ‖𝜉𝑎𝑛 − 𝑥0‖)

ℝ𝑚

>min(‖𝜂1 − 𝑥0‖, … , ‖𝜂𝑐𝑛 − 𝑥0‖))𝑑𝐹𝜂(𝑥) =

= ∫𝑎𝑝𝜉(𝑥)𝑝𝜂(𝑥)

𝑎𝑝𝜉(𝑥) + 𝑐𝑝𝜂(𝑥)𝑑𝑥.

ℝ𝑚

Нехай 𝑝 − ймовірність того, що об’єкт із 𝜉, то q = 1 −

𝑝 − ймовірність того, що об’єкт із 𝜂.

Тоді ймовірність хибної класифікації, побудованої на вибірках

𝜉1, … , 𝜉𝑎𝑛 і 𝜂1, … , 𝜂𝑐𝑛 буде такою:

46

𝑝 ∫𝑐𝑝𝜂(𝑥)𝑝𝜉(𝑥)

𝑎𝑝𝜉(𝑥) + 𝑐𝑝𝜂(𝑥)𝑑𝑥 + 𝑞

ℝ𝑚

∫𝑎𝑝𝜉(𝑥)𝑝𝜂(𝑥)

𝑎𝑝𝜉(𝑥) + 𝑐𝑝𝜂(𝑥)𝑑𝑥

ℝ𝑚

= ∫𝑝𝜉(𝑥)𝑝𝜂(𝑥)(𝑐𝑝 + 𝑞𝑎)

𝑎𝑝𝜉(𝑥) + 𝑐𝑝𝜂(𝑥)𝑑𝑥 .

ℝ𝑚

Таким чином, ми довели наступну теорему.

Теорема 2.3. Нехай

𝑝 − ймовірність того, що об’єкт із 𝜉,

q = 1 − 𝑝 − ймовірність того, що об’єкт із 𝜂.

Тоді

lim𝑛→∞

𝑃(хибної класифікації, проведеної на навчальних вибірках 𝜉1, … , 𝜉𝑎𝑛 і

𝜂1, … , 𝜂𝑐𝑛)=

= ∫𝑝𝜉(𝑥)𝑝𝜂(𝑥)(𝑐𝑝 + 𝑞𝑎)

𝑎𝑝𝜉(𝑥) + 𝑐𝑝𝜂(𝑥)𝑑𝑥 .

ℝ𝑚

47

ВИСНОВКИ

В дипломній роботі було розглянуто задачу класифікації об’єктів

методом найближчого сусіда. Були розглянуті вибірки двох типів з абсолютно

неперервних розподілів.

За допомогою методу Перевалу було знайдено з якою ймовірністю точка

класифікується як певний об’єкт в одновимірному та багатовимірному

просторі. Дослідили та знайшли явну формулу для границі ймовірності хибної

класифікації, якщо п прямує до нескінченності.

Основні результати магістерської роботи доповідались на Шостій

Всеукраїнській конференції молодих вчених з математики та фізики.

48

СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ

1. Воронцов К.В. Математические методы обучения по прецедентам

(теория обучения машин). [Електронний ресурс]. Курс лекций. МФТИ. –

2006. – с. 140. ‒ Режим доступу:

http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf;

2. Федорюк М.В. Метод перевала. – 1977. – с. 366;

3. Николенко С.И. Курс лекций по машинному обучению — слайды.

[Електронний ресурс]. Режим доступу:

http://logic.pdmi.ras.ru/~sergei/index.php?page=mlaptu09;

4. Дьяконов А.Г. Анализ данных, обучение по прецедентам, логисические

игры, системы WEKA, RapidMiner и Matlab.[Електронний ресурс]

Учебное пособие. Режим доступу:

http://www.machinelearning.ru/wiki/images/7/7e/Dj2010up.pdf;

5. Samuel A. Some Studies in Machine Learning Using the Game of Checkers //

IBM Journal. V. 3, № 3. P. 210–229;

6. Mitchell T. Machine Learning. McGraw Hill, 1997;

7. Чубик Л. М. Дослідження ймовірності помилки при класифікації

методом найближчого сусіда. // Шоста Всеукраїнська конференція

молодих вчених з математики та фізики. К.: ‒ 2017;

8. Золотых Н. Ю. Введению в машинное обучение (лекция). [Електронний

ресурс]. Нижний Новгород, ‒ 2013. ‒ с.13. Режим доступу:

https://www.google.com.ua/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4

&ved=0ahUKEwiq6abH1bvUAhVsJ5oKHdSJBj8QFggzMAM&url=http%3

A%2F%2Fvictoria.lviv.ua%2Fhtml%2Fai%2Flecture%2F23.doc&usg=AFQj

CNExAWAMRmPzwq_awgtxoZLbvfpPzg&sig2=dL5m-

4Um4vPpdsFH1pnS5Q;

9. Гихман И. И., Скороход А. В., Ядренко М. И. Теория вероятностей и

математическая статистика. Выща школа. ‒ К.: ‒1988;

http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%A4%D0%A2%D0%98

49

10. G. Gutin, A. Yeo and A. Zverovich, Traveling salesman should not be greedy:

domination analysis of greedy-type heuristics for the TSP. Discrete Applied

Mathematics 117 (2002), 81-86;

11. Biau G., Devroye L. Lectures on the Nearest Neighbor Method.

[Електронний ресурс]. Springer. ‒ 2015. ‒ c.248. Режим доступу:

https://books.google.com.ua/books?id=GhQpCwAAQBAJ&pg=PA240&lpg

=PA240&dq=nearest+neighbor+method&source=bl&ots=-

4w5gUKZEi&sig=8vfvD_zZD70VCi0gGEXjhc0Xoec&hl=uk&sa=X&ved=

0ahUKEwi-

gOv5hL7UAhXoHpoKHXc2A7E4ChDoAQg8MAM#v=onepage&q=nearest

%20neighbor%20method&f=false.

Documents

агістерська дисертаціяmatan.kpi.ua/public/files/2017/dis/Chubyk.pdf · 2017. 6. 15. · розпізнавання образів, інтелектуальний