100

СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 1: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37
Леонид
Текст
АННОТАЦИЯ РПЗ 99 стр., 17 рис., 12 табл., 24 ист., 1 прил. Дипломный проект посвящен разработке системы тематической класси- фикации веб-документов на основе алгоритмов машинного обучения. В процессе выполнения дипломного проекта проведен анализ существую- щих подходов к классификации текстовых документов, рассмотрены методы признакового представления коллекций документов. Произведено исследование методов отбора релевантных признаков для представления документов в про- странстве этих признаков, рассмотрены методы автоматического построения классификатора по коллекции документов. Приведен обзор методов оценки ка- чества классификации. В рамках проекта была спроектирована система подготовки коллекции веб-документов для построения ее тематической модели. Реализована система индексации коллекции документов по соответствующей тематической модели. Разработана система построения и оценки качества классификаторов на основе модели случайного леса. Проведено практическое исследование качества работы всей системы на коллекции гипертекстовых документов. Представлено сравнение качества клас- сификации разработанных классификаторов с классическими методами класси- фикации на основе алгоритмов машинного обучения.
Page 2: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

СОДЕРЖАНИЕ

1 ВВЕДЕНИЕ...............................................................................................................6

1.1 Постановка задачи классификации текстовых документов..........................6

1.2 Типы классификации текстовых документов.................................................7

1.2.1 Многоклассовая и одноклассовая классификации..................................7

1.2.2 «Жесткая» классификация и классификация с ранжированием............8

1.3 Подходы к классификации текстовых документов........................................9

1.3.1 Экспертный подход....................................................................................9

1.3.2 Подход на основе машинного обучения.................................................10

1.3.3 Обучающее, тестовое и валидационное множества..............................11

1.3.4 Оценка качества классификации.............................................................12

2 ИССЛЕДОВАТЕЛЬСКАЯ ЧАСТЬ........................................................................16

2.1 Индексация документов..................................................................................16

2.2 Выбор метода уменьшения размерности пространства факторов..............18

2.2.1 Уменьшение размерности с помощью отбора терминов......................19

2.2.2 Уменьшение размерности с помощью извлечения терминов..............19

2.2.3 Уменьшение размерности с помощью вероятностного тематического

моделирования...................................................................................................20

2.2.3.1 Основные определения и гипотезы.................................................21

2.2.3.2 Принцип максимума правдоподобия...............................................23

2.2.3.3 Модель латентного размещения Дирихле.......................................24

2.2.3.4 Обоснования использования распределения Дирихле..................24

2.2.3.5 Байесовский вывод для модели латентного размещения Дирихле

.........................................................................................................................25

2.2.3.6 Обучение модели латентного размещения Дирихле с помощью

алгоритма сэмплирования Гиббса................................................................26

2.2.3.7 Уменьшение размерности при помощи тематических моделей. . .28

2.2.4 Выбранный метод уменьшения размерности........................................28

2

Page 3: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

2.3 Случайный лес.................................................................................................28

2.3.1 Деревья решений......................................................................................29

2.3.2 Бутстрэп аггрегация.................................................................................32

2.3.2 Декорреляция леса....................................................................................33

3 КОНСТРУКТОРСКАЯ ЧАСТЬ.............................................................................35

3.1 Вспомогательные модули системы................................................................36

3.1.1 Модуль лексического анализа документов............................................37

3.1.2 Модуль лемматизации русского и английского языка...........................38

3.2 Основные модули системы.............................................................................39

3.2.1 Система построения вероятностных тематических моделей...............39

3.2.2 Модуль индексации документов.............................................................43

3.2.3 Система классификации..........................................................................45

3.3 Система технической документации.............................................................48

4 ТЕХНОЛОГИЧЕСКАЯ ЧАСТЬ............................................................................49

4.1 Выбор платформы и программных средств разработки..............................49

4.1.1 Требования к платформе и программным средствам разработки........49

4.1.2 Основные языки программирования......................................................50

4.1.3 Qt Creator – основная среда разработки C++.........................................51

4.1.4 Vim – основной текстовый редактор......................................................51

4.2 Основные библиотеки и пакеты системы......................................................52

4.2.1 Boost...........................................................................................................52

4.2.2 Лемматизатор AOT...................................................................................52

4.2.3 Библиотека libgumbo................................................................................53

4.2.4 MALLET ...................................................................................................54

4.2.5 Пакеты Python ..........................................................................................54

4.3 Комплексное тестирование всей системы.....................................................55

4.3.1 Коллекция документов.............................................................................55

4.3.2 Построение вероятностной тематической модели................................56

3

Page 4: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

4.3.3 Индексация обучающего и тестового множеств документов...............58

4.3.4 Построение и оценка классификаторов..................................................58

5 ТЕХНИКО-ЭКОНОМИЧЕСКОЕ ОБОСНОВАНИЕ НИОКР............................63

5.1 Расчет трудоемкости выполнения НИОКР...................................................64

5.2 Расчет стоимости основных производственных фондов, используемых для

выполнения НИОКР..............................................................................................67

5.3 Расчет затрат на выполнение НИОКР...........................................................69

5.3.1 Материалы, покупные изделия и полуфабрикаты (РМ).......................69

5.3.2 Специальное оборудование (СО) ...........................................................70

5.3.3 Фонд заработной платы (РЗ) ..................................................................70

5.3.4 Амортизационные отчисления (РА) .......................................................71

5.3.5 Косвенные расходы (РК)..........................................................................74

5.3.6 Производственные командировки (РПК)...............................................74

5.3.7 Контрагентные работы (РКР)..................................................................75

5.3.8 Единый социальный налог (ЕСН)...........................................................75

5.3.9 Полная себестоимость работы (С)..........................................................75

5.4 Формирование чистой прибыли предприятия и определение

эффективности производственных затрат...........................................................76

5.5 Оценка технического уровня НИОКР...........................................................77

5.6 Выводы.............................................................................................................77

6 ПРОМЫШЛЕННАЯ ЭКОЛОГИЯ И БЕЗОПАСНОСТЬ ...................................79

6.1 Основные факторы воздействия среды на оператора ПК............................79

6.1.1 Параметры микроклимата.......................................................................79

6.1.2 Требования к уровням шума и вибрации...............................................80

6.1.3 Требования к освещению ........................................................................81

6.1.4 Требования к уровню электромагнитного излучения ..........................84

6.1.5 Требования электробезопасности ..........................................................85

6.1.6 Требования к организации рабочего места оператора ПК ..................85

4

Page 5: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

6.1.7 Пожаробезопасность ...............................................................................88

6.2 Расчет освещения ...........................................................................................89

6.3 Утилизация жидкокристаллических мониторов .........................................92

6.4 Выводы ............................................................................................................96

7 ЗАКЛЮЧЕНИЕ.......................................................................................................97

8 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ..............................................98

ПРИЛОЖЕНИЕ А. ГРАФИЧЕСКИЕ МАТЕРИАЛЫ

5

Page 6: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

1 ВВЕДЕНИЕ

За последние несколько десятилетий задачи, связанные с обработкой и

хранением электронных документов, приобрели наибольший интерес. Увеличе-

ние числа компаний, занимающихся такими задачами, дало толчок развитию

новых областей науки, таких как «информационный поиск» и «машинное обу-

чение». Одной из самых распространенных задач на стыке данных научных об-

ластей является задача классификации текстовых документов.

Классификация текстовых документов — это процесс отнесения докумен-

та к той или иной тематической категории из предопределенного набора катего-

рий, основанный на содержании документа. Так же задачу классификации тек-

стовых документов часто называют задачей категоризации текстов, тематиче-

ской классификацией или определением тематики. В настоящее время класси-

фикация текстовых документов применяется в контексте решения широкого

круга задач, начиная от индексации коллекций документов, заканчивая доку-

ментной фильтрацией, автоматической генерацией метаданных документа, сня-

тием морфологической омонимии и т. д.

1.1 Постановка задачи классификации текстовых документов

Положим у нас имеется корпус текстовых документов

D={d1, d2, d3,. .. , d∣D∣}, а так же имеется множество заранее определенных катего-

рий С={с1, c2, c3,. .. , c∣C∣}. Ставится задача сопоставления одной из булевых пере-

менных T или F каждой паре документ-тематики ⟨d i , c j ⟩∈D×C . Значение T

присваивается таким парам ⟨d i , c j ⟩, для которых было принято решение о при-

надлежности документа d i к категории c j и значение F в обратном случае. Бо-

лее формально, задача состоит в аппроксимации неизвестной функции

Ф : D×C→{T ,F },

6

Page 7: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

которая описывает то, как документы должны быть классифицированы, при по-

мощи функции

Ф : D×C→{T , F },

называемой классификатором (классифицирующим правилом или моделью

классификации).

Делается ряд допущений, при решении задачи классификации докумен-

тов:

• категории документов принимаются как некоторые символьные помет-

ки, без учета какой-либо семантики данной пометки,

• классификация осуществляется только на основе внутреннего содержа-

ния документа; считается, что различная мета-информация (дата публика-

ции, автор, источник публикации и т. д.) не доступна.

1.2 Типы классификации текстовых документов

1.2.1 Многоклассовая и одноклассовая классификации

На решение задачи категоризации текстов могут накладываться различ-

ные ограничения, например, может быть необходимо для каждого документа

d i∈D найти k категорий из множества C , к которым может быть отнесен дан-

ный документ. Задачи подобного рода носят названия многоклассовой категори-

зации текстовых документов (классификация с пересекающимися категориями).

Задача, где каждому документу коллекции ставится в соответствие только одна

метка класса, называется задачей одноклассовой или классификацией с не пере-

секающимися категориями. Специальный случай, когда мощность множества

категорий в задаче одноклассовой классификации равна двум, называется би-

нарной классификацией.

7

Page 8: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

С теоретической точки зрения задача бинарной классификации является

наиболее важной. По причине того, что любую задачу многоклассовой класси-

фикации на множестве категорий {c1,c 2,. .. , c∣C∣} можно представить в виде ∣С∣ не-

зависимых задач бинарной классификации на множествах категорий

{ci , ci}, i=1,... ,∣C∣. Однако данное заключение предполагает, что категории

должны быть стохастически независимыми между собой, таким образом для

любых категорий c ' и c " , значение функции Ф (d j , c ' ) не должно зависеть от

значения Ф (d j , c" ) и наоборот.

1.2.2 «Жесткая» классификация и классификация с ранжированием

Если полная автоматизация процесса решения задачи классификации кол-

лекции документов по категориям заключается в строгом назначении каждому

документу тех или иных категорий, то частичная автоматизация данной задачи

приводит к понятию классификации с ранжированием.

Суть классификации с ранжированием состоит в следующем, для каждого

документа из коллекции d j∈D мы можем построить упорядоченный по реле-

вантности список категорий Сd j={cd j 1 , cd j 2 ,... , cd j∣C∣

}.. Такой список может быть

использован экспертом, в случае, если мы используем «ручную» классифика-

цию текстовых документов. Причем в данном случае сильно упрощается работа

эксперта, так как при большом количестве категорий он может использовать

только k наиболее релевантных.

Технику классификации с ранжированием возможно использовать и отно-

сительно категорий. То есть для каждой категории ci∈C можно сформировать

список документов, которые наиболее вероятно попадают под данную катего-

рию D ci={d c i1

, d ci 2 , ... , d c i∣D∣}.

Данные подходы применяются в критических случаях, когда качество

8

Page 9: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

классификации автоматизированной системы не достаточно хорошо. Помощь

эксперта в таком случае является естественной. Обычно, такие ситуации проис-

ходят, когда в качестве обучающего множества используется коллекция низкого

качества, или же документы обучающего множества не являются типичными

представителями класса документов, с которыми на этапе работы придется

столкнуться классификатору.

В данном дипломном проекте в качестве решаемой задачи была выбрана

«жесткая» классификация с не пересекающимися категориями. Но несмотря на

такую постановку задачи, методы применяемые в проекте, подходят и для ре-

шения задач мягкой классификации с пересекающимися категориями.

1.3 Подходы к классификации текстовых документов

1.3.1 Экспертный подход

С начала появления систем связанных с обработкой и хранением больших

массивов данных экспертный подход занимал ключевую нишу среди существу-

ющих решений для классификации текстовых документов. Для создания систем

автоматической классификации использовались техники, называемые «инжене-

рией знаний». Эксперты по инженерии знаний совместно с экспертами в той

или иной области строили решающие правила, обычно по одному правилу для

каждой категории. Чаще всего эти правила основывались на конкретных ключе-

вых словах присущих определенной тематике. Далее эти правила закладыва-

лись в систему автоматической классификации и использовались ею во время

работы. В простейшем случае данные правила имели вид дизъюнктивной нор-

мальной формы

если ⟨правилов форме ДНФ⟩ , то⟨ категория⟩.

Узкое местом подхода, основанного на работе эксперта — это проблема

9

Page 10: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

«приобретения знаний», широко известная из литературы по экспертным систе-

мам. Так как правила, по которым классифицируются документы создаются

вручную экспертом по инженерии знаний, совместно с экспертом по предмет-

ной области, то возможна ситуация, когда все созданные правила придется

перестроить. Например, такая ситуация возникает, когда в существующую си-

стему категорий добавляется еще одна категория. Или в случае если возникает

потребность переноса текущей экспертной системы в другую предметную об-

ласть.

1.3.2 Подход на основе машинного обучения

С начала девяностых годов подход к решению задачи классификации тек-

стовых документов на основе машинного обучения завоевал популярность и

стал доминирующим, как минимум среди научного сообщества и крупных кор-

пораций.

Данный подход основан на общем индуктивном процессе построения

классификатора (обучении) для категории ci с помощью обзора характеристик

множества документов, которые были вручную классифицированы экспертом

по предметной области как относящиеся к категориям ci и ci. Исходя из этих ха-

рактеристик, индуктивный процесс выделяет те важные характеристики и их

значения, которыми должны обладать новые, ранее не встречавшиеся, докумен-

ты, чтобы быть отнесенными к категории ci. В терминах машинного обучения,

данная задача относится к классу проблем, называемых «обучение с учителем»,

по той причине, что нам известны категории обучающих примеров.

Подход к решению задачи категоризации текстов на основе машинного

обучения имеет очевидное преимущество - основные усилия идут не на по-

строение классификатора, а на создание автоматической процедуры построения

классификатора. Это значит, что имея готовый каркас для построения классифи-

10

Page 11: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

каторов и обучающее множество, можно строить классификаторы не боясь, что

множество категорий расширится или же вообще придется менять предметную

область.

1.3.3 Обучающее, тестовое и валидационное множества

Построение классификатора текстовых документов основывается на на-

личии начального корпуса (коллекции) документов Ω={d1, d2,. .. , d∣Ω∣}⊂D, кото-

рый был заранее классифицирован, используя множества категорий

C={c1, c2,. .. , c∣C∣}. Таким образом мы точно знаем значения функции

Ф : D×C→{T , F } для каждой пары документ-категория ⟨d j , ci⟩∈Ω×C . Документ

d j является положительным примером для категории ci, если Ф (d j , ci)=T , и от-

рицательным, если Ф (d j , ci)=F .

Для построения классификатора, как и для проверки его качества работы,

требуется разделить нашу коллекцию Ω на несколько частей.

1) Обучающее(и валидационное) множество TV={d 1,d 2,. .. , d∣TV∣}. Для мно-

жества категорий C={c1, c2,. .. , c∣C∣} классификатор Ф строится индук-

тивно на основе обзора характеристик документов множества TV.

2) Тестовое множество Te={d∣TV∣+1 , d∣TV∣+2 , ... , d∣Ω∣}, используется для про-

верки качества классификатора. Каждый элемент d j∈Te подается на

вход классификатора, на выходе мы получаем решение классификатора

Ф (d j , ci), которое сравнивается с решением эксперта Ф (d j , ci). Нефор-

мально говоря, решение о годности классификатора принимается на

основании частоты равенства решений классификатора оценкам экс-

перта.

Документы из тестового множества Te не принимают участия в процессе

11

Page 12: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

обучения классификатора, очевидно, что если бы мы обучали классификатор на

всем множестве Ω, то в результате стадии тестирования мы бы получали неве-

роятно высокие показатели качества классификатора, что было бы не достовер-

ным результатом. Поэтому документы из множества Te используются только

для получения оценки снизу качества будущего классификатора. В случае, если

данная оценка оказалась удовлетворительной, множества TV и Te объединяют

для построения «боевого» классификатора. Такой подход называют обучением-

и-проверкой.

Данный подход подразумевает настройку внутренних параметров класси-

фикатора, такая настройка осуществляется путем выявления значений этих па-

раметров, которые влекут за собой улучшение качества классификации. С це-

лью проведения такой оптимизации множество TV разбивается на два подмно-

жества: обучающее Tr={d1,d 2,. .. , d∣Tr∣} - на основе которого непосредственно

строится классификатор, и валидационное Va={d∣Tr∣+1 , d∣Tr∣+2 , ... , d∣TV∣} - с помо-

щью которого осуществляется оптимизация параметров классификатора.

1.3.4 Оценка качества классификации

Как было указано выше, основой проверки качества классификации яв-

ляется тестовое множество примеров Tr={d 1,d 2,. .. , d∣Tr∣}. Распределение приме-

ров этого множества по категориям сильно влияет оценку качества классифика-

ции. Тем не менее существуют числовые метрики, позволяющие оценить каче-

ство не зависимо от распределения примеров тестового множества.

Точность и полнота. Точность классификатора в пределах класса – это

доля документов действительно принадлежащих данному классу относительно

всех документов которые система отнесла к этому классу. Полнота системы –

это доля найденных классификатором документов принадлежащих классу отно-

сительно всех документов этого класса в тестовой выборке. Эти значения легко

12

Page 13: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

рассчитать на основании таблицы контингентности, которая составляется для

каждого класса отдельно.

Категория ci

Экспертная оценка

Положительная Отрицательная

Оценка классифи-катора

Положительная TP FN

Отрицательная FP TN

Рисунок 1.1 - Таблица контингентности

В таблице приведенной на рисунке 1.1 содержитcя информация сколько

раз система приняла верное и сколько раз неверное решение по документам за-

данного класса:

• TP - истинно-положительное решение;

• TN - истинно-отрицательное решение;

• FP - ложно-положительное решение;

• FN - ложно-отрицательное решение.

Точность и полнота определяются соответственно:

P=TP

TP+FP; R= TP

TP+FN. (1.1)

Матрица неточностей. Данная матрица используется для нахождения

полноты и точности в случае не бинарной классификации. Матрица неточно-

стей — это матрица, имеющая размеры ∣C∣x∣C∣. Столбцы этой матрицы резер-

вируются за экспертными (истинными) решениями, а строки за решениями

классификатора. Когда мы классифицируем документ из тестовой выборки мы

инкрементируем число стоящее на пересечении строки класса который вернул

классификатор и столбца класса к которому действительно относится документ.

Построив такую матрицу A для тестового множества, можно найти значения

13

Page 14: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

точности и полноты для каждого класса ci:

P i=Ai , i

∑j=1

∣C∣

Ai , j

; Ri=Ai , i

∑j=1

∣C∣

A j , i

. (1.2)

F1-мера. Очевидно, что близкие к единице значения точности и полноты

свидетельствуют о высоком качестве работы классификатора, но в реальности

не возможно достичь одновременно высоких значений точности и полноты.

Возникает потребность в метрике, которая объединяла бы в себе оба параметра

и по которой можно однозначно судить о качестве классификатора. Такой мет-

рикой является F1 -мера, она представляет из себя гармоническое среднее между

точностью и полнотой:

F 1=2⋅ P⋅RP+R

. (1.3)

Возможно рассчитывать F1-меру, придав различный вес точности и полно-

те, в случае, если качество классификатора больше зависит от одной из характе-

ристик

F β=(β 2+1)⋅ P⋅R

β 2⋅P+R

, (1.4)

где при β ∈(0,1) - предпочтение отдается точности, при β >1 - приоритезируется

полнота, а при β=1 - получается сбалансированная F1-мера. Рассмотренные

значения F1-меры возможно применять только в случае бинарной классифика-

ции. При решении задач с более, чем двумя категориями, необходимо как-то

учесть качество классификатора для всего множества категорий. Для этого ис-

пользуется микро- и макро- усредненные значения точности, полноты и F1-

меры.

Макроусредненная по всему множеству классов F1-мера рассчитывается

при помощи макроусредененных точности и полноты:

14

Page 15: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

F 1 macro=2⋅Pmacro⋅Rmacro

Pmacro+Rmacro

; Pmacro=∑i=1

∣C∣

Pi

∣C∣; Rmacro=

∑i=1

∣C∣

Ri

∣C∣, (1.5)

где Pmacro - макроусредненная точность;

Rmacro - макроусредненная полнота.

Макроусреднение дает одинаковый вес каждому классу в результирую-

щем значении F1-меры, такой подход приемлем, в ситуации когда все классы

одинаковы с точки зрения стоимости ошибки классификации.

Микроусредненное значение F1-меры рассчитывается на основе микро-

усредненных значений точности и полноты по всему множеству классов:

F 1 micro=2⋅Pmicro⋅Rmicro

Pmicro+Rmicro

; Pmicro=∑i=1

∣C∣

TP i

∑i=1

∣C∣

(TP i+FP i)

; Rmicro=∑i=1

∣C∣

TP i

∑i=1

∣C∣

(TP i+FN i)

, (1.6)

где Pmicro - микроусредненная точность;

Rmicro - микроусредненная полнота.

Микроусреднение, наоборот, подразумевает разную стоимость ошибки

между классами в результирующем значении F-меры. Если ошибки в одном

классе более дороги чем в другом, то имеет смысл использовать микроусредне-

ние и намеренно добавить больше документов этого класса в тестовое множе-

ство.

15

Page 16: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

2 ИССЛЕДОВАТЕЛЬСКАЯ ЧАСТЬ

В исследовательской части дипломного проекта приведен краткий обзор

методов индексации документов, а так же возникающей проблемы высокой раз-

мерности пространства факторов(терминов), с помощью которых представ-

ляются документы в задачах классификации. Произведен сравнительный анализ

методов сокращения размерности пространства факторов, предложен метод

уменьшения размерности пространства факторов на основе вероятностных те-

матических моделей.

2.1 Индексация документов

Текстовые документы не могут быть напрямую использованы для по-

строения классификатора. С целью получения возможности использовать име-

ющиеся документы для обучения модели классификации, необходимо провести

процедуру, которая называется индексацией документа. Данная процедура отоб-

ражает документ в его компактное представление. Обычно в качестве компакт-

ного представления документа выбирается вектор весов терминов документа

d j=⟨w1j ,w 2j , ... , w∣Τ ∣ j⟩, где Τ - множество терминов коллекции(так же называют-

ся «факторами»), которые хотя бы один раз появлялись хотя бы в одном доку-

менте множества Tr. А значения wkj∈[0,1], представляют собой вклад термина

t k в семантику документа d j. Возможно использовать разные методы индекса-

ции, при различной интерпретации следующих параметров:

1) термины документа;

2) веса терминов.

Обычно в качестве терминов документа используют слова. Такая модель

представления терминов носит название «множества слов» или «мешка слов», в

зависимости от того являются ли веса бинарными или нет.

16

Page 17: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Как правило, используемые при индексации слова предварительно прохо-

дят процедуру лемматизации. Лемматизация — процесс приведения словофор-

мы к лемме — ее нормальной словарной форме. Эта операция является есте-

ственной при обработке документов написанных на флективных языках(напри-

мер на русском), так как позволяет уменьшить размерность множества Τ без

ущерба для качества классификации.

Параметр под номером два (веса терминов) чаще всего варьируется в

диапазоне от нуля до единицы, и в случае использования модели «множества

слов», параметр принимает только два значения: ноль — термина нет в доку-

менте, единица — термин присутствует в документе. Но большее распростране-

ние получила модель «мешка слов», в которой каждый термин представляется

числовым значением в диапазоне от нуля до единицы. Обычно для вычисления

данного значения, используется стандартная функция, которая носит название

tfidf:

tfidf (t k , d j)=#(t k , d j)⋅log∣Tr∣

# Tr (t k ), (2.1)

где #(t k , d j) - количество раз, которое термин t k встречается в документе

d j∈Tr ;

#Tr ( t k) - количество документов из множества Tr, в которых встречается

термин t k .

Для того, чтобы значения весов терминов документа попадали в интервал

[0;1], так же как и для того, чтобы документы были представлены векторами

одинаковой длины, каждая компонента вектора весов терминов документа под-

вергается процедуре нормализации в соответствие с формулой

17

Page 18: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

wkj=tfidf ( t k , d j)

√∑s=1

∣Τ∣

(tfidf (t s , d j))2

. (2.2)

В рамках проекта, в качестве модели представления документа была вы-

брана модель «мешка слов», в качестве весов терминов используются значения

функции tfidf. Лемматизация терминов проводится на основе словарей, где для

каждого слова приведен список известных словоформ.

2.2 Выбор метода уменьшения размерности пространства факторов

В задаче классификации текстовых документов, модели представления

документа в виде вектора весов слов, имеют серьезный недостаток - большая

размерность множества ∣Τ ∣. Поэтому прежде, чем производить построение

классификатора, проводится процедура обработки обучающего множества, ко-

торая носит название - уменьшение размерности. Основная задача данной про-

цедуры - уменьшить размерность пространства представления документов ∣Τ ∣.

В итоге сокращается размер множества терминов от ∣Τ ∣ до ∣Τ '∣, где Τ ' - назы-

вается сокращенным множеством терминов или факторов. Сокращение размер-

ности пространства представления документов позволяет уменьшить сложность

задачи построения классификатора, избежать проблемы переобучения.

Переобучение приводит к тому, что классификатор показывает хорошее каче-

ство на тех примерах, на которых он обучался, но при этом качество классифи-

кации новых документов получается очень плохим.

Задача уменьшения размерности множества терминов, используемых для

индексации документов, является в какой-то степени более важной, чем задача

построения классификатора. Очевидно, что не имея множества признаков, со-

держащих в себе наибольшее количество информации о рассматриваемых кате-

гориях, не возможно построить классификатор с приемлемым качеством рабо-

18

Page 19: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

ты.

2.2.1 Уменьшение размерности с помощью отбора терминов

Простым и эффективным методом уменьшения размерности является от-

бор терминов t k из множества Τ, в соответствие с их частотой появления в доку-

ментах обучающего множества #Tr ( t k). В результирующее сокращенное мно-

жество терминов Τ ' попадают термины с наибольшей частотой. Данный метод

позволяет сократить мощность множества Τ в десятки раз.

Существуют и другие — более «совершенные» техники отбора терминов.

Они представляют собой некоторые функционалы, зависящие от частотных

оценок вероятностей появления термина в документах определенной тематики,

в соответствие с значениями которых производится отбор терминов. Например

в качестве такой техники можно использовать критерий согласия Пирсона.

Группа методов, связанная с отбором терминов обладает существенным

недостатком - отбор терминов производится исходя из частот их появления во

всей коллекции документов. Очевидно, что в случае несбалансированной кол-

лекции документов, термины, являющиеся наиболее важными для тематики с

малым количеством документов, не будут выбраны в результирующее множе-

ство Τ ' .

2.2.2 Уменьшение размерности с помощью извлечения терминов

Основная идея метода уменьшения размерности на основе извлечения

терминов состоит в генерации «синтетического» множества терминов Τ ' на

основе имеющегося множества терминов Τ . Делается это для предотвращения

проблем, связанных с полисемией, омонимией, синонимией и прочими морфо-

логическими проблемами, связанными с обработкой текстовых документов. Ме-

тоды извлечения терминов пытаются решить эту проблему с помощью генера-

19

Page 20: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

ции искусственных терминов. Любой метод извлечения терминов состоит из

двух частей:

1) метод извлечения новых, искусственных терминов;

2) метод индексации документа в соответствие с полученным множеством

Τ ' .

Метод латентно-семантической индексации. Суть метода латентно-се-

мантической индексации заключается в проекции векторов документов в векто-

ра пространства меньшей размерности. Размерности этого пространства полу-

чаются из размерностей исходного путем выявления зависимостей между ними.

Оператор отображающий вектора исходного пространства в вектора нового

пространства выводится путем применения операции сингулярного разложения

к матрице, составленной из исходных векторов документов обучающего множе-

ства. После получения необходимого оператора, его применяют к векторам до-

кументов тестового множества.

В качестве недостатков метода латентно-семантической индексации вы-

ступают: плохая интерпретируемость размерностей нового пространства, а так-

же вычислительная сложность сингулярного разложения матрицы термин-доку-

мент, применяемого в данном методе.

2.2.3 Уменьшение размерности с помощью вероятностного тематиче-

ского моделирования

Тематическое моделирование — одно из современных приложений мето-

дов машинного обучения к анализу текстов. Тематическая модель коллекции

текстовых документов соотносит каждому документу некоторый набор тем, к

которым он принадлежит, и определяет какие слова (термины) составляют каж-

дую из тем. Вероятностная тематическая модель коллекции текстовых докумен-

тов рассматривает каждую тему, как дискретное распределение на множестве

20

Page 21: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

терминов, а каждый документ, как дискретное распределение на множестве тем.

Также предполагается, что коллекция текстовых документов представляет из

себя последовательность терминов, выбранных случайно и независимо из сме-

си этих распределений.

Рассмотрим более подробно задачу вероятностного тематического моде-

лирования коллекции документов.

2.2.3.1 Основные определения и гипотезы

Рассмотрим ранее введенные множество документов D и множество те-

матик C из пункта 1.1, а так же множество терминов Τ, называемое так же сло-

варем, введенное в пункте 2.1. Каждый документ d∈D представляет из себя по-

следовательность из nd терминов (t 1, t 2, ... , t nd) из словаря Τ. Так как один термин,

может t может встречаться в документе d несколько раз, обозначим число вхо-

ждений этого термина в документ через ndt.

Гипотеза о вероятностном пространстве и условной независимости.

Предполагается существование конечного множества тем C и что с каждым

употреблением термина t в документе d связана неизвестная тема c∈C . Вся

коллекция документов рассматривается как множество, выбранных случайно и

независимо, троек (d ,t , c) из дискретного распределения p(d ,t , c), заданного

на конечном множестве D×T ×C . Наблюдаемыми переменными являются до-

кументы d∈D и термины t∈T , латентными (скрытыми) — темы c∈C . Выборку

из распределения p(d ,t , c) можно рассматривать в виде множеств пар

{(d i , ti )}i=1n , где n длина коллекции в терминах. Гипотеза о независимости эле-

ментов выборки означает, что порядок терминов в документах и документов в

коллекции не имеет значения:

21

Page 22: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

P ({(d i , t i)}i=1n

)=∏i=1

n

P(d i ,t i) . (2.3)

Гипотеза условной независимости. Вероятность появления термина t в

документе d зависит только от темы c, но не от самого документа:

p(t∣d ,c)= p( t∣c) . (2.4)

Вероятностная модель порождения данных. Из определения условной

вероятности, формуле полной вероятности и гипотезе условной независимости

(2.4) следует, что вероятность встретить термин t в документе d коллекции D,

содержащей C различных тематик равна:

p(t∣d)=∑c∈C

p(t∣c) p(c∣d) . (2.5)

Формулировка задачи тематического моделирования. Построение ве-

роятностной тематической модели коллекции документов D — по выборке

{(d i , ti )}i=1n подразумевает восстановление совокупности распределений p(t∣c)

для всех тем t∈T и p(c∣d ) для всех документов d∈D.

Частотные оценки вероятностей. Так как переменные d , t являются на-

блюдаемыми, то по выборке можно оценить следующие вероятности, как часто-

ты:

p(d ,t )=ndt

n, p(d)=

nd

n, p(t)=

nt

n, p(t∣d )=

ndt

nd

, (2.6)

где ndt - число вхождений термина t в документ d;

nd=∑t∈T

ndt - длина документа d в словах;

nt=∑d∈D

ndt - число вхождений термина t во все документы;

n=∑d∈D

∑t∈T

ndt - длина коллекции документов в терминах.

22

Page 23: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Если рассматривать коллекцию, как выборку троек (d , t , c), то также

можно оценить вероятности, связанные со скрытой переменной c:

p(c)=nc

n, p(t∣c)=

ntc

nc

, p(c∣d )=ncd

nd

, p(c∣d , t)=ndtc

ndt

, (2.7)

где ndtс - число троек, в которых термин t документа d связан с темой с;

ntс=∑d∈D

ndtc - число троек, в которых термин t связан темой с;

ncd=∑t∈T

ndtc - число троек, в которых термин документа d связан темой с;

nc=∑d∈D

∑t∈D

ndtc - число троек, связанных с темой с.

2.2.3.2 Принцип максимума правдоподобия.

Введем новые обозначения для неизвестных параметров модели

φ tc= p(t∣c), θ cd= p(c∣d ), а матрицы составленные из различных φ tc и θ cd через

Φ и Θ соответственно. Матрицы Φ, Θ будем называть «матрица тем» и «матри-

ца документов». Для нахождения параметров Φ и Θ максимизируется правдо-

подобие выборки:

Φ* ,Θ*=maxΦ ,Θ

p(D ;Φ ,Θ)=maxΦ ,Θ

C∏d∈D

∏t∈D

p(d , t)ndt =

= maxΦ ,Θ

C∏d∈D

∏t∈D

p(t∣d )ndt p(d )ndt . (2.8)

В формуле (2.8) С - нормировочный множитель мультиноминального рас-

пределения, который зависит только от ndt и не влияет на положение максимума.

Вероятности p(d ) также можно не учитывать, подставив (2.5) в (2.8) и взяв ло-

гарифм, получаем следующую задачу максимизации:

Φ* ,Θ*=maxΦ ,Θ

L(D ;Φ ,Θ)=maxΦ ,Θ

∑d∈D

∑t∈D

ndt ln∑c∈C

φ tcθ cd , (2.9)

23

Page 24: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

при ограничениях нормировки и не отрицательности распределений:

φ tc⩾0,∑t∈T

φ tc=1,θ cd⩾0,∑c∈C

θ cd=1. (2.10)

2.2.3.3 Модель латентного размещения Дирихле

Тематическая модель латентного размещения Дирихле (latent Dirichlet

allocation, LDA) основана на разложении (2.5) при дополнительном предполо-

жении, что векторы документов θ d∈R∣C∣ и векторы тем φ c∈R∣T∣ порождаются

распределениями Дирихле с параметрами α ∈R∣C∣ и β ∈R∣T∣ соответственно:

Dir(θ d ;α )= Г(α 0)

∏c

Г(α c)∏

c

θ cdα c−1 ,α c>0,α 0=∑

c

α c ,θ cd>0,∑c

θ cd=1; (2.11)

Dir( φ c ; β )= Г(β 0)

∏t

Г(β t)∏

t

φ tcβ t−1 ,β t>0,β 0=∑

t

β t , φ tc>0,∑t

φ tc=1, (2.12)

где Г( z) - гамма-функция.

2.2.3.4 Обоснования использования распределения Дирихле

Есть несколько доводов в пользу использования распределения Дирихле

как априорного распределения для тем и документов при построении вероят-

ностных тематических моделей.

Во-первых, это достаточно широкое параметрическое семейство распре-

делений на единичном симплексе, которое описывает как разреженные, так и

сконцентрированные дискретные распределения.

Во-вторых, модель латентного размещения Дирихле хорошо подходит для

описания кластерных структур. Чем меньше значения гиперпараметров α и β ,

тем сильнее разрежено распределение Дирихле, и тем дальше отстоят друг от

24

Page 25: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

друга порождаемые им векторы. Чем меньше α 0, тем сильнее различаются до-

кументы θ d. Чем меньше β 0, тем сильнее различаются темы φ c. Векторы

φ c=p(t∣c) в пространстве терминов R∣T∣ представляют центры тематических

кластеров. Элементами кластеров являются векторы документов с эмпириче-

скими распределениями φ c=p(t∣d ,c). Чем меньше гиперпараметры β t, тем

больше межкластерные расстояния по сравнению с внутрикластерными. Таким

образом, гиперпараметры позволяют моделировать тематические кластерные

структуры различной степени выраженности.

2.2.3.5 Байесовский вывод для модели латентного размещения

Дирихле

Рассмотрим процесс порождения документа d как выборки nd пар тема–

термин X d={(c1, t1) ,(c2, t2) , ... ,(cnd, tnd

)}. В каждой паре (ci , t i) тема ci выбирается

из дискретного распределения p(c∣d )=θ cd . Следовательно, вероятность встре-

тить каждую из тем c∈C ровно ncd раз подчиняется мультиномиальному рас-

пределению:

p(X d∣θ d )=nd !

∏c

ncd !∏

c

θ cdncd . (2.13)

Важной особенностью распределения Дирихле, определяющей его попу-

лярность в моделировании тематик коллекций документов — его сопряжен-

ность к мультиноминальному распределению. Это означает, что при априорном

распеределении Дирихле θ d∼Dir (θ d ,α ), апостериорное распределение векто-

ра θ d принадлежит тому же семейству распределений, но с другим значением

гиперпараметра : θ d∣X d∼Dir (θ d ,α ' ). Действительно, по формуле Байеса

25

Page 26: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

p(θ d∣X d ;α )=p(X d∣θ d ;α )Dir (θ d ;α )

p(X d )=С∏

c

θ cdncdθ cd

α c−1=Dir (θ d ;α ' ) ;

α c '=α c+ncd ,

(2.14)

где С - нормировочная константа, не зависящая от θ d.

Оценим случайную величину θ сd ее математическим ожиданием по апо-

стериорному распределению:

E [θ cd ]=∫θ cd p(θ d∣X d ;α )d θ d=∫θ cd Dir (θ d ;α ' )d θ d=ncd+α c

nd+α 0

. (2.15)

Заменив величину nсd ее оценкой nсd, получим байесовскую оценку пара-

метра θ сd, аналогично выводится сглаженная байесовская оценка и для φ tc, в

итоге получаем формулы для оценки параметров тематической модели:

θ cd=ncd+α c

nd+α 0

, φ tc=ntc+β t

nc+β 0

. (2.16)

2.2.3.6 Обучение модели латентного размещения Дирихле с помощью

алгоритма сэмплирования Гиббса.

В формулах (2.16) остается открытым вопрос получения оценок для зна-

чений nсd, ntc, nс, так как модель Латентного размещения Дирихле не учитывает

тот факт, что корпус документов является размеченным с точки зрения тематик.

Возникает задача оценки данных величин. В (2.7) указано, как вычисляются

данные характеристики по известным значениям ndtc. Сами величины ndtc нахо-

дятся при помощи алгоритма сэмплирования Гиббса.

Сэмплирование Гиббса применяется для решения задач статистического

оценивания, когда вычисление или хранение функции распределении слишком

ресурсоемко, в то же время, генерация случайной выборки из этого распределе-

ния не вызывает затруднений. Тогда вместо исходного распределения использу-

26

Page 27: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

ется его несмещенная эмпирическая оценка по сэмплированной выборке. Блок-

схема работы алгоритма приведена на листе приложения А.

На каждой итерации алгоритма мы пытаемся сэмплировать с dtj - тематику

для j−го вхождения рассматриваемого слова t в документ d из распределения

p(c∣d , t )∝ntc+β t

∑t∈T

(nct+β t )⋅

ncd+α c

∑d∈D

(ncd+α c). (2.17)

Затем инкрементируются параметры nсd, ntc, nс. Но при этом, если

рассматриваемая итерация алгоритма не является первой, то тройка nсd, ntc, nс

уменьшается для сэмплированной на прошлом шаге темы с dtj. Условием оконча-

ния итераций является стабилизация значений nсd и ntc, что соответствует стаг-

нации значения функционала L(D ;Φ ,Θ) из (2.9).

В данном дипломном проекте начальные приближения для алгоритма

Гиббса задаются посредством обхода всей коллекции документов, при этом

каждой паре (d , t) назначается случайная тема c из равномерного распределе-

ния на темах и вычисляются частотные оценки вероятностей (2.7) для всех

d∈D ,t∈T ,c∈C .

В большинстве литературных источников, связанных с построением веро-

ятностных тематических моделей на основе латентного размещения Дирихле,

используются симметричные распределения Дирихле с гиперпараметрами

α =(a , ... , a) и β =(b , ... , b). Скалярные гиперпараметры a и b либо фиксирова-

лись (одна из стандартных рекомендаций: a=50 /∣C∣, b=0.01 ), либо настраива-

лись путем перебора по сетке значений. В проекте используется симметричное

распределение Дирихле для векторов тем и асимметричное для векторов доку-

ментов, используются рекомендуемые начальные значения. Подбор значений

параметров распределения Дирихле производится методом перебора по сетке.

27

Page 28: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

2.2.3.7 Уменьшение размерности при помощи тематических моделей

После построения тематической модели, имея матрицы Φ и Θ мы можем

отобрать в множество Τ ' из матрицы Φ, по nc самых значимых терминов для

каждой тематики с∈C . Таким образом можно отсеять не только термины, кото-

рые не значимы для данной коллекции документов, но и включить в финальное

множество факторов только наиболее информативные термины. Так же можно

произвести отбор терминов, задавшись вектором порогов pс для каждой из те-

матик, и отсеивать термины, вероятность появления которых для тематики с

меньше соответствующего порога.

2.2.4 Выбранный метод уменьшения размерности

В данном дипломном проекте в качестве механизма уменьшения размер-

ности пространства признаков, используется вероятностная тематическая мо-

дель на основе латентного размещения Дирихле. Такое решение было принято

на основе того, что данная модель не просто выделяет частотные информатив-

ные термины, а позволяет смоделировать тематики представленные в коллекции

документов.

2.3 Случайный лес

В качестве основной модели классификации была выбрана модель, кото-

рая не является типичной для задач классификации текстов — модель слу-

чайного леса (Random Forest).

Модель случайного леса — это одна из разновидностей моделей комите-

тов классификаторов, основанная на нескольких простых идеях, благодаря кото-

рым она обладает высокой обобщающей способностью и низкой вероятностью

переобучения:

• деревья решений;

28

Page 29: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

• бутстреп аггрегация;

• декорреляция леса.

2.3.1 Деревья решений

Дерево решений представляет из себя бинарное дерево, делящее про-

странство факторов решаемой задачи обучения (регрессии, классификации), на

n+1 не пересекающихся регионов {R1, R2, ... , Rn+1}, где n - количество внутрен-

них узлов дерева. В качестве разделителей выступают гиперплоскости, ортого-

нальные осям разделяемого пространства. Чтобы лучше понять работу данного

метода, рассмотрим рисунок 2.1, на нем изображено разделенное двумерное

пространство факторов и соответствующее данному разделению дерево реше-

ний.

Рисунок 2.1 - Пример разбиения двумерного пространства задачи

при помощи дерева решений

Регионам разбиения соответствуют терминальные узлы дерева, а грани-

цам разделяющим пространство предикаты, стоящие во внутренних узлах.

29

Page 30: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Построение дерева выполняется по алгоритму CART (Classification and

Regression Tree). Введем ряд обозначений, согласующийся с решаемой задачей

классификации. В качестве множества признаков будут выступать термины, по-

лученные после этапа сокращения размерности t k∈Τ ' . Для каждого признака

можно выделить множество его значений, основываясь на обучающем множе-

стве, обозначим следующим образом конечное множество значений признака:

∀ t k∈Τ ' ,∃ st k⊆[0,1 ] . (2.18)

Так же необходимо ввести так называемую меру неоднородности множе-

ства объектов (в нашем случае документов) обучающей выборки. Для этого

обозначим следующим образом вероятность тематики с в некотором подмноже-

стве A обучающего множества:

∀ A⊆Ω : 0⩽ pc⩽1 . (2.19)

Как правило, в качестве значения вероятности выступает ее частотная

оценка. Таким образом задается эмпирическое дискретное вероятностное рас-

пределение тематик в подмножестве документов. Мерой неоднородности этого

подмножества будем называть функцию следующего вида

ϕ : [0,1]K ( A)→R , (2.20)

где K (A) - общее количество тематик подмножества A.

Мера неоднородности задается таким образом, что бы значение функции

по возможности возрастало при увеличении количества различных тематик на-

бора, достигая своего максимума тогда, когда набор состоит из одинакового ко-

личества всевозможных тем, и минимума в случае если набор состоит только из

документов одного класса.

В качестве мер неоднородности применяются функции:

1) «наиболее часто встречающийся класс» : ϕ( p)=1− maxс∈K ( A)

pс ; (2.21)

30

Page 31: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

2) «индекс Гини» : ϕ( p)= ∑c∈K ( A)

pc⋅(1− pc); (2.22)

3) «кросс-энтропия» : ϕ( p)=− ∑c∈K (A)

pc log ( pc). (2.23)

В формулах (2.21-2.23) p - вектор вероятностей для всех классов пред-

ставленных в A, а pс - с-ая компонента данного вектора. Из трех приведенных

формул, на практике используют (2.22 и 2.23), так как они являются наиболее

чувствительными к изменению распределения классов.

На этапе построения дерева применяется жадная стратегия, в соответ-

ствие с которой на каждой итерации для входного подмножества обучающего

множества строится такое разбиение пространства гиперплоскостью (ортого-

нальной одной их осей координат), которое минимизировало бы среднюю меру

неоднородности двух полученных подмножеств. Данная процедура выполняет-

ся рекурсивно для каждого полученного подмножества до тех пор, пока не бу-

дут достигнуты критерии остановки. Более формально, стратегия имеет вид:

⟨ t k

* , x *⟩= mint k∈T ' , x∈s tk

12ϕ( pAt k⩽x )+ϕ( pAt k>x );

12ϕ( pAt k⩽x )+ϕ( pAt k> x)<ϕ( pA) ,

(2.24)

где pAt k⩽x - вектор вероятностей тематик подмножества At k∈A, состоящего из

документов, для которых значение компоненты t k⩽x.

В качестве критериев остановки можно рассматривать:

1) ограничение на максимальную высоту дерева в ярусах;

2) вероятность доминирующего класса в разбиении превышает некото-

рый порог;

3) ограничение на минимальное количество элементов в узле дерева.

Процедура классификации с помощью полученного дерева происходит

31

Page 32: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

следующим образом. Начиная с корня, проверяется предикат, соответствующий

рассматриваемому узлу, в зависимости от выполнимости условия выбирается

правая или левая ветвь дерева. Процедура выполняется, пока не будет достиг-

нут терминальный узел. В качестве ответа, возвращается либо метка доминиру-

ющего класса в терминальном узле, либо вектор вероятностей классов докумен-

тов, находящихся в нем.

2.3.2 Бутстрэп аггрегация

Под бутстрепом понимают способ сэмплирования выборок из набора дан-

ных основанный на методе Монте-Карло.

Бутстреп семплинг применяется в случаях, когда мы не имеем возможно-

сти получить большое количество выборок из реального распределения. Допу-

стим мы хотим получить m множеств наблюдений размера n, но у нас в распо-

ряжении только одно множество из n наблюдений. Тогда мы генерируем m мно-

жеств равновероятностым выбором n элементов из исходного множества с воз-

вратом выбранного элемента (выборка с повторением или возвращением). При

больших значениях n, количество уникальных элементов полученного бутстреп

семплингом множества будет составлять (1−1e)⋅100 %=63.2% от общего числа

уникальных объектов исходного множества. Обозначим через D i — i-ое множе-

ство полученное бутстреп семплированием, мы оцениваем на нем некоторый

параметр a, и повторяем эту процедуру m раз. Стандартная ошибка бутстреп

оценки параметра записывается следующим образом:

SE ( a)=√ 1m−1

∑i=1

m

(ai−a) (2.25)

Рассмотрим набор из m независимых случайно выбранных элементов x из

одного вероятностного распределения, с некоторым математическим ожидани-

32

Page 33: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

ем и дисперсией σ2. Тогда выборочное среднее будет равно:

x=1m∑i=1

m

x i . (2.26)

Выборочное среднее — это не параметр распределения, в отличие от ма-

тематического ожидания и дисперсии, а функция от случайных переменных, т.е.

тоже является случайной переменной, из некоторого вероятностного распреде-

ления выборочных средних. Которое свою очередь обладает дисперсией, выра-

жаемой следующим образом:

D ( x)=σ2

m (2.27)

Получается, что усреднение множества значений случайной переменной

уменьшает дисперсию. На этом и строится идея агрегирования бутстреп выбо-

рок: cгенерируем m бутстреп выборок размера n из обучающего множества Ω

(которое тоже размера n). На каждой бутстреп выборке обучим модель f i и вве-

дем следующий функционал:

f bag ( x)=L( f 1( x) , f 2(x) ,... , f m( x)) (2.28)

Такой подход и называется бутстреп агрегацией. Для задач классифика-

ции, в качестве функционала выступает мода значений { f 1( x) , f 2( x) , ... , f m (x)}.

2.3.2 Декорреляция леса

При построении леса деревьев методами, описанными выше возникает

проблема связанная с тем, что полученные деревья будут иметь одинаковую

структуру. Более формально, говорят, что деревья будут скоррелированы отно-

сительно друг друга. В таком случае, качество работы комитета из 1000 дере-

вьев не будет заметно лучше, чем качество работы леса из 2 деревьев. Для ре-

шения данной проблемы производят декорреляцию деревьев по следующей схе-

33

Page 34: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

ме: для каждого из деревьев комитета на этапе построения, равновероятно вы-

бираются без возвращений p признаков, которые используются при построении

всего дерева, Как правило p=√(∣T '∣) . Такой метод, в общем случае, носит на-

звание метода случайных подпространств признаков.

В дипломном проекте модель случайного леса рассматривается в качестве

основной. Ее обучение, производится при следующих параметрах:

1) в качестве функции ϕ( p) используется «кросс-энтропия».

2) критерием окончания процедуры построения является ограничение на

минимальное количество примеров в листе — 1 пример.

34

Page 35: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

3 КОНСТРУКТОРСКАЯ ЧАСТЬ

В рамках конструкторской части была разработана модульная система по-

строения классификаторов коллекций веб-документов на основе машинного

обучения, которая состоит из следующих частей:

1) модуль лексического анализа веб-документов (парсер);

2) модуль лемматизации для английского и русского языков;

3) модуль для преобразования коллекции документов в формат системы по-

строения вероятностных тематических моделей;

4) модуль построения вероятностных тематических моделей;

5) модуль для индексации документов и построения обучающего множества

в формате SVMLight по полученной вероятностной тематической модели;

6) модуль построения классификаторов, и модуль классификации.

Схема обобщенной архитектуры всего программного комплекса изобра-

жена на рисунке 3.1. Как и было сказано ранее, вся система организована в виде

модулей, которые объединяются в единую структуру посредством программных

интерфейсов (API). Такой подход к организации системы позволяет:

• абстрагироваться от конкретной реализации того или иного модуля;

• добавлять в систему новые сущности и изменять старые;

• изменять структуру системы без влияния на основные модули;

• оптимизировать процесс компиляции программного кода за счет раз-

дельной компиляции каждого из модулей;

• в случае необходимости масштабировать систему, с помощью исполь-

зования нескольких экземпляров каждой из сущностей.

35

Page 36: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Рисунок 3.1 - Общая архитектура системы построения классификаторов

Важной ремаркой является то, что система отвечающая за подготовку до-

кументов (лексический анализ, индексация, построение тематических моделей),

предполагает, что они представлены в кодировке UTF-8.

3.1 Вспомогательные модули системы

Как правило, любой программный продукт состоит из основной части и

вспомогательных модулей, осуществляющих сервисные работы. Отличитель-

ной чертой таких модулей является то, что они взаимодействуют с большим ко-

личеством компонент системы и обладают одним и тем же поведением при вза-

имодействии с этими компонентами. В рассматриваемой архитектуре такими

модулями являются модуль лексического анализа документов и модуль лемма-

тизации.

36

HTML-документы с известными категориями

HTMLParser

Модуль лексического анализа

Документы без HTML-разметки

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

This is title of document with- out HTML tags

This is title of document with- out HTML tags

This is title of document with- out HTML tags

METALemmatizer

Модуль лемматизации

CORPVectorizer

CORPConverter

Модуль конвертации документов в формат модуля построения ВТМ

Модуль индексации документов

Коллекция документов в бинарном формате *.mallet

Mallet

Модуль построения тематических моделей

Тематическая модель

Проиндексированные документы в формате SVMLight

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

0 0:2 1:23.1 10:... 0 0:3.2 15:23.2 ... 1 2:2.3 4:4.1 ... 3 2:3.2 5:2.1 ... 5 3:4.1 8:9.2 ...

RFTrainer

Модуль построения классификаторов

Классификатор

RFTrainer

Модуль классификации

Индексатор

HTMLParser METALemmatizer CORPVectorizer

Ф,Θ

HTML-документы с неизвестными категориями

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

Ф,Θ

rfmodel.dat

Индексатор

Проиндексированные документы в формате SVMLight

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

? 0:2 1:23.1 10:... ? 0:3.2 15:23.2 ... ? 2:2.3 4:4.1 ... ? 2:3.2 5:2.1 ... ? 3:4.1 8:9.2 ...

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

1 0:2 1:23.1 10:... 3 0:3.2 15:23.2 ... 5 2:2.3 4:4.1 ... 0 2:3.2 5:2.1 ... 2 3:4.1 8:9.2 ...

Классифицированные документы

data.mallet

Page 37: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

3.1.1 Модуль лексического анализа документов

Модуль лексического анализа документов на рисунке 3.1 носит название

HTMLParser. Он предназначен для лексического разбора гипертекстовых доку-

ментов, очистки содержимого документов от разметки, выделения терминов до-

кументов. Факторами, которые учитывались при построении модуля лексиче-

ского анализа были: возможность расширения за счет обработки новых тегов

разметки, возможность использовать различные сценарии обработки тела каж-

дого из тегов, поддержка современных стандартов гипертекстовой разметки

HTML5, толерантность к ошибкам в разметке, линейная асимптотика времени

разбора и используемой памяти в зависимости от длины документа.

В результате исследования существующих лексических анализаторов ги-

пертекстовых документов, был сделан выбор использовать библиотеку с откры-

тым исходным кодом libgumbo совместно с реализованным к ней интерфейсом.

На рисунке 3.2 приведена упрощенная UML-диаграмма модуля HTMLParser.

Рисунок 3.2 - Упрощенная UML-диаграмма модуля HTMLParser

Важно отметить, что сам модуль HTMLParser реализован в виде динами-

ческой библиотеки и предоставляет пользователям открытый интерфейс для за-

грузки документа, запуска его разбора и возврата извлеченных терминов. Так

37

HTMLProcessor-tokens;: std::vector<std::string>-rawData: const char*

+HTMLProcessor()+loadData(ifp:const char*): void+save(ofp:const char*): void+processHTML(): void+getTokens(): const std::vector<std::string>+~HTMLProcessor()

libgumbo.so

Page 38: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

же в классе HTMLProcessor есть метод save, для сохранения извлеченных тер-

минов в файл для отладки работы системы. В соответствие с рисунком 3.2, ме-

тоды обработки документа(processHTML) и получения терминов(getTokens) яв-

ляются виртуальными и могут быть перегружены в наследующих классах, что

позволяет приспосабливать систему для обработки различного типа докумен-

тов.

3.1.2 Модуль лемматизации русского и английского языка

METALemmatizer — модуль лемматизации для русского и английского

языков. Его отличительная особенность в том, что процесс лемматизации не

требует априорных знаний о языке входного слова, поэтому лемматизация как

английских, так и русских слов происходит незаметно для пользователя модуля.

Проектирование и разработка системы лемматизации является отдельной слож-

ной задачей, поэтому в качестве ядра модуля лемматизации был использован

свободно распространяемый пакет лемматизации АОТ. Подход, реализованный

в системе АОТ, основан на использовании словарей известных словоформ,

например для русского языка используется грамматический словарь А.А. Зализ-

няка. Преимуществом такого подхода является возможность добавления слова-

рей других языков, а так же обновление имеющихся словарей.

Модуль METALemmatizer состоит из одноименного класса и библиотеки

AOT. С целью упрощения использования модуля, он реализован в виде динами-

ческой библиотеки и предоставляет открытые интерфейса для работы:

1) метод lemmatize() — для попытки лемматизации термина;

2) метод isFound() - возвращающий истину в случае, если лемма найдена;

3) метод getLemma() - возвращающий лемму, если она найдена.

Более подробное описание модуля представлено на UML-диаграмме на

38

Page 39: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

рисунке 3.3.

Рисунок 3.3 - Упрощенная UML-диаграмма модуля METALemmatizer

Несмотря на всю простоту и гибкость работы данной системы, она обла-

дает недостатком, связанным с внутренним представлением словоформ в слова-

рях системы AOT в кодировке CP1251. Таким образом возникают несуществен-

ные затраты на конвертацию кодировки при поиске леммы.

3.2 Основные модули системы

Основные модули любой программной системы выполняют основные

функции по обработке или преобразованию данных. Как правило, они содержат

в себе основную бизнес-логику системы и не могут быть заменены без значи-

тельных изменений в архитектуре системы. В данном проекте к таким модулям

относятся: модуль конвертации документов в формат системы построения тема-

тических моделей, модуль построения тематических моделей, модуль индекса-

ции документов по тематической модели, модуль построения классификаторов,

модуль классификации.

3.2.1 Система построения вероятностных тематических моделей

В данном параграфе рассматривается система построения вероятностных

39

METALemmatizer-rusLemmatizer: SimpleLemmatizer-engLemmatizer: SimpleLemmatizer-POSMap: std::tr1::unordered_map<std::string, float>-lemma: std::string

+METALemmatizer()+isFound(): bool+getLemma(): const std::string+lemmatize(token:const std::string

AOT

Page 40: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

тематических моделей (ВТМ), состоящая из двух модулей: модуля конвертации

документов в формат, подходящий для построения ВТМ, и модуля построения

ВТМ. В качестве ядра системы построения вероятностных моделей была вы-

брана свободно распространяемая система MALLET. Эта система предоставляет

набор утилит для статистического анализа документов на естественном языке.

В программном коде данной системы реализован, рассмотренный в второй гла-

ве, метод построения вероятностных тематических моделей на основе латентно-

го размещения Дирихле. Выбор в пользу использования MALLET в качестве

основного инструмента построения ВТМ был сделан на основе представленной

в ней эффективной и масштабируемой реализации алгоритма сэмплирования

Гиббса для обучения модели.

Модуль конвертации документов, осуществляет преобразование коллек-

ции документов в бинарный формат системы построения тематических моделей

в два этапа:

1) Очистка документов от html-разметки, извлечение и лемматизация всех

терминов документа. Опционально, возможно удаление стоп-слов, и

слов с низким значением tfidf.

2) Формирование матрицы термин-документ и словаря терминов в сжа-

том формате по результатам первого этапа.

Первый этап описанной выше процедуры конвертации выполняется при

помощи объекта, соответствующего классу CORPConverter на UML-диаграмме

рисунка 3.4.

Объект класса CORPConverter при инициализации в качестве входных па-

раметров получает путь к директории с документами (inputDirPath), путь к

файлу, в который будет записан результат конвертации (outFilePath), порог зна-

чения функции tfidf (tfIdfThreshold) для терминов, которые будут отфильтрованы

40

Page 41: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

по данному порогу, как не информативные, флаг использования системой всех

слов, а не только тех, которые есть в словаре лемматизатора (allToksFlag) и путь

до словаря стоп-слов(dictPath), причем последние три параметра являются

необязательными. Вызов функции convert, инициирует последовательный обход

документов в директории inputDirPath, их конвертацию и сохранение в файле

outFilePath.

Класс Vocabulary, обеспечивает работу с терминами коллекции: сохраняет

новые термины, производит фильтрацию стоп-слов, осуществляет подсчет ве-

личины metaIdf — количества документов для каждого термина, в которых он

встречается. Класс Document осуществляет хранение документа внутри систе-

мы во время обработки в виде вектора частот встречаемых в документе

слов(поле words).

Из диаграммы на рисунке 3.4 понятно, что основным классом, инкапсули-

рующим в себе работу с коллекцией документов, является класс

DocumentsCorpus. Он агрегирует внутри себя словарь терминов (lexicon), спи-

сок документов (documents), лексический анализатор (parser) и лемматизатор

(lemmatizer). В рассматриваемой архитектуре, обработка документов происхо-

дит по шаблону поставщик-потребитель: на каждой итерации работы системы,

объект класса CORPConverter извлекает из входной директории новый доку-

мент, проверяет его на наличие ошибок, и отправляет на обработку объекту

класса DocumentsCorpus. Последний, производит обработку документа, и далее

обращается к CORPConverter за новым документом. Обработка прекращается

когда во входной директории иссякнут документы для обработки.

Выходной файл представляет из себя набор строк, каждая из которых со-

ответствует документу в коллекции, в строках последовательно через пробел за-

писаны термины документов, причем каждый термин записан столько раз,

сколько раз он встречается в документе.

41

Page 42: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Рисунок 3.4 - Упрощенная UML-диаграмма модуля CORPConverter

Второй этап работы системы конвертации происходит при помощи моду-

ля встроенного в утилиту MALLET, который на вход принимает выходные дан-

ные первого этапа в описанном выше формате и формирует из них бинарный

файл внутреннего представления документов системы MALLET.

Модуль построения вероятностных тематических моделей состоит из од-

ной утилиты MALLET. На рисунке 3.5 изображена часть диаграммы архитекту-

ры всей системы, содержащая подсистему отвечающую за построение вероят-

ностной тематической модели. На данной диаграмме оба этапа конвертации

объединены. Для работы с утилитой MALLET, был разработан скриптовый ин-

терфейс, позволяющий осуществлять запуск утилит отвечающих за запаковку

данных в бинарный формат, и за построение тематических моделей с различны-

ми параметрами(число тематик, максимальное количество итераций обучения,

и т. д.).

В результате работы всей подсистемы, мы будем иметь вероятностную те-

матическую модель коллекции документов, представленную в виде двух матриц

вероятностных распределений:

• матрицы слов-тематик (которая будет использоваться для индексации

42

CORPConverter-docCorpus: boost::shared_ptr<DocumentsCorpus>-inputDirPath: const char*-outputFileName: const char*

+CORPConverter(inputDirPath:const char*,outFilePath:const char*,tfIdfThreshold:float,allToksFlag:bool,dictPath:const char*)+convert(): void+save(): void

Document+words: std::vector<std::string>+name: std::string+label: size_t

+Document(name:std::string,label:size_t)

Vocabulary+wordPosition: std::tr1::unordered_map<std::string, size_t>+positionWord: std::vector<std::string>+std::tr1::unordered_set<std::string>: filterDict+std::vector<size_t>: metaIdf

+Vocabulary()

DocumentsCorpus-lexicon: Vocabulary-parser: boost::shared_ptr<HTMLProcessor>-lemmatizer: boost::shared_ptr<METALemmatizer>-documents: std::vector<Document>

+DocumentsCorpus()+addDocument(documentPath:const char*): void+setTFIDFThreshold(threshold:float): void+setAllToksFlag(flag:bool): void+loadDictionary(dictPath:const char*): void+CORPConverter::save(): friend void

Page 43: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

документов при построении классификатора);

• матрицы тем-документов.

Рисунок 3.5 - Подсистема построения вероятностных тематических моделей

3.2.2 Модуль индексации документов

Модуль индексации документов CORPVectorizer похож на подсистему

конвертации из раздела 3.2.1, в нем используются те же классы, что и в модуле

CORPConverter, за небольшими изменениями в процедуре обработки докумен-

тов. Эти изменения связаны с тем, что для индексации документов используется

матрица слов-тематик, полученная в результате построения вероятностной те-

матической модели. Из данной матрицы для каждой тематики по жадной стра-

тегии отбирается некоторое количество слов, имеющих наибольшую вероят-

ность появления. Далее, по отобранным словам производится последовательная

индексация коллекции документов. По результатам индексации формируется

файл в формате SVMLight. Формат SVMLight является де-факто стандартом

представления данных в задачах машинного обучения. Строкам такого файла

соответствуют документы, а в самих строках через разделитель записываются

данные в формате «фактор:значение», в начале каждой строки записывается

43

CORPConverter

Модуль конвертации документов в формат модуля построения ВТМ

Коллекция документов в бинарном формате *.mallet

Mallet

Модуль построения тематических моделей

Тематическая модель

Ф,Θ

data.mallet

HTML-документы с известными категориями

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

<HTML> <HEAD> <TITLE> This is title of page <\TITLE> .....

Page 44: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

метка класса, к которому принадлежит рассматриваемый пример.

Рисунок 3.6 - Упрощенная UML-диаграмма модуля CORPVectorizer

Из приведенной на рисунке 3.6 диаграмме видно, что в целом архитекту-

ры систем CORPVectorizer и CORPConverter идентичны, за исключением основ-

ных классов, реализующих интерфейсы к данным системам. Объект класса

CORPVectorizer в конструкторе принимает следующие параметры:

• inputDirPath — путь к директории с документами;

• outFilePath — имя выходного файла;

• pathToModelMatrix — путь к матрице слов-тематик вероятностной мо-

дели;

• label — метка (класс) конвертируемых документов;

• numToksPerTheme — количество наиболее вероятных терминов для

каждой тематики, извлекаемых из матрицы pathToModelMatrix для ин-

дексации.

После создания экземпляра класса CORPVectorizer, с помощью метода

convert производится индексация документов. Функция сохранения результатов

индексации save, позволяет разбить проиндексированную коллекцию на 2

файла: обучающее(с суффиксом .train) множество и тестовое (с суффиксом

44

CORPVectorizer-docCorpus: boost::shared_ptr<DocumentsCorpus>-inputDirPath: const char*-outputFileName: const char*

+CORPVectorizer(inputDirPath:const char*,outFilePath:const char*,pathToModelMatrix:const char*,label:size_t,numToksPerTheme:size_t)+convert(): void+save(bool:printDocNames,tpartProp:float): void+saveDict(dictOutFile:const char*)

Document+words: std::vector<std::string>+name: std::string+label: size_t

+Document(name:std::string,label:size_t)

Vocabulary+wordPosition: std::tr1::unordered_map<std::string, size_t>+positionWord: std::vector<std::string>+std::tr1::unordered_set<std::string>: filterDict+std::vector<size_t>: metaIdf

+Vocabulary()

DocumentsCorpus-lexicon: Vocabulary-parser: boost::shared_ptr<HTMLProcessor>-lemmatizer: boost::shared_ptr<METALemmatizer>-documents: std::vector<Document>

+DocumentsCorpus()+addDocument(documentPath:const char*): void+loadDictionary(dictPath:const char*,tokensPerTheme:size_t): void+CORPConverter::save(): friend void

Page 45: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

.test), параметр разбиения (tpartProp) определяет какая доля документов будет

находиться в файле обучающего множества. Так же существует возможность

сохранить словарь терминов, при помощи которого производилась индексация,

эта возможность реализуется при помощи функции saveDict с обязательным па-

раметром имени выходного файла.

3.2.3 Система классификации

Модуль построения классификаторов и модуль классификации можно

объединить и рассматривать как единую систему классификации, поскольку мо-

дель классификатора, полученная на этапе построения используется на этапе

классификации новых документов. В данном проекте, в качестве ядра системы

классификации используется библиотека машинного обучения с открытым ис-

ходным кодом scikit-learn. Выбор данной библиотеки в качестве основного

инструмента основан на том, что она позволяет быстро и гибко разрабатывать

системы классификации, без ущерба для производительности. Это возможно

благодаря использованию внутри библиотеки в качестве решателей современ-

ные библиотеки численных методов, такие как BLAS и LAPACK. Рассматривае-

мая система производит построение классификаторов на основе модели слу-

чайного леса.

Диаграмма классов, используемых в системе классификации представле-

на на рисунке 3.7. По данной диаграмме видно, что в качестве основного высту-

пает класс Model, реализующий как логику обучения классификатора, так и ло-

гику загрузки готовой модели и непосредственно классификации. При инициа-

лизации, объект класса Model получает ассоциативный массив параметров

parameters и символьный флаг ltype, по которому выбирается дальнейшая стра-

тегия работы класса — обучение модели или классификация.

45

Page 46: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Рисунок 3.7 - Упрощенная UML-диаграмма системы классификации

Ассоциативный массив parameters определяет набор следующих пара-

метров, по которым происходит построение модели:

• treesNum — количество деревьев в ансамбле;

• maxDepth — ограничение на максимальную глубина каждого дерева;

• minSamples — ограничение на количество примеров в листе дерева;

• maxFeatures — максимальное количество факторов, рассматриваемых

при построении нового разбиения пространства признаков;

• bootstrap — логический флаг использования бутстрэп аггрегирования

при построении ансамбля;

• threadsNum — количество потоков выполнения, используемых при по-

строении дерева.

Так же наравне с параметрами специфичными для процедуры построения

46

Model+classifier: sklearn.ensemble.RandomForestClassifier+trainDataset_X: scipy.sparse+testDataset_X: scipy.sparse+trainDataset_Y: numpy.ndarray+testDataset_Y: numpy.ndarray+f1_micro: float+f1_macro: float+parameters: dict

+__init__(self,parameters:dict,ltype:char)+loadModel(self,parameters:dict)+trainModel(self)+dumpModel(self,parameters:dict)+computeTestScore(self)+computeImportances(self)+printScores(self)+predict(self,parameters)

scikit-learn

numpy

scipy

Page 47: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

классификатора, в массиве parameters передаются пути данных, необходимых

для работы:

• trainSet — путь до файла обучающего множества в формате SVMLight;

• testSet — путь до файла тестового множества в формате SVMLight;

• outputModel — путь до файла, куда будет записана выходная модель;

• predictSet - путь до файла в формате SVMLight, строки которого неоь-

ходимо классифицировать;

• predictionOut — путь до файла, в который будут сохранены результаты

классификации;

• modelFile — путь до файла, откуда будет загружена модель.

Стоит заметить, что параметры trainSet, testSet и outputModel используют-

ся только в случае, когда объект класса Model параметризован для проведения

обучения, в случае его работы в режиме классификации, используются только

параметры modelFile, predictSet и predictionOut.

Класс Model содержит следующие основные методы для построения и

анализа моделей классификаторов:

• trainModel — по обучающему множеству trainSet инициирует построе-

ние классификатора;

• printScores — в случае, если указано тестовое множество testSet произ-

водит оценку построенного классификатора по микро- и макро- усред-

ненной F 1 - мере;

• dumpModel — сохраняет получившуюся модель в файл outputModel.

Методы класса Model относящиеся к операции классификации:

• loadModel — загружает готовую модель из файла modelFile;

47

Page 48: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

• predict — для каждого документа из predictSet находит категорию, к ко-

торой он принадлежит и печатает результаты в файл predictionOut.

Для удобства портирования классификатора, модель, получающаяся в

ходе обучения сериализуется в специальный бинарный файл, который затем

можно перенести и использовать на других машинах. Данная возможность поз-

воляет разделить этапы построения и использования модели.

3.3 Система технической документации

С целью улучшения понимания механизмов работы системы конечным

пользователем, отдельно для каждой из частей системы, на основе исходного

кода, была создана система технической документации в виде веб-ресурса. В

ней кратко изложены описания программных интерфейсов системы, приведены

графы вызовов методов, а так же зависимости между компонентами системы на

уровне исходных кодов. Пример страницы пользовательской документации для

модуля индексации документов приведен на рисунке 3.8.

Рисунок 3.8 - Страница зависимости компонентов модуля CORPConverter

48

Page 49: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

4 ТЕХНОЛОГИЧЕСКАЯ ЧАСТЬ

В технологической части дипломного проекта подробно рассмотрены

программные средства, использованные при реализации всей системы. Дано

обоснование выбора данных средств. Приведены результаты комплексного те-

стирования системы на примере классификации коллекции веб-документов.

4.1 Выбор платформы и программных средств разработки

Платформа и среда разработки для программиста – главный инструмент

быстрого создания приложений, их тестирования и отладки. Поэтому к выбору

среды разработки накладываются жесткие требования.

4.1.1 Требования к платформе и программным средствам разработки

Работа системы классификации веб-документов в рабочем релизе предпо-

лагает наличие мощных вычислительных ресурсов. Для надежности и сбалан-

сированного распределения нагрузки на имеющиеся ресурсов необходимо ис-

пользование семейства серверных операционных систем. В качестве таких ОС

можно выделить семейство Windows Server и семейства UNIX систем.

Учитывая распространенность серверных UNIX систем, в качестве основ-

ной платформы разработки выбор именно этого семейства был оправдан. Одна-

ко, система должна иметь возможность легкого масштабирования и развертыва-

ния на другие ОС, поэтому программные средства должны поддерживать кросс-

платформенность, которая достигается за счет использования соответствующих

библиотек и систем конфигурации сборки.

Для решения задач с умеренными и большими вычислительными сложно-

стями используются низкоуровневые языки программирования, призванные

уменьшить накладные расходы на имеющиеся ресурсы.

49

Page 50: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

4.1.2 Основные языки программирования

В качестве основного языка программирования для разработки наиболее

производительных узлов системы был выбран С++ 11 стандарта.

C++ является компилируемым статически типизированным языком про-

граммирования общего назначения. C++ широко используется для разработки

программного обеспечения, являясь одним из самых популярных языков про-

граммирования. Область его применения включает создание разнообразных

прикладных программ, драйверов устройств, приложений для встраиваемых си-

стем и приложений как с жесткими требованиями к производительности, так и

с обычными. Ключевой особенностью при выборе данного языка программиро-

вания стала его кроссплатформенность, что является важным требованием при

разработке системы.

При реализации системы построения и оценки классификаторов приме-

нялся язык Python версии 2.7. Python – высокоуровневый язык программирова-

ния общего назначения, ориентированный на повышение производительности

разработчика и читаемости кода. Синтаксис ядра Python минималистичен. В то

же время стандартная библиотека включает большой объем полезных функций,

что является важным дополнением.

Для задач общего назначения в дипломном проекте использовались

скриптовые языки, в частности язык командного интерпретатора UNIX – bash.

Bash – усовершенствованная и модернизированная вариация командной

оболочки shell. Одна из наиболее популярных современных разновидностей ко-

мандной оболочки UNIX, предустановленная практически во все ОС данного

семейства. Он поддерживает автодополнение названий файлов и папок, подста-

новку вывода результата команд, переменные, контроль за порядком выполне-

ния, операторы ветвления и цикла.

50

Page 51: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

4.1.3 Qt Creator – основная среда разработки C++

В качестве основной среды разработки для языка С++ использовалась

IDE Qt Creator. Qt Creator – кроссплатформенная свободная IDE, что так же яв-

ляется одним из основных требований к среде разработке. Он включает в себя

графический интерфейс отладчика и визуальные средства разработки интерфей-

са как с использованием QtWidgets, так и QML. Среди поддерживаемых компи-

ляторов можно отметить GCC, Clang, MinGW, MSVC, Linux ICC, GCCE, RVCT,

WINSCW.

Отличительной чертой данной среды является разнообразие режимов от-

ладки:

простой для отладки локально запущенных приложений, таких как GUI

приложения на Qt;

терминал для отладки локально запущенных процессов, которым требует-

ся консоль, обычно это приложения без GUI;

подключенный для отладки локальных процессов, запущенных вне Qt

Creator;

удаленный для отладки запущенных на другой машине процессов (ис-

пользуя gdbserver);

ядро для отладки завершившихся аварийно процессов на UNIX;

Так же отметим, что Qt Creator обладает всеми современными особенно-

стями ведения и поддержки сложных проектов.

4.1.4 Vim – основной текстовый редактор

В качестве основного текстового редактора исходных кодов для задач об-

щего назначения использовался Vim.

51

Page 52: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Vim – свободный режимный текстовый редактор. На сегодняшний день он

является одним из мощнейших текстовых редакторов с полной свободой на-

стройки и автоматизации, и созданным благодаря этому расширениям и над-

стройкам. Пользовательский интерфейс Vim может работать в чистом текстовом

(консольном) режиме, что является его главным преимуществом для работы со

скриптовыми языками и оболочкой bash.

4.2 Основные библиотеки и пакеты системы

Стандартное окружение сред разработки языка С++ и скриптовых языков

содержит минимальное количество возможностей, которых недостаточно для

разработки сложных приложений. Часто многие функциональности, необходи-

мые программисту, уже реализованы в сторонних библиотеках и пакетах. Наи-

более популярные библиотеки и пакеты включаются в стандартные репозито-

рии.

4.2.1 Boost

Boost является свободно распространяемым собранием библиотек, расши-

ряющих функциональность C++. Boost имеет заметную направленность на ис-

следования и расширяемость (метапрограммирование и обобщенное програм-

мирование с активным использованием шаблонов). Так же большинство про-

граммистов считают его стандартом и необходимым дополнением к STL.

4.2.2 Лемматизатор AOT

Компонент лемматизации METALemmatizer использует внутри себя

модуль лемматизации системы обработки текстов AOT. К основным

преимуществам системы AOT относятся:

1) наличие коллекции словарей достаточно большого объема, пополняет-

52

Page 53: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

ся добровольцами, поэтому не должна в будущем устаревать;

2) при поиске в словаре использует конечный автомат, что позволяет на-

ходить слово за линейное от его длины время;

3) написана на С++, компилируется под UNIX и под Windows;

4) обладает развитой системой добавления новых слов;

5) имеет в распоряжении русский, немецкий и английский лексиконы;

6) распространяется бесплатно под лицензией LGPL в исходных кодах.

Все указанные выше свойства по отдельности можно встретить в суще-

ствующих модулях морфологического анализа, однако именно данное сочета-

ние свойств составляет новизну и актуальность системы.

4.2.3 Библиотека libgumbo

В качестве библиотеки для лексического анализатора html-документов

HTMLProcessor выступает libgumbo. Эта библиотека создана как строительный

блок для создания других инструментов и библиотек, таких как валидаторы,

языки шаблонов, инструменты рефакторинга и анализа кода. К ее ключевым

преимуществам относятся:

1) полная совместимость со спецификациями HTML5;

2) устойчивость к некачественным входным данным;

3) простые API, которые могут быть легко обработаны программами на

других ЯП;

4) поддержка исходных позиций и указателей в оригинальном коде, при

навигации по дереву зависимостей;

5) проходит все тесты из стандартного пакета html5lib-0.95.

53

Page 54: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

4.2.4 MALLET

Для построения вероятностных тематических моделей использовался па-

кет MALLET. Исходный код MALLET написан на языке программирования Java,

основной функционал пакета связан со статистической обработкой естественно-

го языка, кластеризацией, извлечением информации и другими приложениями

машинного обучения на текстовых документах.

MALLET включает сложные инструменты для классификации докумен-

тов: эффективные подпрограммы для выделения ключевых особенностей тек-

ста; алгоритмы широкого спектра, в том числе алгоритм максимальной энтро-

пии и алгоритмы на деревьях принятия решений; методы для оценки произво-

дительности классификатора с помощью часто используемых показателей.

4.2.5 Пакеты Python

Для обработки математических данных в среде Python, за основу были

выбраны библиотеки NumPy и SciPy.

NumPy – это расширение языка Python, добавляющее поддержку больших

многомерных массивов и матриц, вместе с большой библиотекой высокоуровне-

вых математических функций для операций с этими массивами.

SciPy – это открытая библиотека высококачественных научных инстру-

ментов для языка программирования Python. SciPy содержит модули для опти-

мизации, интегрирования, специальных функций, обработки сигналов, обра-

ботки изображений, генетических алгоритмов, решения обыкновенных диффе-

ренциальных уравнений и других задач, обычно решаемых при инженерной

разработке.

Построение моделей классификаторов проводилось с использованием па-

кета scikit-learn. Этот пакет объединяет в себе большое количество алгоритмов

54

Page 55: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

машинного обучения, связанных с решением задач классификации, регрессии и

кластеризации. В качестве математических модулей для выполнения рассчетов

scikit-learn использует упомянутые выше библиотеки numpy и scipy. Важно от-

метить, что в данном пакете реализовано достаточно большое количество алго-

ритмов в той форме, которой они были сформулированы авторами.

4.3 Комплексное тестирование всей системы

Тестирование произведенное в рамках дипломного проекта по исследова-

нию качества работы всей системы, в отличие от аналогичных проектов, произ-

водились на данных, наиболее близких к реальным, что является несомненным

преимуществом при оценке системы с точки зрения пригодности к работе в

промышленных условиях.

4.3.1 Коллекция документов

В качестве данных для построения тематической модели и класссифика-

тора были выбраны шесть тысяч гипертекстовых документов из тематического

каталога веб-сайтов «Яндекс.Каталог». Данные документы относятся к обоб-

щенной категории «культура-развлечения», а между собой делятся практически

в равных пропорциях на подкатегории: «литература», «танец», «кино», «музей»,

«музыка», «фотография», «театр». Как видно, в данной коллекции документов

существуют тематики, которые достаточно близки к друг другу по своему смыс-

лу («кино» и «театр»), что усложняет задачу построения классификатора.

Для упрощения тестирования, вся коллекция документов была за-

благовременно разбита на два не пересекающихся множества:

• обучающее множество, состоящее из 4800 документов;

• тестовое множество, состоящее из 1200 документов.

Как правило, коллекции документов, используемых для тестирования раз-

55

Page 56: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

личных классификаторов формально описываются двумя параметрами: длин-

ной коллекции в терминах(словах) и количеством уникальных терминов. Для

выбранной коллекции число уникальных терминов равно 62071, а длина кол-

лекции составляет 60515907 слов без учета html-разметки.

4.3.2 Построение вероятностной тематической модели

На основе документов обучающего множества, было построено несколько

вероятностных тематических моделей, каждая из которых строилась при раз-

личных параметрах процедур конвертации обучающего множества:

1) обучающее множество было проиндексировано только с учетом слов,

содержащихся в словаре лемматизатора;

2) обучающее множество было проиндексировано с использованием всех

слов, содержащихся в коллекции;

3) конфигурация, аналогичная пункту 1, за исключением того, что ис-

пользовалась полная коллекция документов;

4) конфигурация, аналогичная пункту 2, с учетом использования всей

коллекции документов.

На рисунке 4.1 изображены значения функций правдоподобия (формула

2.8) коллекции документов для моделей 1-4.

По графику на рисунке 4.1 видно, что тематические модели, построенные

с использованием общеизвестных слов, содержащихся в словарях лемматизато-

ра, наилучшим образом характеризуют документы. Данный результат согласует-

ся с интуитивными предположениями о том, что различные редкие авторские

слова вносят искажения в процесс раскрытия моделью внутреннего содержания

коллекции. Эти искажения проявляются в виде малых значений вероятностей в

матрице слов-тематик Φ, которые приводят к уменьшению значения функции

56

Page 57: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

правдоподобия.

Рисунок 4.1 - Графики процесса построения тематических моделей

По результатам построения четырех тематических моделей было принято

решение выбрать модель под пунктом 1 и использовать ее матрицу слов-тема-

тик для генерации сокращенного множества терминов Τ ' .

В таблице 4.1 для каждой из категорий, представлены по пять наиболее

вероятных слов. Можно заметить, что в среднем самое вероятное слово являет-

ся названием тематики. Модель отдает предпочтения существительным и при-

лагательным, как основным используемым частям речи.

Таблица 4.1 - Частичный рейтинг наиболее вероятных слов для каждой из тема-

тик

Тематика1

«литература»

Тематика2

«танец»

Тематика3

«кино»

Тематика4

«музей»

Тематика5

«музыка»

Тематика6

«фотография»

Тематика7

«театр»

КНИГА ТАНЕЦ ФИЛЬМ МУЗЕЙ MUSICФОТО-

ГРАФИЯСПЕК-ТАКЛЬ

СТАТЬЯ ШКОЛА КИНОВЫСТАВ-

КААЛЬБОМ ФОТО

ФЕСТИ-ВАЛЬ

57

0 100 200 300 400 500 600 700-12

-10

-8

-6

-4

-2

0

Модель 1

Модель 2

Модель 3

Модель 4

Номер итерации

Знач

ение

лог

ариф

мич

еско

й ф

ункц

ии п

равд

опод

обия

Page 58: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

СТРАНИ-ЦА

ЗАНЯ-ТИЕ

СЕРИАЛИСТО-

РИЯ

МУЗЫ-КАЛЬ-НЫЙ

АВТОР ТЕАТР

ТОМ СТУДИЯРЕЖИС-

СЕРИСКУС-

СТВОИНСТРУ-

МЕНТРАБОТА СЦЕНА

БИБЛИО-ТЕКА

ТАНГО ЛЮБОВЬ ГОРОД ИГРАТЬ САЙТПРО-

ГРАММА

4.3.3 Индексация обучающего и тестового множеств документов

При помощи инструмента CORPVectorizer и данных модели 1, было по-

строено несколько обучающих множеств в формате SVMLight: проиндексиро-

ванных соответственно с помощью 50, 100, 500, 1000 и 1500 наиболее вероят-

ных терминов для всех тематик. Для совместимости форматов, точно таким же

образом было проиндексировано тестовое множество документов.

Для сравнительной оценки системы, параллельно с основными работами

по созданию обучающего множества для построения классификаторов, были

построены обучающие множества при помощи методов уменьшения размерно-

сти пространства терминов, рассмотренных в пунктах 2.2.1 и 2.2.2. В качестве

данных методов выступали: критерий согласия Пирсона и метод латентно-се-

мантической индексации. В качестве реализаций данных методов выступали го-

товые процедуры из пакета scikit-learn.

4.3.4 Построение и оценка классификаторов

Финальным этапом процедуры тестирования является построение класси-

фикаторов и сравнительная оценки качества их работы по метрикам, рассмот-

ренным в пункте 1.3.4. Для проведения процедуры сравнения, были использова-

ны следующие методы построения моделей классификации:

58

Page 59: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

1) наивный байесовский классификатор;

2) метод опорных векторов;

3) метод опорных векторов с использованием радиальной базисной функ-

цией в качестве ядра;

4) метод случайного леса.

В качестве программных реализаций методов 1-3 так же использовалась

библиотека scikit-learn.

Для упрощения дальнейшего изложения, введем условные обозначения,

которые будем использовать на протяжении всего сравнения моделей классифи-

каторов. Пометим используемые обучающие и соответствующие им тестовые

множества следующим образом: chi2 — группа множеств, проиндексированных

с помощью терминов, выделенных по критерию согласию Пирсона; lsa — груп-

па множеств, проиндексированных с помощью терминов, выделенных при по-

мощи метода латентно-семантической индексации; lda — множества, проиндек-

сированные при помощи терминов из тематической модели. Для обозначений

моделей классификаторов будем использовать следующие обозначения: NB —

наивный байесовский классификатор, RF — метод случайного леса(с индекса-

ми 100,1000 — количество деревьев в комитете), SVM_LIN — метод опорных

векторов, SVM_RBF — метод опорных векторов с использованием радиальной

базисной функции в качестве ядра.

На рисунках 4.2 и 4.3 соответственно, приведены графики микро- и ма-

кро- усредненных значений F1-меры для классификаторов построенных на

основе множеств группы lda.

59

Page 60: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Рисунок 4.2 - Микроусредненное значение F1-меры (lda)

Рисунок 4.3 - Макроусредненное значение F1-меры (lda)

По приведенным выше графикам можно сделать вывод, что модель слу-

чайного леса, превосходит классические методы текстовой классификации по

обеим метрикам, что говорит о правильности выбора данной модели в качестве

основной. Для получения исчерпывающей информации о качестве разработан-

ной системы, необходимо сравнить качество модели случайного леса, обучен-

ной на различных группах множеств(chi2, lsa, lda). Результаты по данному ис-

следованию приведены на рисунках 4.4, 4.5.

60

0 200 400 600 800 1000 1200 1400 16000.7

0.75

0.8

0.85

0.9

0.95

RF_1000

RF_100

SVM_LIN

NB

SVM_RBF

Количество признаков

Знач

ение

F1-

mic

ro

0 200 400 600 800 1000 1200 1400 16000.7

0.75

0.8

0.85

0.9

0.95

RF_1000

RF_100

NB

SVM_LIN

SVM_RBF

Количество признаков

Знач

ение

F1-

mac

ro

Page 61: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Рисунок 4.4 - Микроусредненное значение F1-меры для модели RF (lda, lsa,

chi2)

Рисунок 4.5 - Макроусредненное значение F1-меры для модели RF (lda, lsa,

chi2)

По результатам сравнения качества работы модели случайного леса на

коллекциях lda, lsa, chi2, наилучшее качество достигается, на коллекции lda. Та-

ким образом, выбранная связка методов суммарно превосходит классические

методы формирования признакового пространства и построения классификато-

61

0 200 400 600 800 1000 1200 1400 16000.76

0.78

0.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94

RF_100(lda)RF_1000(lda)RF_100(lsa)RF_1000(lsa)RF_100(chi2)RF_1000(chi2)

Количество признаков

Знач

ение

F1-

mic

ro

0 200 400 600 800 1000 1200 1400 16000.76

0.78

0.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94

RF_100(lda)RF_1000(lda)RF_100(lsa)RF_1000(lsa)RF_100(chi2)RF_1000(chi2)

Количество признаков

Знач

ение

F1-

mac

ro

Page 62: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

ров. Важным наблюдением из представленных графиков является то, что наи-

лучшее качество классификации на группе множеств, построенных при помощи

тематических моделей, достигается на пяти ста самых вероятных слов. Данное

наблюдение согласуется с тем принципом, что тематические модели являются

разреженными. Поэтому увеличение количества терминов для индексации при-

водит к появлению шума в данных, что в конечном итоге сказывается на каче-

стве классификатора.

62

Page 63: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

5 ТЕХНИКО-ЭКОНОМИЧЕСКОЕ ОБОСНОВАНИЕ

НИОКР

Современная инженерная деятельность предполагает не только разра-

ботку современных конструкций и технологий, но также и концентрацию уси-

лий специалиста, позволяющую заранее определить возможный рынок реализа-

ции разработки, оценить ожидаемую прибыль. Поэтому важной составляющей

любого инженерного проекта является раздел, посвященной анализу экономи-

ческих характеристик и определению экономических параметров, позволяющих

сделать вывод о возможности реализации инженерной мысли.

Экономическая часть дипломного проекта реализуется в форме бизнес-

проекта, который разрабатывается студентом. При этом, следует обоснование

таких характеристик проекта как длительность разработки рабочего проекта,

количество и квалификация задействованных трудовых ресурсов (исполнителей

проекта), рассчитывается ориентировочная цена изделия, определяется рынок

реализации продукции и уровень потребности рынка в разрабатываемом изде-

лии, показывается величина требуемых кредитов и ожидаемой прибыли как во

временном, так и в стоимостном исчислении.

Разработка экономической части дипломного проекта должна ориентиро-

ваться на то положение, что она (экономическая часть) посвящена разработке

комплекса мероприятий организационно-экономического и финансового пла-

нов, который необходимо выполнить для перенастройки производства, позволя-

ющей перейти к выпуску продукции, разработанной в инженерной части ди-

пломного проекта. В этой связи, следует учесть, что слово «проект» понимается

более широко, характеризуя работы и процессы, связанные с организацией эко-

номических и хозяйственных мероприятий, позволяющих создавать спроекти-

рованное изделие с наибольшей прибылью, а не с выполнением конкретного

дипломного задания.

63

Page 64: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Технико-экономическое обоснование эффективности НИОКР предполага-

ет:

1) Расчет трудоемкости выполнения НИОКР

2) Расчет среднегодовой стоимости основных фондов, исользуемых для

выполнения НИОКР (расчет налога на имущество).

3) Расчет себестоимости НИОКР и формирующихся на этой основе нало-

гов.

4) Формирование расчетной (остаточной) прибыли предприятия и опре-

деление эффективности производственных затрат НИОКР.

5) Оценка технического уровня НИОКР.

5.1 Расчет трудоемкости выполнения НИОКР

Для планирования продолжительности выполнения НИОКР пользуются

расчетными и опытно-статистическими нормативами. Однако по значительной

части работ такие нормативы отсутствуют. Поэтому для определения продолжи-

тельности работ используются две оценки времени, выдаваемые ответственным

исполнителем: минимальная и максимальная продолжительность работы. При

этом оценки рассматриваются не как обязательство ответственного исполните-

ля, а как предложение, основанное на опыте, интуиции и на учете факторов,

влияющих на продолжительность работы.

Рассмотрим перечень работ по всем этапам НИОКР:

1) техническое задание (ТЗ) — постановка задач проекта, определение

основных положений и методик;

2) техническое предложение (Тпр) — выбор программных средств, тех-

нико- экономическое обоснование разработки;

64

Page 65: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

3) эскизное проектирование (ЭП) — комплексное исследование предмет-

ной области (проблематики, существующих решений, используемых

технологий);

4) техническое проектирование (ТП) — разработка структуры работы

программы;

5) рабочий проект (РП) — разработка дополнительных программных

средств, алгоритмов и технологий;

6) экспериментальные исследования — исследование и оценка качества

работы разработанного ПО;

7) оформление технической документации (ТД) — разработка комплекта

программной документации.

Рассчитываем ожидаемое время выполнения каждой работы t ож:

t ож=3 tmin+2 t max

5, (5.1)

где tmin - минимальна продолжительность работы, или время, необходимое

для выполнения работы при наиболее благоприятном стечении обстоя-

тельств (часы, дни, недели и т. д.);

tmax - максимальная продолжительность работы, или время, необходимое

для выполнения работы при наиболее неблагоприятном стечении обстоя-

тельств (часы, дни, недели и т. д.).

Для определения возможных отклонений ожидаемого времени рассчиты-

ваем дисперсию:

σ τ=0,04(tmax−tmin)2 . (5.2)

Для определения количества исполнителей и построения план-графика

выполнения НИОКР необходимо рассчитать продолжительность каждого этапа

65

Page 66: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

работы (ТЗ, ТПр, ЭП, ТП, РП, ИОО, ИО, ТД). Требуемое количество исполни-

телей R эт по этапам определяется по формуле:

Rэт=τ эт⋅K д

F u⋅K в

, (5.3)

где τэт - трудоемкость этапа в часах;

K д - коэффициент дополнительных затрат (1,1<Kд<1,15);

F u - фонд рабочего времени исполнителя (176 часов в месяц);

K в - коэффициент выполнения норм (K в=1,15).

В рамках данного проекта число исполнителей является величиной посто-

янной, заданной на момент начала работ — это один студент-дипломник.

В таблице 5.1 приведены трудоемкости выполнения работ по этапам в со-

ответствие с экспертной оценкой:

Таблица 5.1 - Трудоемкость выполнения работ по этапам

Этапы Стадииtmin, дни

tmax, дни

tож, дни

Кол

-во

испо

лни-

теле

й σ τ2

1Техническое

задание4 7 5.2 1 0.36

2Техническоепредложение

12 18 14.4 1 1.44

3Эскизное

проектирование32 42 36 1 4

4Техническое

проектирование15 20 17 1 1

5 Рабочий проект 40 50 44 1 4

6Экспери-

мен-тальные ис-сле-дования

6 9 7.2 1 0.36

66

Page 67: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

7Техническая до-

кументация9 17 12.2 1 2.56

Итого : 136

Таким образом, получаем общее ожидаемое время выполнения НИОКР

при последовательном выполнении стадий 136 чел.-дней.

Для иллюстрации последовательности проводимых работ применяют лен-

точный график (календарно-сетевой график, диаграмма Ганта). На диаграмме

Ганта на оси абсцисс показывают календарные дни (по рабочим неделям) от на-

чала проекта до его завершения. По оси ординат — выполняемые этапы работ.

Диаграмма Ганта для рассматриваемого проекта приведена на листе приложе-

ния А дипломного проекта.

5.2 Расчет стоимости основных производственных фондов, используе-

мых для выполнения НИОКР

К основным производственным фондам относятся те средства труда, ко-

торые непосредственно участвуют в производственном процессе (машины, обо-

рудование и т.п.), создают условия для его нормального осуществления (произ-

водственные здания, сооружения, электросети и др.) и служат для хранения и

перемещения предметов труда. Так же к основным производственным фондам

относятся средства труда со сроком службы более одного года и стоимостью

выше 100 минимальных размеров оплаты труда. Применяются три вида оценки

основных производственных фондов: первоначальная, восстановительная и

остаточная стоимость.

Первоначальная (балансовая) стоимость основных производственных

фондов (цена) складывается из всех затрат, связанных с их приобретением, соо-

ружением, строительством, монтажом и пуском.

67

Page 68: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Восстановительная стоимость основных производственных фондов – это

стоимость их воспроизводства в современных условиях с учетом действующих

на данный момент уровня цен, тарифов, расценок и т. п.

Остаточная стоимость представляет собой разницу между первоначаль-

ной или восстановительной стоимостью и суммой износа, т. е. это та часть сто-

имости основных производственных фондов, которая еще не перенесена на

производимую продукцию.

Для вычисления налога на имущество необходимо определить среднего-

довую стоимость основных производственных фондов (K ост.ср.), которая опреде-

ляется по формуле:

K ост.ср.=K ост.н.+K ост.1+K ост.2+K ост.3+K ост.4

5, (5.4)

где K ост.н. - остаточная (восстановительная) стоимость основных произ-

водственных фондов на начало года;

K ост.1 , K ост.2 , K ост.3 , K ост.4 - остаточная стоимость основных произ-

водственных фондов на конец 1, 2, 3, 4 кварталов.

В нашем случае рассчет среднегодовой стоимости основных фондов

производить не требуется, т.к. их стоимость в течение года не изменялась. Со-

став основных производственных фондов отражен в таблице 5.2:

Таблица 5.2 - Состав основных производственных фондов

№ Перечень спецоборудования КоличествоЦена,руб.

Сумма,руб.

1 Ноутбук Dell Vostro 5470 1 20496 20496

2 Принтер HP MFP 1132 1 4810 4810

Итого : 25306

68

Page 69: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Из таблицы 5.2 видно, что среднегодовая остаточная стоимость основных

фондов составляет двадцать пять тысяч триста шесть рублей ноль копеек.

K ост.ср.=5⋅25306

5=25306 руб .

5.3 Расчет затрат на выполнение НИОКР

По калькуляционным статьям расходы организуются в следующие груп-

пы:

1) Материалы, покупные изделия и полуфабрикаты (РМ).

2) Специальное оборудование для НИОКР (СО).

3) Фонд заработной платы (РЗ).

4) Амортизационные отчисления (РА).

5) Контрагентные работы (РКР).

6) Производственные командировки (РПК).

7) Косвенные расходы (РК).

8) Единый социальный налог(ЕСН).

9) Полная себестоимость работы (С).

5.3.1 Материалы, покупные изделия и полуфабрикаты (РМ)

Материалы, покупные изделия и полуфабрикаты, используемые для вы-

полнения НИОКР, оцениваются по действующим оптовым или договорным це-

нам. Расчет затрат на материалы приведен в таблице 5.3.

Общая сумма затрат на РМ с учетом транспортно-заготовительных расхо-

дов (3-5% стоимости материалов и покупных комплектующих изделий) равна

900 руб.

69

Page 70: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Таблица 5.3 - Материалы, покупные изделия и полуфабрикаты

№ Наименование материаловЕдиницы

измеренияКоличе-

ство

Цена заединицу,

руб.

Сумма,руб.

1 Картридж для принтера ч/б Штуки 1 500 500

2 Бумага для оргтехникиПачка

500 листов1 350 350

Итого : 850

5.3.2 Специальное оборудование (СО)

К этой статье расходов относятся затраты, связанные с приобретением

специального оборудования (специальных стендов, приборов, установок), кото-

рое необходимо для проведения научных (экспериментальных) работ только по

данной теме.

Поскольку в рамках проекта эксперименты проводятся на ЭВМ - специ-

ального оборудования не требуется, расходы по данной группе равны нулю.

5.3.3 Фонд заработной платы (РЗ)

Вначале определяется заработная плата работников в соответствии с си-

стемой расчета, применяемой в ГУП «Центр информационных технологий».

Для расчета фонда оплаты труда примем, что работа ведется дипломником спе-

циалистом 8 разряда. К основной зарплате при выполнении НИОКР относятся

зарплата научных, инженерно-технических работников и рабочих участвующих

в данном исследовании. Их зарплата определяется по формуле:

И зп=Cт⋅kт⋅T раб

Фм

, (5.5)

где Cт - тарифная ставка работника первого разряда, руб. (Cт=2300 руб.);

70

Page 71: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

k т - тарифный коэффициент работника соответствующего разряда (из

таблицы 4.4);

T раб - расчетное время на выполнение НИОКР, чел.-дни;

Ф м - месячный фонд времени, рабочие дни (Фм=21,8 дня).

Дополнительная заработная плата работников составляет 10-20 % от

основной. Дополнительная и основная заработная плата вместе образуют фонд

оплаты труда предприятия.

Таблица 5.4 - Сетка по оплате труда работников ГУП «Центр Информационных

технологий»

Разряд оплатытруда

Тарифныйкоэффициент

Разряд оплатытруда

Тарифныйкоэффициент

1 1,000 10 2,635

2 1,05 11 2,957

3 1,165 12 3,365

4 1,26 13 3,8

5 1,425 14 4,295

6 1,61 15 4,86

7 1,82 16 5,24

8 2,06 17 5,985

9 2,33 18 6,645

Тогда исходя из таблицы 5.4 зарплата специалиста равна:

И зп=2300⋅2,06⋅136

21,8=29558 руб.

РЗ=1,10⋅29558=32514 руб.

5.3.4 Амортизационные отчисления (РА)

Амортизационные отчисления производятся предприятиями ежемесячно

71

Page 72: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

исходя из установленных норм амортизации и балансовой (первоначальной или

восстановительной) стоимости основных фондов по отдельным группам или

инвентарным объектам, состоящим на балансе предприятия. Нормы амортиза-

ции устанавливаются государством и они едины для всех предприятий и орга-

низаций.

Годовые нормы амортизационных отчислений по отдельным видам спе-

циального оборудования (% от первоначальной или восстановительной стоимо-

сти ОПФ) приведены в таблице 5.5.

Таблица 5.5 - Годовые нормы амортизационных отчислений

Наименование оборудования Норма амортизационных отчислений

Физико-термическое оборудование дляпроизводства изделиймикроэлектроники и

полупроводниковых приборов

28.2

Контрольно-измерительное ииспытательно- тренировочное

оборудование для производстваэлектронной техники

27.5

Оборудование для измеренияэлектрофизических параметровполупроводниковых приборов

27.3

Оборудование для механическойобработки полупроводниковых

материалов23.9

Вакуумное технологическоеоборудование для нанесения тонких

пленок 24.3

Оборудование для производствафотошаблонов

23.4

Сборочное оборудование дляпроизводства полупроводниковых и

электровакуумных приборов 23.8

72

Page 73: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Электронные генераторы,стабилизированные источники

питания, тиристорные выпрямители,регуляторы напряжения

15.5

Прочее спецтехнологическоеоборудование для производстваизделий электронной техники

13.1

Контрольно-измерительная ииспытательная аппаратура связи,

сигнализации и блокировки:Переносная Стационарная

14,28,5

Лабораторное оборудование иприборы 20

Электронные цифровыевычислительные машины общего

назначения, специализированные иуправляющие

12

Амортизационные отчисления на полное восстановление активной части

основных фондов (машин, оборудования и транспортных средств) производятся

в течение нормативного срока их службы или срока, за который балансовая сто-

имость этих фондов полностью переносится на себестоимость.

По всем другим основным фондам амортизационные отчисления на пол-

ное восстановление производится в течение всего фактического срока их служ-

бы. Предприятиям допускается применение ускоренной амортизации их актив-

ной части в более короткие сроки, нормы амортизации при этом повышаются,

но не более чем в два раза. Применение повышенных или пониженных норм

амортизации должно быть предусмотрено в учетной политике предприятия,

определяемой его руководителем. Амортизационные отчисления определяются

73

Page 74: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

по формуле:

РА=K п.с.⋅H a⋅tоб

Фд

, (5.6)

где K п.с. - остаточная стоимость основных фондов на начало соответствующе-

го года, руб.;

H a - норма годовых амортизационных отчислений в процентах (электрон-

ные цифровые вычислительные машины общего назначения, специализирован-

ные и управляющие 12 %);

tоб - машинное время, необходимое для выполнения НИОКР, час.;

Фд - действительный фонд времени работы оборудования за год, час.

РА=25306⋅0,12⋅(136⋅8)

21,8⋅8⋅12=1579 руб.

5.3.5 Косвенные расходы (РК)

К ним относятся расходы по управлению и обслуживанию подразделений.

Данные расходы определяются в процентах от основной заработной платы ис-

полнителей работы, обычно для научных организации эти расходы составляют

60-150 %.

РК=И зп⋅0,6=29558⋅0,6=17735 руб.

5.3.6 Производственные командировки (РПК)

Производственные командировки: оплата суточных составляет 100 руб.,

оплата найма жилого помещения не более 550 рублей в сутки. В данной работе

производственные командировки не предусмотрены.

РПК=0 руб.

74

Page 75: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

5.3.7 Контрагентные работы (РКР)

К контрагентным работам относятся расходы, связанные с выполнением

работ по данной теме сторонними организациями. В данной работе не выполня-

лись контрагентные работы.

РКР=0 руб.

5.3.8 Единый социальный налог (ЕСН)

Ставка единого социального налога фиксирована и равна 26% от фонда

заработной платы.

ЕСН=0,26⋅32514=8453 руб.

5.3.9 Полная себестоимость работы (С)

Полная себестоимость НИОКР определяется по следующей формуле:

С=РМ+СО+РЗ+РА+РКР+РПК+РК+ЕСН ; (5.7)

С=900+0+32514+1579+0+0+17735+8453=61181руб.

Все затраты на НИОКР систематизированы в таблице 5.6.

Таблица 5.6 - Затраты на НИОКР

№ Статья затрат на НИОКР Затраты, руб. Затраты, %

1 Фонд заработной платы 32514 53.14

2 Единый социальный налог 8453 13.82

3 Амортизационные отчисления 1579 2.58

4 Контрагентные работы 0 0

5 Производственные командировки 0 0

6 Материалы, покупные изделия иполуфабрикаты

900 1.47

7 Косвенные расходы 17735 28.99

8 Специальное оборудование 0 0

75

Page 76: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Итого : 61181 100На листе приложения А приведена диаграмма структуры затрат, соответ-

ствующая данным таблицы 5.6.

5.4 Формирование чистой прибыли предприятия и определение

эффективности производственных затрат

Для оценки и анализа эффективности произведенных затрат используют-

ся следующие показатели:

1) договорно-контрактная цена работы;

2) балансовая (валовая) прибыль;

3) чистая прибыль;

4) коэффициент эффективности затрат на НИОКР.

Договорно-контрактная цена работы устанавливается по соглашению сто-

рон (предприятия-исполнителя и предприятия-потребителя). Примем данную

цену равной 100000 руб.

Выручку предприятия сферы науки в основном формируют доходы от ре-

ализации выполненных НИОКР. Балансовая прибыль предприятия равна:

100000−61181=38819 руб.

Налоговые отчисления по налогу на прибыль составляют:

38819⋅0,24=9317 руб.

Налоговые отчисления по налогу на имущество составляют:

25306⋅0,02=506 руб.

Чистая прибыль составляет разницу балансовой прибыли и суммарных

налогов:

38819−9317−506=28996 руб.

76

Page 77: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Коэффициент эффективности затрат на НИОКР определяется по формуле:

К эф=П ч.п.

С⋅100 % , (4.8)

где С - полная себестоимость работы, руб. ;

П ч.п. - чистая прибыль от реализации научной продукции, руб.

К эф=2899661181

⋅100%=47,4 %.

5.5 Оценка технического уровня НИОКР

Технический уровень НИОКР будет определяться показателями изделия,

которые появятся в результате внедрения данной работы. Вначале показатели

изделия располагают в порядке их значимости. Первое место занимает показа-

тель, обеспечивающий удовлетворение качественно новой потребности обще-

ства. На второе место надо поставить тот показатель, который имеет наи-

большее значение для достижения экономии затрат.

Наряду с параметрами, на основе которых производится вывод о техниче-

ском уровне изделия, необходимо учитывать и экономические характеристики

(цена изделия, расходы по эксплуатации и т.п.). Эти показатели обобщают очень

многие технические параметры изделия.

5.6 Выводы

В рамках организационно-экономической части был спланирован ка-

лендарный график проведения работ по созданию специализированного про-

граммного продукта и построен график Ганта, а также были проведены расчеты

по трудозатратам. Были исследованы и рассчитаны следующие статьи затрат:

материальные затраты; основная заработная плата исполнителей; отчисления на

социальное страхование; амортизационные отчисления; прочие расходы.

77

Page 78: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

В результате расчетов были получены следующие характеристики выпол-

няемого проекта:

1) Общие трудозатраты на выполнение проекта составляют 136 дней.

2) В реализации проекта задействован один исполнитель – дипломник.

3) Себестоимость разработки составила 61181 рубля.

4) Чистая прибыль реализации составила 28996 рублей.

5) Коэффициент эффективности равен 47,4 %.

78

Page 79: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

6 ПРОМЫШЛЕННАЯ ЭКОЛОГИЯ И БЕЗОПАСНОСТЬ

В данном разделе дипломного проекта осуществляется анализ основных

вредных и опасных факторов при работе с ПК, предлагаются средства защиты и

безопасная конфигурация рабочего места. Осуществляется подбор допустимых

значений рассматриваемых факторов в соответствии с действующим нормами

(СанПин 2.2.2/2.4.1340-03 - Гигиенические требования к персональным элек-

тронно- вычислительным машинам и организации работы, ГОСТ 12.1.004 – 91

– пожарная безопасность, ГОСТ 25861-83 и ГОСТ Р МЭК 60950-2002 - электро-

безопасность).

Раздел промышленная экология и безопасность состоит из трех частей. В

первой произведен анализ соответствия основных вредных и опасных факторов

действующим нормам. Во второй части произведен расчет освещения в поме-

щении, используемом для разработки объекта данного дипломного проекта. А в

третьей части описана технология утилизации жидко-кристаллических диспле-

ев.

6.1 Основные факторы воздействия среды на оператора ПК

6.1.1 Параметры микроклимата

В соответствие с пунктом IV СанПиН 2.2.2./2.4.1340-03 в производствен-

ных помещениях, в которых работа с использованием ПК является основной и

связана с нервно-эмоциональным напряжением, должны обеспечиваться опти-

мальные параметры микроклимата для категории работ 1а и 1б в соответствии с

действующими санитарно- эпидемиологическими нормативами микроклимата

производственных помещений (таблица 6.1).

79

Page 80: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Таблица 6.1 - Нормы микроклимата для помещений с ВДТ и ПК

Период годаКатегория

работ

Температуравоздуха, °С,

не более

Относительнаявлажностьвоздуха, %

Скоростьдвижения

воздуха, м/с,не более

холодный легкая-1а 22-24 40-60 0.1

легкая-1б 21-23 40-60 0.1

теплый легкая-1а 23-25 40-60 0.1

легкая-1б 22-24 40-60 0.2

Содержание вредных химических веществ в производственных помеще-

ниях, где работа с использованием ПК является основной, не должно превы-

шать предельно допустимых концентраций загрязняющих веществ в атмосфер-

ном воздухе населенных мест в соответствии с действующими гигиеническими

нормативами (ГН 2.1.6.1338-03).

Таблица 6.2 - Уровни ионизации воздуха помещений при работе на ВДТ и ПК

УровниЧисло ионов в 1 см. куб. воздуха

n+ n-

Минимальнонеобходимые

400 600

Оптимальные 1500-3000 3000-5000

Максимальнодопустимые

50000 5000

6.1.2 Требования к уровням шума и вибрации

В соответствии с пунктом V СанПиН 2.2.2./2.4.1340-03 в производствен-

ных помещениях при выполнении основных или вспомогательных работ с ис-

пользованием ПК уровни шума на рабочих местах не должны превышать пре-

80

Page 81: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

дельно допустимых значений, установленных для данных видов работ (таблица

6.3).

Таблица 6.3 - Допустимые значения уровней звукового давления в октавных по-

лосах частот и уровня звука, создаваемого ПК

Уровни звукового давления в октавных полосах сосреднегеометрическими частотами Уровни

в дБа31,5Гц

63 Гц 125 Гц 250 Гц 500 Гц1000Гц

2000Гц

4000Гц

8000Гц

86 дБ 71 дБ 61 дБ 54 дБ 49 дБ 45 дБ 42 дБ 40 дБ 38 дБ 50

В рабочем пространстве, где осуществляется речевой обмен информацие-

й, уровень шума должен быть менее 50 дБА. Причем, шум тем неприятнее, чем

уже полоса частот и выше уровень звукового давления. Самое вредное возде-

йствие оказывает шум, имеющий в своем составе высокие тона. Основным ис-

точником шума при работе с ПК является охлаждающий вентилятор, использу-

ющийся для тепловой разгрузки центрального процессора ПК. Компьютер, на

котором проводилось разработка программного продукта, оснащен современ-

ными охлаждающими системами, порождающими шум, не выходящий за преде-

лы 31,6 – 38,2 дБА, что является допустимым уровнем шума. При выполнении

работ с использованием ПК в производственных помещениях уровень вибрации

не должен превышать допустимых значений вибрации для рабочих мест (кате-

гория 3, тип "в") в соответствии с действующими санитарно-эпидемиологиче-

скими нормативами.

6.1.3 Требования к освещению

Правильно спроектированное и рационально выполненное освещение ра-

бочего помещения оказывает положительное психофизическое воздействие на

человека, способствует повышению эффективности и безопасности труда.

81

Page 82: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Утомляемость органов зрения зависит от ряда причин. Недостаточность

освещения приводит к напряжению зрения, ослабляет внимание. Чрезмерно яр-

кое освещение вызывает ослепление, раздражение и резь в глазах. Неправиль-

ное направление света на рабочем месте может создавать резкие тени, блики,

дезориентировать работающего. Все эти причины могут привести к несчастно-

му случаю или профзаболеваниям, поэтому столь важен правильный расчет

освещенности.

Для качественной оценки условий зрительной работы используют такие

показатели, как фон, контраст объекта с фоном, коэффициент пульсации осве-

щенности, видимость, показатель ослепленности, спектральный состав света.

Естественное освещение должно осуществляться через светопроемы,

ориентированные преимущественно на север и северо-восток. Оконные проемы

в помещениях использования компьютеров должны быть оборудованы регули-

руемыми устройствами типа жалюзи, занавесей, внешних козырьков и др. Си-

стема естественного освещения должна обеспечивать коэффициент естествен-

ной освещенности (КЕО) не ниже 1,5.

Требования к искусственному освещению изложены в разделе VI СанПиН

2.2.2./2.4.1340-03. Освещение в помещениях для эксплуатации ПК должно осу-

ществляться системой общего равномерного освещения.

Освещенность на поверхности стола в зоне размещения рабочего доку-

мента должна быть 300-500 лк. Допускается установка светильников местного

освещения для подсветки документов. Местное освещение не должно создавать

блики на поверхности экрана и увеличивать освещенность экрана более 300 лк.

Следует ограничивать прямую блескость от источников освещения, при

этом яркость светящихся поверхностей (окна, светильники и др.), находящихся

в поле зрения, должна быть не более 200 кд/кв. м. В качестве источников света

82

Page 83: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

при искусственном освещении должны применяться преимущественно люми-

несцентные лампы типа ЛБ. При устройстве отраженного освещения в произ-

водственных и административно- общественных помещениях допускается при-

менение металлогалогенных ламп мощностью до 250 Вт. Допускается примене-

ние ламп накаливания в светильниках местного освещения.

Для освещения помещений следует применять светильники серии ЛПО36

с зеркализованными решетками, укомплектованные высокочастотными пуско-

регулирующими аппаратами (ВЧ ПРА). Коэффициент пульсации не должен пре-

вышать 5%, что должно обеспечиваться применением газоразрядных ламп в

светильниках общего и местного освещения с ВЧ ПРА.

Допускается применять светильники серии ЛПО36 без ВЧ ПРА только в

модификации «Кососвет», а также светильники прямого света – П, преимуще-

ственно прямого света – Н, преимущественно отраженного света – В. При этом

лампы многоламповых светильников или рядом расположенные светильники

общего освещения следует включать на разные фазы трехфазной сети.

Применение светильников без светорассеивателя и экранирующих реше-

ток не допускается. Яркость светильников общего освещения в зоне углов излу-

чения от 50°до 90° с вертикалью в продольной и поперечной плоскостях должна

составлять не более 200 кд/кв. м, защитный угол светильников должен быть не

менее 40°. Светильники местного освещения должны иметь не просвечиваю-

щий отражатель с защитным углом не менее 40°.

Для обеспечения нормируемых значений освещенности в помещениях ис-

пользования ВДТ и ПЭВМ следует проводить чистку стекол оконных рам и све-

тильников не реже двух раз в год и проводить своевременную замену перего-

ревших ламп.

Коэффициент запаса (Кз) для осветительных установок общего освеще-

83

Page 84: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

ния должен приниматься равным 1,5.

Для внутренней отделки интерьера помещений должны использоваться

диффузно- отражающие материалы с коэффициентом отражения :

1) для потолка ρ потолка=0,7−0,8 ;

2) для стен ρ стен=0,5−0,6 ;

3) для пола ρ пола=0,3−0,5 .

6.1.4 Требования к уровню электромагнитного излучения

В составе ПК основными источниками ЭМИ являются монитор и систем-

ный блок. Это оборудование прошло контрольные и типовые испытания и име-

ет соответствующие гигиенические сертификаты электромагнитной безопасно-

сти, поэтому не требует применения дополнительных устройств защиты.Допу-

стимые значения параметров не ионизирующих электромагнитных излучений в

соответствии с разделом VII СанПиН 2.2.2./2.4.1340-03 приведены в таблице

6.4.

Таблица 6.4 - Допустимые значения параметров не ионизирующих ЭМW

Наименование параметров ВДУ ЭМП

Напряженностьэлектрического поля

в диапазоне частот 5 Гц — 2 кГц

25 В/м

в диапазоне2 кГц — 400 кГц

2,5 В/м

Плотность магнитногопотока

в диапазоне частот 5 Гц — 2 к Гц

250 нТл

в диапазоне2 кГц — 400 кГц

25 нТл

Электростатический потенциал экрана монитора 500 В

84

Page 85: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

6.1.5 Требования электробезопасности

Современные производители персональных ЭВМ закладывают в

конструкцию своих продуктов все необходимые компоненты для осуществле-

ния электробезопасности.

Системный блок и монитор подключены к трехфазной четырехпроводной

сети переменного тока напряжением 380/220 В и частотой 50 Гц7. Основное

средство защиты — защитное зануление. Защитное зануление — это преднаме-

ренное электрическое соединение открытых проводящих частей электроустано-

вок, не находящихся в нормальном состоянии под напряжением, с глухозазем-

ленной нейтральной точкой генератора или трансформатора.

6.1.6 Требования к организации рабочего места оператора ПК

Площадь на одно рабочее место с компьютером для взрослых пользова-

телей должна составлять не менее 6,0 м2, а объем – не менее 20,0 м3. Рабочие

места по отношению к световым проемам должны располагаться так, чтобы

естественный свет падал сбоку, преимущественно слева. Схемы размещения ра-

бочих мест с ВДТ и ПЭВМ должны учитывать расстояния между рабочими сто-

лами с видеомониторами (в направлении тыла поверхности одного видеомони-

тора и экрана другого видеомонитора), которое должно быть не менее 2,0 м, а

расстояние между боковыми поверхностями видеомониторов – не менее 1,2 м.

Рабочие места в помещениях с источниками вредных производственных

факторов должны размещаться в изолированных кабинах с организованным

воздухообменом. Рабочие места с ВДТ и ПЭВМ при выполнении творческой ра-

боты, требующей значительного умственного напряжения или высокой концен-

трации внимания, следует изолировать друг от друга перегородками высотой

1,5 — 2,0 м.

Зона досягаемости составляет 350-400 мм. Ближней зоне соответствует

85

Page 86: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

область, охватываемая рукой при прижатом к туловищу локте, дальней зоне –

область вытянутой руки. Поэтому клавиатуру следует располагать на поверхно-

сти стола на расстоянии 100- 300 мм от края, обращенного к пользователю или

на специальной выдвижной панели стола. В таблице 6.5 приведены оптималь-

ные размеры основных элементов рабочего места (рабочий стол и стул). При-

мем параметры стола для оператора ПК, в соответствие с таблицей 6.5:

1) ширина стола — 800 мм.;

2) длина стола — 1200 мм.;

3) высота стола — 725 мм.;

4) глубина стола — 400 мм.

Параметры поверхности стола для письма:

1) ширина — 600 мм.;

2) глубина — 40 мм.

Таблица 6.5 - Параметры оптимального рабочего места пользователя ПК

Элемент рабочегоместа

Параметры Величина, мм.Диапазон

регулирования,мм.

Рабочий стол

Высота рабочей поверхности

725 600-800

Ширина800, 1000, 1200, 1400

нет

Пространство для ног

высота 600 нет

глубина на уровнеколен

450 нет

глубина на уровневытянутых ног

650 нет

86

Page 87: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Рабочий стул(подъемно -поворотный)

Ширина сиденья 400 нет

Глубина сиденья 400 нет

Высота поверхности сиденья

475 400-550

Угол наклона сиденья

вперед 0° 0°-15°

назад 0° 0°-15°

Высота опорной поверхности спинки

300 280-320

Ширина спинки 380 нет

Радиус кривизны спинки в гор. плоскости

400 нет

Угол наклона спинки в вертикальной плоскости

0° от -30° до +30°

Расстояние от переднего краясиденья до спинки

330 260-400

Подлокотники(съемные или

стационарные)

Длина 250 нет

Ширина 50-70 нет

Высота над сиденьем

230 200-260

Расстояние между подлокотниками

425 350-500

Подставка для ног

Ширина 300 нет

Высота 400 нет

Глубина 150 нет

Угол наклона опорной поверхности

0° 0°-20°

87

Page 88: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

6.1.7 Пожаробезопасность

Пожаро- и взрывобезопасность производственных помещений и техноло-

гического оборудования во многом определяется наличием горючих газов, па-

ров легковоспламеняющихся жидкостей, паров горючих жидкостей и горючих

пылей. Пожаробезопасность оборудования определяется нормами и правилами

его проектирования и соблюдением проводимых на нем технологических про-

цессов. Пожарная безопасность объекта обеспечивается системой предотвраще-

ния пожара, системой противопожарной защиты и организационно-технически-

ми мероприятиями. Требования к указанным системам и комплекс организаци-

онно- технических мероприятий определены ГОСТ 12.1.004 – 85. Системы

предотвращения пожара и противопожарной защиты в совокупности должны

исключать воздействие на людей опасных факторов пожара (ОФП). Вероят-

ность воздействия ОФП не должна превышать нормативного значения.

Помещение, в котором велась разработка ПО по классификации НПБ105-

95 «Категорирование помещений (производств) по пожарной и взрывной опас-

ности» попадает в категорию «Д» – негорючие материалы в холодном состоя-

нии. В этом помещении не хранились легковоспламеняющиеся материалы и

жидкости, поэтому основными факторами возникновения пожара могут быть

перегрузки электропроводки, неисправность монитора, либо блока питания си-

стемного блока компьютера. Однако электрическая проводка используется без

перенагрузок по потреблению электрического тока. Максимальная нагрузка на

электросеть в данном помещении составляет 3 кВт, а суммарная мощность всех

электроприборов (без освещения) составляет 1,4 кВт. Корпуса монитора и си-

стемного блока изготовлены из негорючих материалов. Электрические схемы

данных приборов имеют предохранители, размыкающие электрические цепи в

случае короткого замыкания. Системный блок компьютера и монитор прошли

аттестацию на соответствие ГОСТу по уровням пожаробезопасности и имеют

88

Page 89: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

соответствующие сертификаты.

6.2 Расчет освещения

В помещении, где находится рабочее место оператора, используется сме-

шанное освещение, т.е. сочетание естественного и искусственного освещения.

В качестве естественного – боковое освещение через окно. Искусственное осве-

щение используется при недостаточном естественном освещении. В данном по-

мещении используется общее искусственное освещение.

Расчет его осуществляется по методу светового потока с учетом потока,

отраженного от стен и потолка.

Нормами для данных работ установлена необходимая освещенность рабо-

чего места Eн=300 лк (средняя точность работы по различению деталей разме-

ром от 1 до 10 мм). Примем параметры помещения равными:

1) длина(A) - 6 м.;

2) ширина(B) - 4 м.;

3) высота потолка(h1) - 3 м.;

4) высота рабочей поверхности(h2)- 0,725 м.

Площадь помещения:

S=A⋅B=6⋅4=24 м2 (6.1)

Общий световой поток определяется по формуле:

F=E н⋅K⋅Z⋅S

n, (6.2)

где Eн - нормированная минимальная освещенность, лк. Работа программи-

ста относится к разряду точных работ, следовательно, минимальной освещен-

ность будет при Eн = 300 лк.;

89

Page 90: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Z - отношение средней освещенности к минимальной (принимается рав-

ным 1,1 — 1,2, положим Z = 1,1);

K - коэффициент запаса, учитывающий уменьшение светового потока

лампы в результате загрязнения светильников в процессе эксплуатации (его зна-

чение определяется по таблице коэффициентов запаса для различных помеще-

ний, в нашем случае примем равным 1,5);

n - коэффициент использования (выражается отношением светового пото-

ка, падающего на расчетную поверхность, к суммарному потоку всех ламп и ис-

числяется в долях единицы. Зависит от характеристик светильника, размеров

помещения, окраски стен и потолка, характеризуемых коэффициентами отраже-

ния от стен P cи потолка Pn).

Значение коэффициентов P c и Pnопределим по таблице зависимостей ко-

эффициентов отражения от характера поверхности: P c= 30%, Pn= 50%. Значе-

ние n определим по таблице коэффициентов использования различных светиль-

ников.

Вычислим индекс помещения:

I=S

(h1−h2)⋅(A+B)=

24(3−0,725)⋅(4+6)

=1,0549 , (6.3)

где S- площадь помещения, м2;

A- длина помещения, м.;

B- ширина помещения, м.

Далее полученное значение индекса помещения округляется до бли-

жайшего табличного, таким образом имеем I =1.

Люминесцентные лампы имеют ряд преимуществ перед лампами накали-

вания: их спектр ближе к естественному, обладают более высоким КПД (в 1,5-2

90

Page 91: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

раза выше, чем КПД ламп накаливания), имеют большую экономичность

(больше светоотдача) и срок службы (в 10-12 раз). Наряду с этим имеются и

недостатки: их работа сопровождается иногда шумом; хуже работают при низ-

ких температурах; их нельзя применять во взрывоопасных помещениях; имеют

малую инерционность. Для нашего помещения люминесцентные лампы подхо-

дят.

Зная индекс I , P c, Pn, по таблице находим значение n = 0,39 для светиль-

ника PRB/S 418, оснащенного четырьмя люминесцентными лампами типа

OSRAM L 18W/830, световой поток такой лампы равен 1350 люмен, а мощ-

ность 18 Ватт .

Вычислим световой поток F по формуле (5.2):

F=300⋅1,5⋅1,1⋅24

0,39=30462 лм (6.4)

Найдем необходимое количество светильников по формуле:

N=F

k⋅F л

=304624⋅1350

=5,64шт . (6.5)

где F - общий световой поток, лм.;

F л - световой поток одной лампы, лм.;

k- количество ламп в светильнике.

Полученное значение необходимого количества светильников округлим

до ближайшего целого N =6.

Рассчитаем суммарную мощность осветительной установки общего на-

значения:

PΣ=N⋅k⋅W л=6⋅4⋅18=432Вт . (6.6)

где N - количество светильников, шт.;

91

Page 92: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

k - количество ламп в светильнике, шт.;

W л - мощность одной лампы, Вт.

Параллельно основному расчету был произведен проверочный с помо-

щью пакета программ Dialux. Результатом работы является план рабочего поме-

щения со схемой расположения светильников, а так же чертеж изолюкс в плос-

кости рабочей поверхности. Все результаты представлены на листе приложения

А дипломного проекта.

6.3 Утилизация жидкокристаллических мониторов

Одной из проблем настоящего времени является проблема утилизации и

переработки электронной техники, количество которой неуклонно растет. Не

возможно сегодня представить современный персональный компьютер без мо-

нитора. С начала 2000-ых годов ЭЛТ-мониторы стали заменяться более совре-

менными ЖК-мониторами.

К преимуществам жидкокристаллических дисплеев можно отнести: ма-

лые размер и массу в сравнении с ЭЛТ. У ЖК-мониторов, в отличие от ЭЛТ, нет

видимого мерцания, дефектов фокусировки лучей, помех от магнитных полей,

проблем с геометрией изображения и четкостью. Энергопотребление ЖК-мони-

торов в зависимости от модели, настроек и выводимого изображения может как

совпадать с потреблением ЭЛТ сравнимых размеров, так и быть существенно

ниже.

Но как и любая техника, ЖК-мониторы имеют ограниченный срок служ-

бы. Как правило, он равен тридцати тысячам часов. Поэтому встает вопрос об

утилизации мониторов данного типа.

Процесс переработки начинается с ручного демонтажа составных частей

монитора. Демонтированные компоненты, как правило, сортируются на пла-

92

Page 93: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

стик, металл, печатные платы, провода, люминесцентные лампы, ЖК-дисплеи

для дальнейшей переработки. Как видно из рисунка 6.1 основную массовую

долю монитора составляет металл и пластик, а ЖК-дисплей порядка 9%.

Особую опасность для окружающей среды составляют ЖК-дисплеи с

ССFL (люминесцентная лампа с холодным катодом) подсветкой. В зависимости

от характеристик люминесцентной лампы в ней может содержаться до 3,5 мг

ртути. Поэтому прием, хранение и транспортировка электронной техники про-

водится таким образом, чтобы избежать повреждения люминесцентных ламп.

Однако очень часто мониторы поступают на участок по переработке с уже раз-

битыми лампами. На участке, в связи с этим проводится постоянный контроль и

мероприятия по недопущению концентрации ртути в воздухе выше предельно

допустимой концентрации.

Рисунок 6.1 - Фракционный состав ЖК-монитора

Демонтированные лампы, как правило, утилизируются по той же техно-

93

39%

37%

9%

10%

6%

Металл

Пластик

Печатные платы

ЖК-дисплей

Остальное

Page 94: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

логии, что и обычные энергосберегающие люминесцентные лампы. Следует

сказать, что ЖК-дисплеи с LED или OLED подсветками считаются безопасны-

ми для окружающей среды, поскольку не содержат токсичные вещества в ка-

ких-либо значительных количествах. Уже сейчас наблюдается тенденция к пере-

ходу на ЖК-дисплеи с LED, а в будущем и с OLED подсветками.

Между подсветкой и ЖК-дисплеем находиться пакет из различных поли-

мерных оптических пленок. Это увеличитель яркости, светорассеивающая

пленка, призматическая пленка, светонаправляющая и светоотражающая плен-

ки. Как правило, эти пленки отправляются на мусоросжигательный завод ввиду

их разнообразного состава и низкой стоимости.

А теперь рассмотрим по порядку сами ЖК-дисплеи, чтобы лучше понять

как их перерабатывают, упрощенная схема приведена на рисунке 6.2.

Рисунок 6.2 - Упрощенная схема строения ЖК-дисплея

Поляризационный фильтр. Данный фильтр представляет собой много-

слойную композицию из полимеров органического и неорганического происхо-

ждения. Считается экологически безопасным, но при невысоких температурах

горения может выделять вредные вещества.

94

Page 95: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

Стеклянная подложка. Имеет толщину 0,4-1,1 мм и изготавливается из

натриевого или из более дорогих боросиликатных и алюмосиликатных стекол.

Является экологически безопасной.

Электроды. Представляют собой прозрачное покрытие из In2 O3−SnO2

(ITO). Толщина слоя может составлять до 125 нм, что примерно составляет 234

мг/м2. Ввиду высоких цен на оксид индия это покрытие имеет потенциальный

интерес для переработки. Например, уже существуют технологии выделения

оксида индия из ЖК-дисплеев гидрометаллургическим методом. Однако эконо-

мическая эффективность данного метода все еще под вопросом по причине ма-

лой концентрации оксида индия в сырье.

Жидкие кристаллы. Имеют сложный состав и представляют собой

смесь из 10-25 различных компонентов на основе ароматических полимеров.

Количество жидких кристаллов на один квадратный сантиметр примерно со-

ставляет 0,6 мг. Основным производителем жидких кристаллов является немец-

кая компания Mеrck, которая выполнила ряд токсикологических и экотоксиколо-

гических исследований. Согласно полученным результатам жидкие кристаллы

не являются остро-токсичными, канцерогенными, мутагенными, не вредны для

водных организмов и имеют низкий потенциал биоаккумуляции.

Цветовой фильтр, TFT слой, а также ориентационная пленка не ну-

ждаются в утилизации, поскольку не содержат какие-либо токсические веще-

ства. Таким образом, можно сделать вывод, что материалы, которые использу-

ются в ЖК- дисплеях, не представляют опасности для окружающей среды. Это

значит, что ЖК- дисплеи могут быть утилизированы захоронением на полигоне

или сжиганием на мусоросжигательном заводе. Однако такие способы утилиза-

ции являются малоэффективными. Другие имеющиеся технологии утилизации

ЖК-дисплеев в основном направлены на извлечение и повторное использование

основного составляющего компонента – стекла. Качество переработанного

95

Page 96: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

стекла зачастую очень низкое и его крошка обычно используется как добавка в

асфальт, бетон и другие строительные материалы. Более качественные стекла

могут быть получены при удалении поляризационного фильтра.

Вышеупомянутая компания Merck предложила несколько иных способов

утилизации ЖК- дисплеев. Например, стекло ЖК-дисплеев можно использовать

для защиты футеровки мусоросжигательных ротационных печей от агрессив-

ных веществ или частично заменить песок в составе шихты для металлургиче-

ского процесса выделения благородных металлов. В обоих случаях горение по-

ляризационной пленки происходит при температурах 1200-1300 °С, что позво-

ляет сжечь диоксины, если даже они образовались.

6.4 Выводы

Безопасность профессиональной деятельности во многом зависит от

условий труда, определяемых характером трудового процесса и трудовой обста-

новкой. Своевременный учет всех вредных факторов, а также мероприятия за-

щиты от них помогают избежать угрозы жизни и здоровью рабочих, наладить

более эффективную трудовую деятельность.

В экологической части дипломного проекта было выполнено проектиро-

вание рабочего места оператора ЭВМ. Созданные условия должны обеспечи-

вать комфортную работу. На основании принятых требований по технике без-

опасности и санитарных норм были указаны размеры рабочего стола и кресла,

рабочей поверхности, проведен выбор системы и расчет оптимального освеще-

ния помещения. По результатам расчетов необходимое количество светильни-

ков PRB/S 418 равно шести, а количество люминесцентных ламп типа OSRAM

L 18W/830 должно равняться 24 шт. Так же приведено краткое описание про-

цесса утилизации ЖК-мониторов.

96

Page 97: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

7 ЗАКЛЮЧЕНИЕ

В результате выполнения данного дипломного проекта был разработан эс-

кизный проект системы классификации веб-документов, который уже может

быть внедрен в любую имеющуюся систему информационного поиска с не-

большими изменениями.

Отличительной особенностью разработки является использование тема-

тического моделирования при решении проблемы высокой размерности про-

странства признаков, при помощи которых индексируются документы.

Разработанная система состоит из 3 крупных модулей: модуль отвечаю-

щий за подготовку и индексацию коллекций документов, написанный на языке

С++; модуль, предназначенный для построения тематических моделей коллек-

ций, в качестве которого выступает сторонний пакет MALLET; модуль ответ-

ственный за построение и оценку моделей классификаторов, реализованный на

языке Python. Вся структура является достаточно гибкой и подразумевает даль-

нейшее расширение.

В ходе написания диплома были проведено практическое сравнение полу-

ченной системы с классическими методами, применяемыми при решении задач

классификации. По результатам исследований было установлено, что качество

классификации, предоставляемое системой значительно превосходит классиче-

ские методы.

В организационно-экономической части проекта определена трудоем-

кость разработки, построен календарный график выполнения работ, определен

состав затрат на разработку, определены сроки выполнения проекта.

В разделе проекта «Охрана труда и экология» проведен анализ условий

труда на этапе реализации разработанного ПО, в рамках которого выполнен рас-

чет системы искусственного освещения.

97

Page 98: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

8 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Приклад-

ная статистика: классификация и снижение размерности. — М.: Финансы

и статистика, 1989. - 607 с.

2. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. —

М.: Наука, 1979. - 449 с.

3. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математи-

ческие методы. Программная система. Практические применения. — М.:

Фазис, 2006. - 176 с.

4. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новоси-

бирск: ИМ СО РАН, 1999. - 270 с.

5. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск.

- Вильямс, 2011. - 528 с.

6. Маслов В.С. Методические указания к курсовому/дипломному квалифи-

кационной работе. – М.: МГТУ им. Н.Э. Баумана, 2005. – 5 с.

7. Смирнов С.Г., Баланцев С.К. Расчет искусственного освещения. – М.:

МВТУ им. Н.Э.Баумана, 1976. – 23 с.

8. Федорук Е.В. Методические указание к выпускной квалификационной ра-

боты (дипломного проектирования) дипломированных специалистов ка-

федры САПР МГТУ им. Н. Э. Баумана. – М.: МГТУ им Н.Э. Баумана,

2014. – 6 с.

9. ГОСТ 12.1.004 – 91. Пожарная безопасность. Общие требования. – Моск-

ва: Изд-во стандартов, 1995. – 60 с.

10. ГОСТ 25861 — 83. Машины и вычислительные системы для обработки

данных. – Москва: Изд-во стандартов, 1987. – 50 с.

98

Page 99: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

11. СанПин 2.2.2/2.4.1340-03. Гигиенические требования к персональным

электронно-вычислительным машинам и организации работы.

12. СНИП 23-05-95. Естественное и искусственное освещение.

13. «Википедия – свободная энциклопедия». Русскоязычная версия, [HTML]

(http://ru.wikipedia.org/).

14. «Хабрахабр», [HTML] (http://habrahabr.ru/).

15. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. —

Springer, 2001. - 737 c.

16. James G., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical

Learning: with Applications in R. - Springer, 2013. - 419 c.

17. Lutz M. Learning Python. — O'Reilly, 2013. - 1507 с.

18. Manning C., Shutze H. Foundatuions of Statistical Natural Language

Processing. - MIT Press, 1999. - 657 c.

19. Mitchell T. Machine Learning. —McGraw-Hill Science/Engineering/Math,

1997. - 414 c.

20. Polukhin A. Boost C++ Application Development Cookbook. — Packt

Publishing, 2013. - 329 c.

21. Rischpater R. Application Development with Qt Creator. - Packt Publishing,

2013 - 117 c.

22. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of

Machine Learning Research. 2003. Vol. 3. c. 993–1022.

23. Griffiths T. Gibbs sampling in the generative model of Latent Dirichlet

Allocation. - 2002. - 3 с.

24. Sebastiani F. Machine learning in automated text categorization. - 2002. с. 47.

99

Page 100: СОДЕРЖАНИЕ · 3.1 Вспомогательные модули системы.....36 3.1.1 Модуль лексического анализа документов.....37

ПРИЛОЖЕНИЕ А. ГРАФИЧЕСКИЕ МАТЕРИАЛЫ

100