View
757
Download
4
Category
Preview:
DESCRIPTION
Тарасенко Ю.В.
Citation preview
Автоматическое построение лексико-синтаксических шаблонов
по текстам предметной области
Исполнитель: Тарасенко Ю.В., группа 524
Научные руководители: Ефремова Н.Э., Большакова Е.И.
ДИПЛОМНАЯ РАБОТА
Шаблоны в компьютерной лингвистике
Извлечение информации из текстов:
1. Распознавание сущностей: имён людей, названий организаций, дат и т.д.
2. Выявление связей между сущностями: «Род-Вид», «Часть-Целое» и т.д.
3. Выделение фактов: о проведении сделок, деловых визитов и т.д.
Определение шаблона
Шаблон - формальная запись языковой конструкции, включающая:
фиксированные лексемы
заполняемые места (слоты)
синтаксические ограничения
Пример:
N1 V<СОСТОЯТЬ> Pr<ИЗ> N2
N – существительное
V – глагол
Pr – предлог
Каждая хромосома состоит из хроматина - сложного комплекса из ДНК , белков и некоторых других компонентов (в частности, РНК).
Актуальность
Как правило, для русскоязычных текстов шаблоны строятся вручную:
трудоемкий процесс
множество построенных шаблонов – неполное
возможны ошибки
Поэтому задача автоматического построения шаблонов для русскоязычных текстов является актуальной.
Постановка задачи
Требуется разработать программный комплекс для автоматического построения лексико-синтаксических шаблонов по русскоязычным текстам предметной области.
Подзадачи: 1. Составить обзор существующих методов автоматического
построения шаблонов.
2. По результатам обзора выбрать метод и адаптировать его для применения к русскоязычным текстам.
3. Реализовать программный комплекс автоматического построения шаблонов.
4. Провести тестирование функциональности программного комплекса.
Методы автоматического построения шаблонов
1. AutoSlog
Работает с размеченной коллекцией текстов. Для составления
шаблонов используются эвристические правила.
2. AutoSlog-Ts
Вместо размеченной коллекции используются тексты, помеченные
как содержащие или не содержащие извлекаемое событие.
3. DIPRE
Для составления шаблонов применяется кластеризация. Шаблоны
представляются в виде строк со слотами.
4. Snowball
Основан на методе DIPRE. Шаблоны представляются в виде
векторов контекстов.
Алгоритм построения шаблонов
Вход: исследуемое отношение + пары терминов
1. В тексте ищутся предложения, содержащие пары терминов, их окружение (контекст) фиксируется.
2. Найденные контексты анализируются и формируются новые шаблоны.
3. Новые шаблоны проверяются.
4. С помощью шаблонов строятся новые пары терминов.
Выход: новые пары терминов + новые шаблоны
Адаптация метода
1. Используется коллекция научно-технических текстов на русском языке.
2. Коллекция размечается автоматически с помощью библиотеки Alchemy.
3. В качестве языка записи шаблонов используется LSPL (Lexico-Syntactic Pattern Language).
Схема алгоритма
Шаг 1: Получение контекстов Пары
терминов
Шаг 2: Анализ контекстов и построение шаблонов
Контексты
Шаг 3: Проверка новых шаблонов
Новые шаблоны
Новые шаблоны
Шаг 4: Получение новых пар терминов Пары
терминов
Релевантные
шаблоны
Пример
Вход: отношение «Часть-Целое» + пара терминов <тело человека, вода>
Текст:
«Тело человека примерно на 60 процентов состоит из воды, некоторые же ткани такие, как серое вещество мозга, состоят на 85 процентов из воды.»
Новый шаблон:
NG1 Av<ПРИМЕРНО> Pr<НА> UPercent V<СОСТОЯТЬ> Pr<ИЗ> NG2
Контекст для шаблона
Реализация
Языки программирования: С++, PHP
Библиотеки: LSPL, AOT, boost
Платформа: Drupal CMS
Основные компоненты проргаммного комплекса:
• Компонент автоматического построения шаблонов.
• Компонент наложения шаблонов (на базе библиотеки LSPL).
• Компонент выделения терминов и ключевых слов (на базе библиотеки Alchemy).
Архитектура программного комплекса
Тексты
Словари
LSPL
Alchemy
Компонент автоматического
построения шаблонов
Компонент наложения шаблонов
Компонент выделения терминов и ключевых
слов
Шаблоны
Словари
Пользовательский интерфейс
Тестирование
На научно-технических текстах по биологии (анатомия человека, генетика и др.) объёмом более 1Мб для отношения «Часть-Целое».
Построено шаблонов: 50
Выделено корректных пар терминов: 452
Точность выделения пар: 87%
Результаты работы
1. Составлен обзор существующих методов автоматического построения шаблонов.
2. Выбран метод автоматического построения шаблонов Snowball и адаптирован для применения к русскоязычным текстам.
3. Реализован программный комплекс автоматического построения шаблонов с веб-интерфейсом.
4. Проведено тестирование функциональности программного комплекса.
Спасибо за внимание!
Recommended