Upload
-
View
505
Download
1
Embed Size (px)
DESCRIPTION
Ерин Александр
Citation preview
Комбинирование факторов для разрешения
референции местоимений
Автор: Ерин Александр (группа 525)
Научный руководитель:
к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.
ДИПЛОМНАЯ РАБОТА
Задача разрешения референции
Разрешение референции, т.е. нахождение для местоимений соответствующих референтов, в тексте и есть задача референциального анализа.
«Сам Евгений Чичваркин [референт] приветствовал сегодняшний вердикт присяжных, в интервью радиостанции "Эхо Москвы" он заявил, что инициаторов этого процесса нужно судить.»
Применение
Семантический анализ текста
Перевод с одного естественного языка на другой
Информационный поиск
Извлечение знаний из текстов 2
Постановка задачи
• Создать программную систему для разрешения референции местоимений русскоязычных текстов
• Предложить и опробовать различные подходы к разрешению референции в ходе реализации программной системы
• Для настройки и тестирования использовать наборы русскоязычных новостных текстов
3
Предварительная обработка
• Разбивка текста на предложения
• Выделение слов, знаков препинания и прочих объектов в предложении
• Сопоставление слов из текста с результатом работы морфологического анализа
4
• Выделение цитат • Определение однородных членов предложения
Базовый этап
Используется только морфологический анализ – высокая неоднозначность слов
Факторы оценки потенциального референта:
взаимное расположение местоимения и кандидата в референты – количество предложений между, количество грамматических основ между, положение внутри цитаты
количество совпавших атрибутов – род, число
одушевленность – наибольшая оценка одушевленным
падеж кандидата
5
Устранение неоднозначности - 1
• Фильтрация падежей слов на основе предшествующих им предлогов и предложных слов:
«благодаря фракции [рд, дт, пр, им, вн]»
• Подключение синтаксического анализа (Диалинг АОТ) и корректировка на его основе:
– Частей речи
• ПОДЛ {дорога [СУЩ, ПРИЛ] -> прокладывается}
– Падежей
• ПРЯМ_ДОП {дали -> показания [рд, им, вн]}
– Множественности слов
• ЧИСЛ_СУЩ {чиновника [ед, мн] -> оба}
6
Устранение неоднозначности - 2
Создание базы сущностей – наследование атрибутов
Для некоторых имен собственных морфологический анализатор не предоставляет никаких атрибутов, либо только неверные наборы
• «Финская компания Tieto [] намерена вложить более 130 млн долл. в создание центров разработки в российских технопарках.»
• «Г-н Песня [жр] не уточнил, какую сумму он получил, продав компанию, сказав только, что ее оборот за 2008 год…»
• «По словам аналитика iKS-Сonsulting Константина Анкилова [жр],…»
7
Устранение неоднозначности - 3
При проходе текста основные атрибуты наследуются от уточняющего слова, при этом создается следующая база сущностей
8
Основное слово Дополнительные слова Наборы атрибутов
Tieto компания жр, ед, неодуш
Песня Юрий; г-н мр, ед, одуш
Основываясь на данной базе корректируются наборы атрибутов слов по всему тексту.
Применение статистики - 1
Текстов 2,6 млн ПОДЛ 1,8 / 13 млн ГЕНИТ_ИГ 1,3 / 23 млн
База статистически близких глаголов - 2838 слов .
Статистические признаки:
1) ПОДЛ {СУЩ1 -> ГЛАГ}
2) ГЕНИТ_ИГ {СУЩ1 -> СУЩ2}, где
СУЩ1 – потенциальный референт
ГЛАГ – глагол употребленный с местоимением
СУЩ2 – слово зависимое от ГЛАГ
«…приказал Медведев. Также он издал указ о…»
Если потенциальный референт – имя собственное, для поиска по статистической базе используются «дополнительные слова» из базы сущностей.
9
Применение статистики - 2
3) Статистика употребления с глаголом одушевленных и неодушевленных слов (заменяет базовую оценку на одушевленность):
ВНЕДРИТЬ од = 12.5% ЛЮБИТЬ од = 85.71%
АКЦЕНТИРОВАТЬ од = 92.59% СПАТЬ од = 100.0%
4) Статистическая близость глагола употребленного с местоимением и глагола употребленного с потенциальным референтом.
«…поведал аналитик компании Head Hunter. Он также сказал, что рост рынка труда…»
10
Комбинирование факторов
• Каждый фактор из базовой оценки и статистической оценки имеет свой вес в векторе весовых коэффициентов
• Значения коэффициентов данного вектора подбирались опытным путем
• Этап устранения неоднозначности влияет на все факторы в совокупности
11
ЭТАП НАСТРОЕЧНЫЙ ПРОВЕРОЧНЫЙ
Базовый уровень 76,1% 75,32%
Устранение неоднозначности 81,2% 80,6%
Применение статистики 82,71% 82,41%
Схема программной системы
12
Язык разработки - Java
Коричневые модули – внешние Диалинг АОТ
Входные данные – русскоязычный текст
Выходные данные – размеченный текст с установленной референцией в XML и HTML форматах
Модуль предварительной
обработки
Входной текст Морфологический
анализатор
Синтаксический анализатор
Статистическая база
Модуль устранения неоднозначностей
Модуль разрешения референции
Текст с установленной референцией
Основные результаты
• Разработана программная система автоматического разрешения референции местоимений русскоязычных текстов
• Рассмотрены статистические признаки для разрешения референции, а также предложен способ их улучшения на основе базы сущностей
• Предложен новый признак – статистическая близость между глаголом местоимения и глаголом потенциального референта
• Удалось улучшить точность разрешения референции на 9.41% по сравнению с базовым уровнем
13