Комбинирование факторов для разрешения референции местоимений

Комбинирование факторов для разрешения

референции местоимений

Автор: Ерин Александр (группа 525)

Научный руководитель:

к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.

ДИПЛОМНАЯ РАБОТА

Задача разрешения референции

Разрешение референции, т.е. нахождение для местоимений соответствующих референтов, в тексте и есть задача референциального анализа.

«Сам Евгений Чичваркин [референт] приветствовал сегодняшний вердикт присяжных, в интервью радиостанции "Эхо Москвы" он заявил, что инициаторов этого процесса нужно судить.»

Применение

Семантический анализ текста

Перевод с одного естественного языка на другой

Информационный поиск

Извлечение знаний из текстов 2

Постановка задачи

• Создать программную систему для разрешения референции местоимений русскоязычных текстов

• Предложить и опробовать различные подходы к разрешению референции в ходе реализации программной системы

• Для настройки и тестирования использовать наборы русскоязычных новостных текстов

3

Предварительная обработка

• Разбивка текста на предложения

• Выделение слов, знаков препинания и прочих объектов в предложении

• Сопоставление слов из текста с результатом работы морфологического анализа

4

• Выделение цитат • Определение однородных членов предложения

Базовый этап

Используется только морфологический анализ – высокая неоднозначность слов

Факторы оценки потенциального референта:

взаимное расположение местоимения и кандидата в референты – количество предложений между, количество грамматических основ между, положение внутри цитаты

количество совпавших атрибутов – род, число

одушевленность – наибольшая оценка одушевленным

падеж кандидата

5

Устранение неоднозначности - 1

• Фильтрация падежей слов на основе предшествующих им предлогов и предложных слов:

«благодаря фракции [рд, дт, пр, им, вн]»

• Подключение синтаксического анализа (Диалинг АОТ) и корректировка на его основе:

– Частей речи

• ПОДЛ {дорога [СУЩ, ПРИЛ] -> прокладывается}

– Падежей

• ПРЯМ_ДОП {дали -> показания [рд, им, вн]}

– Множественности слов

• ЧИСЛ_СУЩ {чиновника [ед, мн] -> оба}

6


Создание базы сущностей – наследование атрибутов

Для некоторых имен собственных морфологический анализатор не предоставляет никаких атрибутов, либо только неверные наборы

• «Финская компания Tieto [] намерена вложить более 130 млн долл. в создание центров разработки в российских технопарках.»

• «Г-н Песня [жр] не уточнил, какую сумму он получил, продав компанию, сказав только, что ее оборот за 2008 год…»

• «По словам аналитика iKS-Сonsulting Константина Анкилова [жр],…»

7


При проходе текста основные атрибуты наследуются от уточняющего слова, при этом создается следующая база сущностей

8

Основное слово Дополнительные слова Наборы атрибутов

Tieto компания жр, ед, неодуш

Песня Юрий; г-н мр, ед, одуш

Основываясь на данной базе корректируются наборы атрибутов слов по всему тексту.

Применение статистики - 1

Текстов 2,6 млн ПОДЛ 1,8 / 13 млн ГЕНИТ_ИГ 1,3 / 23 млн

База статистически близких глаголов - 2838 слов .

Статистические признаки:

1) ПОДЛ {СУЩ1 -> ГЛАГ}

2) ГЕНИТ_ИГ {СУЩ1 -> СУЩ2}, где

СУЩ1 – потенциальный референт

ГЛАГ – глагол употребленный с местоимением

СУЩ2 – слово зависимое от ГЛАГ

«…приказал Медведев. Также он издал указ о…»

Если потенциальный референт – имя собственное, для поиска по статистической базе используются «дополнительные слова» из базы сущностей.

9

Применение статистики - 2

3) Статистика употребления с глаголом одушевленных и неодушевленных слов (заменяет базовую оценку на одушевленность):

ВНЕДРИТЬ од = 12.5% ЛЮБИТЬ од = 85.71%

АКЦЕНТИРОВАТЬ од = 92.59% СПАТЬ од = 100.0%

4) Статистическая близость глагола употребленного с местоимением и глагола употребленного с потенциальным референтом.

«…поведал аналитик компании Head Hunter. Он также сказал, что рост рынка труда…»

10

Комбинирование факторов

• Каждый фактор из базовой оценки и статистической оценки имеет свой вес в векторе весовых коэффициентов

• Значения коэффициентов данного вектора подбирались опытным путем

• Этап устранения неоднозначности влияет на все факторы в совокупности

11

ЭТАП НАСТРОЕЧНЫЙ ПРОВЕРОЧНЫЙ

Базовый уровень 76,1% 75,32%

Устранение неоднозначности 81,2% 80,6%

Применение статистики 82,71% 82,41%

Схема программной системы

12

Язык разработки - Java

Коричневые модули – внешние Диалинг АОТ

Входные данные – русскоязычный текст

Выходные данные – размеченный текст с установленной референцией в XML и HTML форматах

Модуль предварительной

обработки

Входной текст Морфологический

анализатор

Синтаксический анализатор

Статистическая база

Модуль устранения неоднозначностей

Модуль разрешения референции

Текст с установленной референцией

Основные результаты

• Разработана программная система автоматического разрешения референции местоимений русскоязычных текстов

• Рассмотрены статистические признаки для разрешения референции, а также предложен способ их улучшения на основе базы сущностей

• Предложен новый признак – статистическая близость между глаголом местоимения и глаголом потенциального референта

• Удалось улучшить точность разрешения референции на 9.41% по сравнению с базовым уровнем

13

Entertainment & Humor

Комбинирование факторов для разрешения референции местоимений