12
Пономарёв С.В. Номинация “Великий и могучий”, “Приложения для России – Apps4Russia.ru”

Перефразировщик текста

  • Upload
    -

  • View
    1.233

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Перефразировщик текста

Пономарёв С.В.

Номинация “Великий и могучий”,“Приложения для России – Apps4Russia.ru”

Page 2: Перефразировщик текста

Перефразировщик должен:1.Обнаружить потенциально сложное место в тексте:

1. Обилие канцелярита;2. Громоздкие синтаксические конструкции;3. Обороты-паразиты;4. Неочевидные для восприятия конструкции.

2.Предложить варианты переформулировки неудачного места текста.3.Улучшать свою работу:

1. Автоматически, выстраивая базу знаний по открытым источникам;

2. При обучении с учителем, запоминая и применяя верифицированные человеком переформулировки.

Page 3: Перефразировщик текста

1. Оценщик понятности текста:1. Синтаксический анализатор и детектор

синтаксических конструкций (pattern-matching для синтаксиса);

2. Детектор неочевидных утверждений (проверка ассоциативных связей);

3. Детектор тяжёлых конструкций – канцелярита, оборотов-паразитов.

2. Модуль обучения:1. Статистический парсер;2. Парсер статистической онтологии;3. Обучение на примерах (с учителем).

3. Модуль перефразировки:1. Генератор текста по аналогии.

Page 4: Перефразировщик текста

Это граф, где вершинами являются слова и понятия, а рёбрами – именованные связи между ними. То есть – триплеты “понятие_1 - тип связи - понятие_2”.

Отличием является наличие в онтологии большого числа статистически накопленных связей по нескольких независимым источникам – словарям, тезаурусам, wiki. Каждому триплету в статистической онтологии присвоен свой вес, и таких триплетов – миллионы.

Текущая база содержит более миллиарда связей между 1.3 миллионами узлов.

Page 5: Перефразировщик текста

Факторы оценки понятности:

1. Слишком сложное дерево синтаксического разбора;

2. Нетипичное использование слов и понятий;

3. Нетипичные ассоциации между словами;

4. Несоответствие роли слов и понятий их связям в статистической онтологии.

Page 6: Перефразировщик текста

Парсинг открытых источников для формирования базы статистической онтологии:1.ru.wiktionary.org;2.DBPedia;3.FreeBase;4.Сборники словарей;5.Библиотеки художественной литературы и новостные ленты.

Генерация на основе заданных учителем пар «исходное выражение» - «перефразированное выражение» правил автоматического вывода.

Page 7: Перефразировщик текста

1. Определение подходящего правила перефразирования (комбинированный синтаксический и семантический паттерн матчинг);

2. Вывод слов результирующей фразы по аналогии по связям статистической онтологии;

3. Согласование результирующей фразы по грамматическим аттрибутам.

Page 8: Перефразировщик текста

• Построение синтаксических деревьев “SDK грамматического словаря” solarix.ru

• Статистическая обработка текста “Word2Vec” code.google.com/p/word2vec

• Паттерн-матчинг фраз по синтаксическому строю и семантическому содержанию, обучение с учителем и вывод по аналогии (собственная разработка) servponomarev.livejournal.com/3175.html

• Разрешение анафор и выделение кореферентных связей (собственная разработка) servponomarev.livejournal.com/3720.html

Page 9: Перефразировщик текста

• Модуль перефразировки (фаза рабочий прототип):• Степень готовности 80%, демонстратор

технологии передан в общественное достояние servponomarev.livejournal.com/6059.html

• Модуль обучения (фаза рабочий прототип, активно дорабатывается):• Степень готовности основной онтологической

базы 100%;• Планируется интеграция FreeBase и DBPedia с

онтологической базой;• Генератор правил и вывод по аналогии

представлены в демонстраторе технологий servponomarev.livejournal.com/6059.html

• Модуль оценки понятности текста (в работе):• Отработаны технологии паттерн матчинга:

• по синтаксическим деревьям;• по степени подобия слов в одинаковых позициях;• по метрике Левенштейна и Word2Vec.

• Планируются публикации по результатам исследований.

Page 10: Перефразировщик текста

• Статья по машинной лингвистике на Хабре с описанием статистической онтологии и методов автоматического вывода по аналогии habrahabr.ru/post/229403/

• Предложения по использованию технологий для улучшения качества работы поисковых движков “Концепция поисковых расширений” www.slideshare.net/ServPonomarev/ss-38861373

• Предложения по созданию “Автоматической голосовой службы поддержки” www.slideshare.net/ServPonomarev/ss-36013738

• Демонстратор технологий в исходных кодах servponomarev.livejournal.com/6059.html

Page 11: Перефразировщик текста

Пономарёв С.В[email protected]

Page 12: Перефразировщик текста

Question: Какой глубины лужа?Correct Answer: Лужа - мелкая.Generated Answer: Глубина.New Rule Added.

Question: Какой глубины море?Correct Answer: Море - глубокое.Generated Answer: Море - мелкое.Adding 1 New Paths.Correct Answer Found.

Question: Какой глубины океан?Correct Answer: Океан - глубокий.Generated Answer: Океан - глубокий.Correct Answer Found.

Question: Какой глубины лужа?Correct Answer: Лужа маленькой глубины.Generated Answer: Лужа - мелкая.Generated Answer: Глубина.New Rule Added.

Question: Какой глубины море?Correct Answer: Море большой глубины.Generated Answer: Море огромной глубины.Adding 1 New Paths.Correct Answer Found.

цвета.Generated Answer: Апельсин оранжевого цвета.Generated Answer: Апельсин - красный.Generated Answer: Цвет.New Rule Added.

Question: Какого цвета море?Correct Answer: Море синего цвета.Generated Answer: Море море синего цвета.Generated Answer: Море синего цвета.Correct Answer Found.

Question: Какого цвета помидор?Correct Answer: Помидор красного цвета.Generated Answer: Помидор красного цвета.Correct Answer Found.

Question: Какого цвета трава?Correct Answer: Трава зеленого цвета.Generated Answer: Трава зеленого цвета.Correct Answer Found.

Question: Какой глубины океан?Correct Answer: Океан большой глубины.Generated Answer: Океан большой глубины.Correct Answer Found.

Question: Какого цвета огурец?Correct Answer: Огурец зеленого цвета.Generated Answer: Огурец зеленого цвета.Correct Answer Found.

Question: Какого цвета апельсин?Correct Answer: Апельсин оранжевого цвета.Generated Answer: Апельсин яркого цвета.Adding 1 New Paths.Correct Answer Found.

Question: Цвет апельсина какой?Correct Answer: Апельсин оранжевого цвета.Generated Answer: Апельсин оранжевого цвета.Correct Answer Found.

Question: Апельсин какого цвета?Correct Answer: Апельсин оранжевого цвета.Generated Answer: Апельсин оранжевого цвета.Correct Answer Found.

Question: Какого цвета спелый апельсин?Correct Answer: Спелый апельсин оранжевого цвета.Generated Answer: Апельсин оранжевого цвета.Generated Answer: Апельсин - красный.Generated Answer: Цвет.New Rule Added.

Question: Какого цвета море?Correct Answer: Море синего цвета.Generated Answer: Море море синего цвета.Generated Answer: Море синего цвета.Correct Answer Found.

Question: Какого цвета помидор?Correct Answer: Помидор красного цвета.Generated Answer: Помидор красного цвета.Correct Answer Found.

Question: Какого цвета трава?Correct Answer: Трава зеленого цвета.Generated Answer: Трава зеленого цвета.Correct Answer Found.