53
Преобразование структур зависимостей Ангелина Иванова 7.04.2012

Angelii rus

Embed Size (px)

Citation preview

Page 1: Angelii rus

Преобразование структур зависимостей

Ангелина Иванова

7.04.2012

Page 2: Angelii rus

Введение

The LinGO Redwoods Treebank

Конвертер для Redwoodsтрансформация синтаксических деревьев

трансформация синтаксических зависимостей

Корпус PEST

Сравнительный анализ преобразованных

структур со стандартами

Заключение

План презентации

Page 3: Angelii rus

Введение

The LinGO Redwoods Treebank

Конвертер для Redwoodsтрансформация синтаксических деревьев

трансформация синтаксических зависимостей

Корпус PEST

Сравнительный анализ преобразованных

структур со стандартами

Заключение

План презентации

Page 4: Angelii rus

Графы и деревья

Граф ­ совокупность (1) точек и (2) линий, соединяющих некоторые из этих точек. Точки называют узлами графа, а линии - дугами.

Page 5: Angelii rus

Графы и деревья

Дерево составляющих Дерево зависимостей

Дерево ­ связный ациклический граф.

Page 6: Angelii rus

Графы и деревьяНаиболее типичное дерево зависимостей:

● Ориентированный ацикличный связный граф

● Каждое слово в предложении представлено узлом в дереве

● Корень – узел без входящей дуги

● Для каждого узла есть только один главный узел, которому он подчиняется

Page 7: Angelii rus

Введение

The LinGO Redwoods Treebank

Конвертер для Redwoodsтрансформация синтаксических деревьев

трансформация синтаксических зависимостей

Корпус PEST

Сравнительный анализ преобразованных

структур со стандартами

Заключение

План презентации

Page 8: Angelii rus

The LinGO Redwoods Treebank

● Язык: английский● Лингвистический подход: HPSG● Грамматика: LinGO ERG● Виды аннотаций:

– Синтаксические деревья

– Синтаксические зависимости

Page 9: Angelii rus
Page 10: Angelii rus

The LinGO Redwoods Treebank

● Источники данных:– Verbmobil and e-commerce corpora

– LOGON Norwegian-English MT corpus

– English Wikipedia (from WeScience)

– Brown corpus (SemCor)

– и др.

Page 11: Angelii rus

Синтаксические деревья

Page 12: Angelii rus

Синтаксические деревьяDELPH-IN Derivation Tree Синтаксическое дерево

грамматики составляющих

Page 13: Angelii rus

Синтаксические зависимости

Формат: элементарные структуры зависимостей (Elementary Dependency Structures, http://moin.delph-in.net/RmrsEds)

Предикаты соответствуют группам слов

Некоторые слова семантически пусты и не представлены в графе зависимостей

Элементарные структуры зависимостей не формируют деревья

Page 14: Angelii rus

Синтаксические зависимости

{e2:

 x4:thing<0:4>[]

 _1:which_q<0:4>[BV x4]

 e2:_next_a_1<7:12>[ARG1 x4]

}

Page 15: Angelii rus

Введение

The LinGO Redwoods Treebank

Конвертер для Redwoodsтрансформация синтаксических деревьев

трансформация синтаксических зависимостей

Корпус PEST

Сравнительный анализ преобразованных

структур со стандартами

Заключение

План презентации

Page 16: Angelii rus

Сложные случаи:● сокращенные отрицательные формы

                              The dog couldn't bark.

● пунктуация

● устойчивые выражения

Трансформация в структуры зависимостей

Page 17: Angelii rus

Трансформация синтаксических деревьевROOT_INFORMAL

FLR-HD_WH-MC-SB_C

HDN_BNP-QNT_C

HDN_OPTCMP_C

What

HD_XSB-FIN_C

HD-CMP_U_C

's

next?

W_QMARK_PLR

Page 18: Angelii rus

Введение

The LinGO Redwoods Treebank

Конвертер для Redwoodsтрансформация синтаксических деревьев

трансформация синтаксических зависимостей

Корпус PEST

Сравнительный анализ преобразованных

структур со стандартами

Заключение

План презентации

Page 19: Angelii rus

{e2: x4:thing<0:4>[] _1:which_q<0:4>[BV x4] e2:_next_a_1<7:12>[ARG1 x4]}

x4 e2

Трансформация синтаксических зависимостей

Page 20: Angelii rus

Виды предикатов:● lexical● transparent● relational● redundant

Трансформация синтаксических зависимостей

Page 21: Angelii rus

Lexical predicates

Предикаты, которые соответствуют словам в предложении[lexical]

/^_.*/

named

card

thing

numbered_hour

person

pron

time

Page 22: Angelii rus

Lexical predicates

Two hundred twenty dogs bark.{e2:

 _1:udef_q<0:18>[BV x4]

 i8:card<0:3>("2")[ARG1 x4]

 e10:card<4:11>("100")[ARG1 x4]

 i14:plus<4:11>[ARG1 x4, ARG2 i15, ARG3 i16]

 i15:times<4:11>[ARG1 x4, ARG2 i8, ARG3 e10]

 i16:card<12:18>("20")[ARG1 x4]

 x4:_dog_n_1<19:23>[]

 e2:_bark_v_1<24:29>[ARG1 x4]

}

e10 e2i18 i16 x4

Page 23: Angelii rus

Transparent predicates

Предикат, который приравнивается к одному из своих аргументов

[transparent]

nominalization ARG1

implicit_conj L­HNDL

implicit_conj L­INDEX

/_c$/ L­HNDL

/_c$/ L­INDEX

Page 24: Angelii rus

Transparent predicates

The dog arrived and barked.

{e2:

 _1:_the_q<0:3>[BV x5]

 x5:_dog_n_1<4:7>[]

 e9:_arrive_v_1<8:15>[ARG1 x5]

 e2:_and_c<16:19>[L­INDEX e9, R­INDEX e11, 

L­HNDL e9, R­HNDL e11]

 e11:_bark_v_1<20:27>[ARG1 x5]

}

e9 e2

Root

Page 25: Angelii rus

Relational predicates

Предикаты с двумя аргументами, один из которых – главная составляющая, а другой – зависимая составляющая.

/_c$/ L­HNDL R­HNDL

/_c$/ L­INDEX R­INDEX

of_p ARG2 ARG1

part_of ARG0 ARG1

poss ARG2 ARG1

Page 26: Angelii rus

Relational predicates

Browne arrived on Tuesday morning.{e2:

 _1:proper_q<0:6>[BV x5]

 x5:named<0:6>("Browne")[]

 e2:_arrive_v_1<7:14>[ARG1 x5]

 e9:_on_p_temp<15:17>[ARG1 e2, ARG2 x10]

 x12:dofw<18:25>("Tue")[]

 _2:def_explicit_q<18:25>[BV x10]

 e17:of_p<18:25>[ARG1 x10, ARG2 x12]

 _3:def_implicit_q<18:25>[BV x12]

 x10:_morning_n_of<26:34>[]

}

x10x12

Page 27: Angelii rus

Redundant predicates

Предикат, содержащий аргумент, подлежащий удалению.

[redundant]

/.*/ L­HNDL L­INDEX

/.*/ R­HNDL R­INDEX

Page 28: Angelii rus

Redundant predicates

The dog arrived and barked.

{e2:

 _1:_the_q<0:3>[BV x5]

 x5:_dog_n_1<4:7>[]

 e9:_arrive_v_1<8:15>[ARG1 x5]

 e2:_and_c<16:19>[L­INDEX e9, R­INDEX e11, 

L­HNDL e9, R­HNDL e11]

 e11:_bark_v_1<20:27>[ARG1 x5]

}

e9 e11

Page 29: Angelii rus

Определение типа предиката (lexical, transparent, relational,redundant)

Разбиение сокращенных отрицательных форм

Отделение пунктуации

Разбиение устойчивых выражений на отдельные слова

Трансформация синтаксических зависимостей

Page 30: Angelii rus

Примеры

Page 31: Angelii rus

Примеры

Page 32: Angelii rus

Примеры

Page 33: Angelii rus

Введение

The LinGO Redwoods Treebank

Конвертер для Redwoodsтрансформация синтаксических деревьев

трансформация синтаксических зависимостей

Корпус PEST

Сравнительный анализ преобразованных

структур со стандартами

Заключение

План презентации

Page 34: Angelii rus

Корпус PESTЯзык: английский

Две части: 10 предложений и 15 предложений

Форматы: CoNLL Syntactic Dependencies

CoNLL PropBank Semantics Stanford basic Stanford collapsed dependencies Enju predicate – argument structures

Page 35: Angelii rus

CoNLL Syntactic Dependencies

Деревья из Penn Treebank трансформированные с помощью утилиты PennConverter Главные составляющие – функциональные слова

Граф зависимостей – ориентированное дерево:

каждое слово в предложение представлено узлом в графеграф связныйу каждого узла есть только один главный узел, которому он

подчиняетсяв графе отсутствуют циклы

Page 36: Angelii rus

CoNLL PropBank Semantics Аннотации PropBank и NomBank “поверх” синтаксической разметки PennTreebank

Лексические главные состаляющие

У зависимой составляющей могут быть несколько синтаксических главных составляющих

Граф несвязный

Некоторые слова предложения семантически пусты и не представлены в графе

Page 37: Angelii rus

Stanford Basic Dependencies

Трансформирован из деревьев составляющих из PennTreebank Лексические главные состаляющие

Граф зависимостей – ориентированное дерево:

каждое слово в предложение представлено узлом в графе

граф связныйу каждого узла есть только один главный узел,

которому он подчиняетсяв графе отсутствуют циклы

Page 38: Angelii rus

Stanford Standard Dependencies

Главные составляющие – функциональные слова

Граф зависимостей не формирует дерево:Семантически “пустые” словамножественные главные составляющиециклы

Page 39: Angelii rus

Enju Predicate – Argument Structures (EP)

Лексические главные состаляющие

Полу-автоматически трансформирован из PennTreebank с помощью HPSG-преобразований

Граф зависимостей не формирует дерево

Page 40: Angelii rus

Введение

The LinGO Redwoods Treebank

Конвертер для Redwoodsтрансформация синтаксических деревьев

трансформация синтаксических зависимостей

Корпус PEST

Сравнительный анализ преобразованных

структур со стандартами

Заключение

План презентации

Page 41: Angelii rus

Выбор корня

A similar technique is almost impossible toapply to other crops, such as cotton,

soybeans and rice.

CoNLL Syntactic: isCoNLL PropBank: -Stanford Basic: impossibleStanford Standard: impossibleEnju Predicate-Argument Structures: isDELHP-IN Derivation Tree: isDELPH-IN MRS: almost

Page 42: Angelii rus

Союзы

A , B and C A , B and C

A , B and C A , B and C

A , B and C

A , B and C A , B and C

CoNLL Syntactic Dependencies CoNLL PropBank Dependencies

Stanford Basic Dependencies Stanford Standard Dependencies

Enju PAS

DELHP-IN Derivation Tree DELHP-IN MRS

Page 43: Angelii rus

Инфинитив

CoNLL syntactic Enju PAS to apply DELPH-IN Derivation Tree

Stanford Basic to apply Stanford Standard

CoNLL PropBank - DELPH-IN MRS

Page 44: Angelii rus

Артикли

CoNLL Syntactic Stanford Basic Stanford Standard a technique DELPH-IN Derivation Tree

Enju PAS DELPH-IN MRS a technique

CoNLL PropBank

Page 45: Angelii rus

Прилагательные

CoNLL Syntactic Stanford Basic Stanford Standard similar technique DELPH-IN Derivation Tree

Enju PAS DELPH-IN MRS similar technique

CoNLL PropBank -

Page 46: Angelii rus

Предлоги CoNLL Syntactic Stanford Basic crops such as

DELPH-IN Derevation Tree crops  such as

Enju PAS crops  such as DELPH-IN MRS crops  such as

CoNLL PropBank - Stanford Standard

Page 47: Angelii rus

“Сложные” прилагательные

A similar technique is almost impossible to apply

Удалённая связь выявлена в следующих форматах:

CoNLL PropBank Enju PAS DELPH-IN MRS

Page 48: Angelii rus

Попарное совпадение дуг зависимостей

Page 49: Angelii rus

Попарные значения коэффициента сходства

Jaccard

Page 50: Angelii rus

Введение

The LinGO Redwoods Treebank

Конвертер для Redwoodsтрансформация синтаксических деревьев

трансформация синтаксических зависимостей

Корпус PEST

Сравнительный анализ преобразованных

структур со стандартами

Заключение

План презентации

Page 51: Angelii rus

Заключение

● Различные форматы предлагают несхожие решения

● DELPH-IN Derivation Trees ближе всего к CoNLL Syntactic Dependencies

● DELPH-IN MRS ближе всего к Enju PAS

Page 52: Angelii rus

Будущая работа

● Закончить и опубликовать в свободном доступе конвертер

● Конвертировать корпус Redwoods в структуры зависимостей между отдельными словами

● Использовать Redwoods для экспериментов с синтаксическими анализаторами (парсерами)

Page 53: Angelii rus

Спасибо за внимание!