29
Языковые корпуса Клишин Арсений, 424 группа

Языковые корпуса

  • Upload
    -

  • View
    3.942

  • Download
    5

Embed Size (px)

DESCRIPTION

20 апреля 2010 Клишин Арсений

Citation preview

Page 1: Языковые корпуса

Языковые корпуса

Клишин Арсений, 424 группа

Page 2: Языковые корпуса

Понятие корпуса текста

• Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Page 3: Языковые корпуса

Классификация корпусовПризнак Типы корпусов

Тип данных •Письменные•Речевые•Смешанные

Язык текстов •Русский•Английский и т.д.

«Параллельность» •Одноязычные•Двуязычные•Многоязычные

Жанр •Литературные•Фольклорные•Драматургические•Публицистические

Page 4: Языковые корпуса

Целесообразность создания корпусов

• Целесообразность создания корпусов определяется тремя предпосылками: данные разного типа находятся в корпусе в своей естественной

контекстной форме, что создает возможность их всестороннего и объективного изучения

достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных

возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.

Помимо этого некоторые корпуса предоставляют возможность получения различных справок, относящихся к лексике, грамматике, акцентологии, истории языка.

Page 5: Языковые корпуса

Коротко о корпусной лингвистике

• 1960-е - Brown Corpus (500 фрагментов текстов по 2 тысячи слов).

• 1970-е - Частотный словарь Засориной по принципу BC (также ~1 млн. слов)

• 1980-е - British National Corpus; в СССР начался проект А.П.Ершова под названием “Машинный фонд русского языка”.

Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB).

Другие:• International Corpus of English.• Мангеймский корпус немецкого языка.• Чешский национальный корпус.• Уппсальский корпус русского языка.• Национальный корпус русского языка.• Корпусы китайского, турецкого, эстонского, албанского и

многих других языков

Page 6: Языковые корпуса

Науки, связанные с корпусамиИскусственный

интеллект Лингвистика

Компьютерная лингвистика

Корпусная лингвистика

Page 7: Языковые корпуса

Исследования в области корпусной лингвистики

• Cбор моно- и многоязычных корпусов текстов, средства кодирования и средства поиска в них

• Анализ языка с экспериментальной точки зрения, т.е. какие слова, выражения, грамматические конструкции, типы развития дискурса действительно употребляются носителями языка, как часто и для каких целей.

Page 8: Языковые корпуса

Проблемы корпусной лингвистики:

• Представительность корпуса– Корпус должен правильно отражать состояние

языка

• Представление результатов– поиск по запросу может выдавать сотни и даже

тысячи результатов

• Разметка и метаразметка текстов

Page 9: Языковые корпуса

Проблема представительности

• Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексико-грамматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса.

• Для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

Page 10: Языковые корпуса

Проблема представления результатов

• В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время.

Page 11: Языковые корпуса

Подробнее о метаразметке текстов

Метаданные – структурированные данные о данных.Метаданные служат для:• Классификации текстов• Автоматического обнаружения и обработки

данных.Из Максимов Лича:No annotation scheme has the a priori right to be No annotation scheme has the a priori right to be considered as a standard.considered as a standard.

Page 12: Языковые корпуса

Подробнее о метаразметке текстов

Виды разметки: «внешняя», «интеллектуальная» разметка:

библиографические характеристикитипологические характеристики тематические характеристикисоциологические характеристики

«формальная», структурная разметка :текст, раздел, глава, часть, абзац, предложение и т.д.

технико-технологическая разметка:кодировкадаты обработкиисполнителиисточник электронной версии

Page 13: Языковые корпуса

Подробнее о метаразметке текстов

Нужна: для выявления взаимосвязей в языке и изучения условий

его существования; для изучения отдельных подмножеств языка.Требуется унификация для возможности: многократного использования; совместимости с другими корпусами; совместимости с общепринятыми научными теориями; использование общих лингвистических процессоров совместимости с общепринятыми классификациями; применения стандартных программных средств.

Page 14: Языковые корпуса

Подробнее о метаразметке текстов

Международные проекты и стандарты: Проект TEI (Text Encoding Initiative); рекомендации EAGLES (Expert Advisory Group on Language

Engineering Standards); стандарт CES (Corpus Encoding Standard); стандарт XCES (Corpus Encoding Standard for XML); проект ISLE (International Standards for Language

Engineering); стандарт CDIF (Corpus Document Interchange Format, BNC).

Page 15: Языковые корпуса

Пример метаразметки текста<teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru"><fileDesc><titleStmt> <title>Дом на набережной</title><author>Юрий Трифонов</author><extent type="w">45238</extent><extent type="u">4</extent><extent type="s">4132</extent></titleStmt><sourceDesc><respStmt><resp>Файл из Библиотеки Мошкова</resp></respStmt><address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address></sourceDesc></fileDesc>

Page 16: Языковые корпуса

Синтаксическая разметка

Составляющие:фиксация синтаксических связейприписывание синтаксическим единицам

соответствующих характеристик:• тип предложения • синтаксическая функция• член предложения • и т.п.

Page 17: Языковые корпуса

Синтаксическая разметка

• Самая важная математическая система для моделирования структуры составляющих ЕЯ – контекстно-свободная грамматика Хомского (КСГ). Такие грамматики являются ядром многих формальных моделей синтаксиса естественных (а также формальных) языков и могут быть включены в разные приложения

• Правила КС могут применяться, чтобы снабдить любое предложение древовидной синтаксической структурой и, тем самым, образовать корпус, где каждое предложение размечено его деревом анализа.

• Такой синтаксически аннотированный корпус называется банком синтаксических деревьев (treebank).

Page 18: Языковые корпуса

Синтаксическая разметка

• Наряду с КСГ, применяются и грамматики синтаксических зависимостей (ГЗ).

• Преимущество формализма зависимостей заключается в его строго предсказуемой силе. Так, зная глагол, мы можем определить, является ли данное существительное его субъектом или объектом. ГЗ позволяют обрабатывать языки со свободным порядком слов

• Существует много реализаций ГЗ, в том числе грамматика Мельчука (1979), Link Grammar6 (1993), Constraint Grammar [7] (1995) и др. ГЗ часто применяются для языков, отличных от английского, хотя и для английского языка создано несколько анализаторов.

Page 19: Языковые корпуса

Синтаксическая разметка• Самый известный банк составляющих – Penn Treebank в

Пеннсильванском университете.• Известный банк зависимостей – Пражский банк чешского языка

(Prague Dependency Bank). • Кроме того, имеются банки деревьев, в которых принято гибридное

представление синтаксической структуры, напр., TIGER Treebank для немецкого языка.

• Созданы специальные средства визуализации и редактирования деревьев, напр., Annotate, WordFreak.9

• Для осуществления поиска в банках деревьев создано несколько инструментальных средств, напр., tgrep, Tgrep2.10

Page 20: Языковые корпуса

Национальный корпус русского языка

Состав РНКЯ:• Основной корпус (тексты, представляющие русский

литературный язык)– современные письменные тексты– корпус живой русской речи– ранние тексты

• Глубоко аннотированный корпус• Корпус параллельных текстов• Корпус диалектных текстов• Корпус поэтических текстов• Обучающий корпус русского языка• Корпус устной речи

Page 21: Языковые корпуса

Национальный Корпус Русского Языка

Подкорпус Число текстов Число словоупотреблений

Основной корпус 42 387 147 577 522

в том числе со снятой омонимией 2 215 5 884 661

Диалектный корпус 122 144 099

Поэтический корпус 9 675 2 586 710

Обучающий корпус 230 649 684

Page 22: Языковые корпуса

Национальный Корпус Русского Языка

• Решения о морфологическом стандрте, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка

• Синтаксическая структура предложения, используемая в синтаксически размеченном корпусе (СинТагРус), представляет собой дерево зависимостей, в узлах которого стоят слова предложения, а ветви помечены именами синтаксических отношений. Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл Текст» ⇔И.А.Мельчука и А.К.Жолковского.

Page 23: Языковые корпуса

Классификация текстов РНКЯ• I. «Паспорт текста»

– Автор текста– Название текста– Время создания текста – Объем текста

• II.1. Художественные тексты– Жанр текста– Тип текста – Хронотоп текста

• II.2. Нехудожественные тексты– Сфера функционирования текста – Тип текста – Тематика текста

Page 24: Языковые корпуса

Классификация текстов РНКЯ• Классификация Синклера-ШароваВыделяются 2 фактора – внешние (E) и внутренние (I):• E1 (origin) — факторы, относящиеся к созданию текста

автором;E2 (state) — факторы, относящиеся к внешним признакам текста;E3 (aims) — факторы, относящиеся к целям создания текста и его влиянию на аудиторию.

• I1 (topic) — предметная область текста;I2 (style) — стилистические особенности.

Page 25: Языковые корпуса

Возможности поиска в РНКЯ

Помимо стандартного поиска точных форм в РНКЯ поддерживаются следующие инновационные формы поиска:• Лексико-грамматический поиск• Поиск по синтаксически размеченному

корпусу с возможностью вывода древовидной синтаксической структуры предложения

Page 26: Языковые корпуса

Лексико-грамматический поиск

Page 27: Языковые корпуса

Лексико-грамматический поиск

Page 28: Языковые корпуса

Поиск по синтаксически размеченному корпусу

Page 29: Языковые корпуса

Материалы:

• http://www.ruscorpora.ru/ (РНКЯ)• http://bokrcorpora.narod.ru/• лекции о корпусной лингвистике Захарова В.П. (Санкт-

Петербургский государственный университет)• http://www.dialog-21.ru (Конференция “Диалог”)• Статьи Е.Ю. Калининой• От синтаксиса к семантике – о выборе формализмов и

лингвистических ресурсов (Койт М.М., Роосмаа Т.А., Ыйм Х.Я., тартуский университет)

• Википедия