Языковые корпуса

Языковые корпуса

Клишин Арсений, 424 группа

Понятие корпуса текста

• Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Классификация корпусовПризнак Типы корпусов

Тип данных •Письменные•Речевые•Смешанные

Язык текстов •Русский•Английский и т.д.

«Параллельность» •Одноязычные•Двуязычные•Многоязычные

Жанр •Литературные•Фольклорные•Драматургические•Публицистические

Целесообразность создания корпусов

• Целесообразность создания корпусов определяется тремя предпосылками: данные разного типа находятся в корпусе в своей естественной

контекстной форме, что создает возможность их всестороннего и объективного изучения

достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных

возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.

Помимо этого некоторые корпуса предоставляют возможность получения различных справок, относящихся к лексике, грамматике, акцентологии, истории языка.

Коротко о корпусной лингвистике

• 1960-е - Brown Corpus (500 фрагментов текстов по 2 тысячи слов).

• 1970-е - Частотный словарь Засориной по принципу BC (также ~1 млн. слов)

• 1980-е - British National Corpus; в СССР начался проект А.П.Ершова под названием “Машинный фонд русского языка”.

Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB).

Другие:• International Corpus of English.• Мангеймский корпус немецкого языка.• Чешский национальный корпус.• Уппсальский корпус русского языка.• Национальный корпус русского языка.• Корпусы китайского, турецкого, эстонского, албанского и

многих других языков

Науки, связанные с корпусамиИскусственный

интеллект Лингвистика

Компьютерная лингвистика

Корпусная лингвистика

Исследования в области корпусной лингвистики

• Cбор моно- и многоязычных корпусов текстов, средства кодирования и средства поиска в них

• Анализ языка с экспериментальной точки зрения, т.е. какие слова, выражения, грамматические конструкции, типы развития дискурса действительно употребляются носителями языка, как часто и для каких целей.

Проблемы корпусной лингвистики:

• Представительность корпуса– Корпус должен правильно отражать состояние

языка

• Представление результатов– поиск по запросу может выдавать сотни и даже

тысячи результатов

• Разметка и метаразметка текстов

Проблема представительности

• Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексико-грамматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса.

• Для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

Проблема представления результатов

• В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время.

Подробнее о метаразметке текстов

Метаданные – структурированные данные о данных.Метаданные служат для:• Классификации текстов• Автоматического обнаружения и обработки

данных.Из Максимов Лича:No annotation scheme has the a priori right to be No annotation scheme has the a priori right to be considered as a standard.considered as a standard.


Виды разметки: «внешняя», «интеллектуальная» разметка:

библиографические характеристикитипологические характеристики тематические характеристикисоциологические характеристики

«формальная», структурная разметка :текст, раздел, глава, часть, абзац, предложение и т.д.

технико-технологическая разметка:кодировкадаты обработкиисполнителиисточник электронной версии


Нужна: для выявления взаимосвязей в языке и изучения условий

его существования; для изучения отдельных подмножеств языка.Требуется унификация для возможности: многократного использования; совместимости с другими корпусами; совместимости с общепринятыми научными теориями; использование общих лингвистических процессоров совместимости с общепринятыми классификациями; применения стандартных программных средств.


Международные проекты и стандарты: Проект TEI (Text Encoding Initiative); рекомендации EAGLES (Expert Advisory Group on Language

Engineering Standards); стандарт CES (Corpus Encoding Standard); стандарт XCES (Corpus Encoding Standard for XML); проект ISLE (International Standards for Language

Engineering); стандарт CDIF (Corpus Document Interchange Format, BNC).

Пример метаразметки текста<teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru"><fileDesc><titleStmt> <title>Дом на набережной</title><author>Юрий Трифонов</author><extent type="w">45238</extent><extent type="u">4</extent><extent type="s">4132</extent></titleStmt><sourceDesc><respStmt><resp>Файл из Библиотеки Мошкова</resp></respStmt><address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address></sourceDesc></fileDesc>

Синтаксическая разметка

Составляющие:фиксация синтаксических связейприписывание синтаксическим единицам

соответствующих характеристик:• тип предложения • синтаксическая функция• член предложения • и т.п.


• Самая важная математическая система для моделирования структуры составляющих ЕЯ – контекстно-свободная грамматика Хомского (КСГ). Такие грамматики являются ядром многих формальных моделей синтаксиса естественных (а также формальных) языков и могут быть включены в разные приложения

• Правила КС могут применяться, чтобы снабдить любое предложение древовидной синтаксической структурой и, тем самым, образовать корпус, где каждое предложение размечено его деревом анализа.

• Такой синтаксически аннотированный корпус называется банком синтаксических деревьев (treebank).


• Наряду с КСГ, применяются и грамматики синтаксических зависимостей (ГЗ).

• Преимущество формализма зависимостей заключается в его строго предсказуемой силе. Так, зная глагол, мы можем определить, является ли данное существительное его субъектом или объектом. ГЗ позволяют обрабатывать языки со свободным порядком слов

• Существует много реализаций ГЗ, в том числе грамматика Мельчука (1979), Link Grammar6 (1993), Constraint Grammar [7] (1995) и др. ГЗ часто применяются для языков, отличных от английского, хотя и для английского языка создано несколько анализаторов.

Синтаксическая разметка• Самый известный банк составляющих – Penn Treebank в

Пеннсильванском университете.• Известный банк зависимостей – Пражский банк чешского языка

(Prague Dependency Bank). • Кроме того, имеются банки деревьев, в которых принято гибридное

представление синтаксической структуры, напр., TIGER Treebank для немецкого языка.

• Созданы специальные средства визуализации и редактирования деревьев, напр., Annotate, WordFreak.9

• Для осуществления поиска в банках деревьев создано несколько инструментальных средств, напр., tgrep, Tgrep2.10

Национальный корпус русского языка

Состав РНКЯ:• Основной корпус (тексты, представляющие русский

литературный язык)– современные письменные тексты– корпус живой русской речи– ранние тексты

• Глубоко аннотированный корпус• Корпус параллельных текстов• Корпус диалектных текстов• Корпус поэтических текстов• Обучающий корпус русского языка• Корпус устной речи

Национальный Корпус Русского Языка

Подкорпус Число текстов Число словоупотреблений

Основной корпус 42 387 147 577 522

в том числе со снятой омонимией 2 215 5 884 661

Диалектный корпус 122 144 099

Поэтический корпус 9 675 2 586 710

Обучающий корпус 230 649 684

Национальный Корпус Русского Языка

• Решения о морфологическом стандрте, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка

• Синтаксическая структура предложения, используемая в синтаксически размеченном корпусе (СинТагРус), представляет собой дерево зависимостей, в узлах которого стоят слова предложения, а ветви помечены именами синтаксических отношений. Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл Текст» ⇔И.А.Мельчука и А.К.Жолковского.

Классификация текстов РНКЯ• I. «Паспорт текста»

– Автор текста– Название текста– Время создания текста – Объем текста

• II.1. Художественные тексты– Жанр текста– Тип текста – Хронотоп текста

• II.2. Нехудожественные тексты– Сфера функционирования текста – Тип текста – Тематика текста

Классификация текстов РНКЯ• Классификация Синклера-ШароваВыделяются 2 фактора – внешние (E) и внутренние (I):• E1 (origin) — факторы, относящиеся к созданию текста

автором;E2 (state) — факторы, относящиеся к внешним признакам текста;E3 (aims) — факторы, относящиеся к целям создания текста и его влиянию на аудиторию.

• I1 (topic) — предметная область текста;I2 (style) — стилистические особенности.

Возможности поиска в РНКЯ

Помимо стандартного поиска точных форм в РНКЯ поддерживаются следующие инновационные формы поиска:• Лексико-грамматический поиск• Поиск по синтаксически размеченному

корпусу с возможностью вывода древовидной синтаксической структуры предложения

Лексико-грамматический поиск

Лексико-грамматический поиск

Поиск по синтаксически размеченному корпусу

Материалы:

• http://www.ruscorpora.ru/ (РНКЯ)• http://bokrcorpora.narod.ru/• лекции о корпусной лингвистике Захарова В.П. (Санкт-

Петербургский государственный университет)• http://www.dialog-21.ru (Конференция “Диалог”)• Статьи Е.Ю. Калининой• От синтаксиса к семантике – о выборе формализмов и

лингвистических ресурсов (Койт М.М., Роосмаа Т.А., Ыйм Х.Я., тартуский университет)

• Википедия

Documents

Языковые корпуса