Панфилов. Корпусы текстов и принципы их создания

Preview:

Citation preview

Корпусы текстов и принципы их создания

Панфилов Данила, 425 группа

2014

Содержание

• Введение

• Принципы создания корпусов

• Способы создания корпусов

• Научно-технические корпусы

2

Введение

3

Определения

• Корпус – это собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка

(Т. МакЭнери и Э. Вилсон)

• Корпусная лингвистика – раздел языкознания, занимающийся разработкой общих принципов построения и использования лингвистических корпусов

4

Первый электронный корпус • Название: Брауновский корпус (The Brown Standard

Corpus of American English)

• Создатель: Брауновский университет, США, 1963 год

• Состав: 500 текстов по 2000 слов в каждом, из опубликованных в 1961 году

• Цель создания: системное изучение и сравнение жанров письменного английского языка

• Результаты: частотный и алфавитно-частотный словари, статистические распределения

• Следствие: стандарт в 1 млн словоупотреблений для создания представительных корпусов

5

Типы корпусов

6

Признак Типы корпусов

Тип языковых данных Письменные, Устные, Смешанные

«Параллельность» Одноязычные, Двуязычные, Многоязычные

«Литературность» Литературные, Диалектные, Разговорные, Терминологические, Смешанные

Цель Многоцелевые, Специализированные

Доступность Свободно доступные, Коммерческие, Закрытые

Назначение Исследовательские, Иллюстративные

Динамичность Динамические (мониторные), Статические

Разметка Размеченные, Неразмеченные

Характер разметки Морфологические, Синтаксические, Семантические, Просодические и т.д.

Объем текстов Полнотекстовые, «Фрагментнотекстовые»

Современные корпусы

• Смешанный тип языковых данных (письменные + устные)

• Преимущественно одноязычные

• Ориентированы на решение многих лингвистических задач

• Представляют множество стилей и жанров

• Размеченные (хотя бы частично)

7

Примеры корпусов

• Британский национальный корпус (British National Corpus – BNC)

• Международный корпус английского языка (International Corpus of English – ICE)

• НКРЯ - Национальный корпус русского языка

• Russian TenTen corpus (ruTenTen, The Sketch Engine)

• Мангеймский корпус немецкого языка (Deutsches Referenzkorpus или DeReKo)

8

BNC и НКРЯ

Корпус BNC НКРЯ

Название Британский

национальный корпус Национальный корпус

русского языка

Дата создания Февраль 1995 года Апрель 2004 года

Кол-во слов 100 млн. 364 881 378

Язык Английский Русский/Английский/…

Речь Письменная и устная Письменная и устная

Жанр/Стиль Многожанровый,

многостилевой Многожанровый,

многостилевой

Разметка Стандарт TEI Собственная упрощённая

9

Принципы создания корпусов

10

Создание корпусов

• Цель создания

• Логическая идея

• Ориентация на репрезентативность

• Наличие метаинформации

• Электронный вид и многократное использование

11

Цель создания

• Проведение лингвистических исследований (анализ, запросы, сравнения)

• Проведение статистических исследований

• Проверки теорий, гипотез, правил

• Построение языковых моделей

• Использование в задачах автоматической обработки текстов

12

Цель создания НКРЯ и BNC

• Общее: Обеспечения научных исследований лексики и грамматики языка

• Особенность НКРЯ: отслеживание процессов языковых изменений (за последние два столетия), предоставление справок в областях лексики, грамматики, акцентологии, истории языка

• Особенность BNC: преподавание языка, исследования в области ИИ и обработки текстов, поиск и извлечение информации

13

Логическая идея

• Максимально широкое покрытие различных типов, функциональных стилей текстов

• Представление языковых данных в реальном контексте

• Покрытие наиболее часто встречающихся языковых явлений

• Отражение современного состояния языка

• Доступность пользователю

14

Логическая идея НКРЯ и BNC

• Общее: тексты должны входить в корпус по возможности пропорционально их доле в языке соответствующего периода

• Особенность НКРЯ: представление по возможности всеx видов письменных и устных текстов

• Особенность BNC: тексты должны представлять язык в целом, а не показывать отдельные его виды

15

Репрезентативность

• Соответствие цели создания

• Способность отражать все изучаемые языковые явления

• Необходимо-достаточное и пропорциональное представление в корпусе различных периодов, жанров, стилей, авторов и т. д. в рамках цели и идеи создания

16

Репрезентативность НКРЯ и BNC

• Общее: корпусы содержат все виды письменных и устных текстов

• Особенность НКРЯ: тексты входят в корпус пропорционально их доле в языке соответствующего периода

• Особенность BNC: 90 % текстов представляют письменный язык, а 10 % текстов – устный (пропорциональность «современного» английского языка)

17

Метаинформация • Метаинформация – структурированные

данные об информации, представленной в тексте

• Служит для автоматического обнаружения и обработки данных

• Используется для классификации текстов в корпусе

• В качестве формального языка разметки текстов широко применяются языки SGML и XML

18

Виды разметки

• Экстралингвистическая (метаразметка): автор, название, год и место издания, жанр, тематика и т. д.

• Структурная: главы, абзацы, предложения, словоформы и т. д.

• Лингвистическая: морфологическая, морфо-синтаксическая (частеречная), синтаксическая, семантическую и т. д.

19

Стандарты разметки

• проект TEI (Text Encoding Initiative) • рекомендации EAGLES (Expert Advisory Group

on Language Engineering Standards) • стандарт CES (Corpus Encoding Standard) • стандарт XCES (Corpus Encoding Standard for

XML) • проект ISLE (International Standards for

Language Engineering) • стандарт CDIF (Corpus Document Interchange

Format, BNC)

20

Метаинформация НКРЯ и BNC

• Общее: автор текста, название текста, время и место создания текста, объем текста, жанр текста, тип текста

• Особенность НКРЯ: имплицитная метаразметка «текст-стиль», «аудитория – возраст», «аудитория – уровень образования», «аудитория – размер»

• Особенность BNC: разметка в формате TEI по стандарту XML, речевые обороты, паузы, и паралингвистические особенности, такие как смех в разговорных текстах

21

Лингвистическая разметка BNC

Морфологическая разметка:

<w c5="VVD" hw="say" pos="VERB">said </w>

<w c5="NP0" hw="owen" pos="SUBST">Owen</w>

<c c5="PUN">,</c>

<c c5="PUQ">‘</c>

<w c5="AVQ" hw="where" pos="ADV">where</w>

<w c5="VBZ" hw="be" pos="VERB">is </w>

<w c5="AT0" hw="the" pos="ART">the </w>

<w c5="NN1" hw="body" pos="SUBST">body</w>

22

Лингвистическая разметка НКРЯ

23

Синтаксическая разметка:

Электронный вид

Корпус

Данные Корпусный менеджер

24

• Корпусный менеджер – поисковая система для поиска данных в корпусе, получения статистической информации и предоставления пользователю результатов в удобной форме

Электронный вид НКРЯ и BNC

• Общее: корпусы доступны через web-интерфейсы, возможна частичная выгрузка и работа с ними в офлайн режиме

• Особенность НКРЯ: используется корпусный менеджер на основе системы Яндекс.Сервер

• Особенность BNC: последняя реализация BNC XML Edition работает совместно с корпусным менеджером Xaira

25

Способы создания корпусов

26

Способы и инструменты создания корпусов

Способы:

• Ручной ввод

• Сканирование текстов

• Преобразование имеющихся корпусов

• Выборка из интернета (вручную или автоматически)

Инструменты:

• BootCaT

• Sketch Engine

27

От текстов к корпусу

1. Поступление текстов из источников в машиночитаемой форме

2. Корректировка текстов, конвертирование и графематический анализ

3. Разметка текста 4. Исправление ошибок и снятие

неоднозначности 5. Подключение корпусного менеджера 6. Обеспечение прав доступа к корпусу и

документирование

28

BootCaT

• Bootstrapping Corpora and Terms – инструмент, позволяющий создать корпус по данным из интернета

• На входе – несколько исходных термов (seed terms)

• По ним с помощью автоматизированных запросов Google строится корпус, из которого извлекаются новые термы

• Процесс повторяется итерационно несколько раз

29

Схема работы BootCaT

30

Автоматизированные запросы Google (Queries)

Создание корпуса

Извлечение новых термов (Unigram Terms)

Извлечение многословных термов (Multi-Word Terms)

Выбор исходных термов (Seeds)

Sketch Engine

Sketch Engine – корпусный менеджер, предоставляющий такие возможности, как: • создание корпусов по заданным словам на

базе Интернет • создание корпусов по исходным документам • сравнение корпусов • просмотр параллельных корпусов • вычисление статистики по запросам • формирование списка слов по определенному

критерию

31

Научно-технические корпусы

32

Научно-технические корпусы (НТК)

• CorTec – англо-португальский корпус (экотуризм, информационные технологии, кардиология, юридические документы, кулинарные рецепты)

• The Coruña Corpus of English Scientific Writing (естественные науки, инженерия и техника, медицина, сельскохозяйственные, социальные и гуманитарные науки)

• Galician Technical Corpus – корпус на галисийском языке (юриспруденция, экология, экономика, информационные технологии, социология, медицина)

33

НТК в НКРЯ

• В основном корпусе среди нехудожественной литературы можно выделить учебно-научную сферу

• 5 994 документа

• 1 711 286 предложений

• 27 992 504 слова

• Не встречаются словосочетания «машинное обучение», «математическое ожидание», «лингвистический корпус»

34

НТК в BNC

• BNC содержит тексты по естественно-научной тематике, прикладной науке и социальной науке

• 1042 текста

• 1 238 264 s-элементов (фраз)

• 25 021 591 w-элементов (слов)

• Словосочетание «data mining» встречается 1 раз (и связано с горнодобывающей компанией), «linguistic corpora» встречается 1 раз

35

Литература

• В.П. Захаров, С.Ю. Богданова «КОРПУСНАЯ ЛИНГВИСТИКА», Иркутск, ИГЛУ, 2011

• http://www.ruscorpora.ru

• http://www.natcorp.ox.ac.uk

• http://bokrcorpora.narod.ru

• http://opencorpora.org

• http://bootcat.sslmit.unibo.it

• http://www.sketchengine.co.uk

36

Спасибо за внимание!

37

Recommended