37
Корпусы текстов и принципы их создания Панфилов Данила, 425 группа 2014

Панфилов. Корпусы текстов и принципы их создания

  • Upload
    -

  • View
    185

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Панфилов. Корпусы текстов и принципы их создания

Корпусы текстов и принципы их создания

Панфилов Данила, 425 группа

2014

Page 2: Панфилов. Корпусы текстов и принципы их создания

Содержание

• Введение

• Принципы создания корпусов

• Способы создания корпусов

• Научно-технические корпусы

2

Page 3: Панфилов. Корпусы текстов и принципы их создания

Введение

3

Page 4: Панфилов. Корпусы текстов и принципы их создания

Определения

• Корпус – это собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка

(Т. МакЭнери и Э. Вилсон)

• Корпусная лингвистика – раздел языкознания, занимающийся разработкой общих принципов построения и использования лингвистических корпусов

4

Page 5: Панфилов. Корпусы текстов и принципы их создания

Первый электронный корпус • Название: Брауновский корпус (The Brown Standard

Corpus of American English)

• Создатель: Брауновский университет, США, 1963 год

• Состав: 500 текстов по 2000 слов в каждом, из опубликованных в 1961 году

• Цель создания: системное изучение и сравнение жанров письменного английского языка

• Результаты: частотный и алфавитно-частотный словари, статистические распределения

• Следствие: стандарт в 1 млн словоупотреблений для создания представительных корпусов

5

Page 6: Панфилов. Корпусы текстов и принципы их создания

Типы корпусов

6

Признак Типы корпусов

Тип языковых данных Письменные, Устные, Смешанные

«Параллельность» Одноязычные, Двуязычные, Многоязычные

«Литературность» Литературные, Диалектные, Разговорные, Терминологические, Смешанные

Цель Многоцелевые, Специализированные

Доступность Свободно доступные, Коммерческие, Закрытые

Назначение Исследовательские, Иллюстративные

Динамичность Динамические (мониторные), Статические

Разметка Размеченные, Неразмеченные

Характер разметки Морфологические, Синтаксические, Семантические, Просодические и т.д.

Объем текстов Полнотекстовые, «Фрагментнотекстовые»

Page 7: Панфилов. Корпусы текстов и принципы их создания

Современные корпусы

• Смешанный тип языковых данных (письменные + устные)

• Преимущественно одноязычные

• Ориентированы на решение многих лингвистических задач

• Представляют множество стилей и жанров

• Размеченные (хотя бы частично)

7

Page 8: Панфилов. Корпусы текстов и принципы их создания

Примеры корпусов

• Британский национальный корпус (British National Corpus – BNC)

• Международный корпус английского языка (International Corpus of English – ICE)

• НКРЯ - Национальный корпус русского языка

• Russian TenTen corpus (ruTenTen, The Sketch Engine)

• Мангеймский корпус немецкого языка (Deutsches Referenzkorpus или DeReKo)

8

Page 9: Панфилов. Корпусы текстов и принципы их создания

BNC и НКРЯ

Корпус BNC НКРЯ

Название Британский

национальный корпус Национальный корпус

русского языка

Дата создания Февраль 1995 года Апрель 2004 года

Кол-во слов 100 млн. 364 881 378

Язык Английский Русский/Английский/…

Речь Письменная и устная Письменная и устная

Жанр/Стиль Многожанровый,

многостилевой Многожанровый,

многостилевой

Разметка Стандарт TEI Собственная упрощённая

9

Page 10: Панфилов. Корпусы текстов и принципы их создания

Принципы создания корпусов

10

Page 11: Панфилов. Корпусы текстов и принципы их создания

Создание корпусов

• Цель создания

• Логическая идея

• Ориентация на репрезентативность

• Наличие метаинформации

• Электронный вид и многократное использование

11

Page 12: Панфилов. Корпусы текстов и принципы их создания

Цель создания

• Проведение лингвистических исследований (анализ, запросы, сравнения)

• Проведение статистических исследований

• Проверки теорий, гипотез, правил

• Построение языковых моделей

• Использование в задачах автоматической обработки текстов

12

Page 13: Панфилов. Корпусы текстов и принципы их создания

Цель создания НКРЯ и BNC

• Общее: Обеспечения научных исследований лексики и грамматики языка

• Особенность НКРЯ: отслеживание процессов языковых изменений (за последние два столетия), предоставление справок в областях лексики, грамматики, акцентологии, истории языка

• Особенность BNC: преподавание языка, исследования в области ИИ и обработки текстов, поиск и извлечение информации

13

Page 14: Панфилов. Корпусы текстов и принципы их создания

Логическая идея

• Максимально широкое покрытие различных типов, функциональных стилей текстов

• Представление языковых данных в реальном контексте

• Покрытие наиболее часто встречающихся языковых явлений

• Отражение современного состояния языка

• Доступность пользователю

14

Page 15: Панфилов. Корпусы текстов и принципы их создания

Логическая идея НКРЯ и BNC

• Общее: тексты должны входить в корпус по возможности пропорционально их доле в языке соответствующего периода

• Особенность НКРЯ: представление по возможности всеx видов письменных и устных текстов

• Особенность BNC: тексты должны представлять язык в целом, а не показывать отдельные его виды

15

Page 16: Панфилов. Корпусы текстов и принципы их создания

Репрезентативность

• Соответствие цели создания

• Способность отражать все изучаемые языковые явления

• Необходимо-достаточное и пропорциональное представление в корпусе различных периодов, жанров, стилей, авторов и т. д. в рамках цели и идеи создания

16

Page 17: Панфилов. Корпусы текстов и принципы их создания

Репрезентативность НКРЯ и BNC

• Общее: корпусы содержат все виды письменных и устных текстов

• Особенность НКРЯ: тексты входят в корпус пропорционально их доле в языке соответствующего периода

• Особенность BNC: 90 % текстов представляют письменный язык, а 10 % текстов – устный (пропорциональность «современного» английского языка)

17

Page 18: Панфилов. Корпусы текстов и принципы их создания

Метаинформация • Метаинформация – структурированные

данные об информации, представленной в тексте

• Служит для автоматического обнаружения и обработки данных

• Используется для классификации текстов в корпусе

• В качестве формального языка разметки текстов широко применяются языки SGML и XML

18

Page 19: Панфилов. Корпусы текстов и принципы их создания

Виды разметки

• Экстралингвистическая (метаразметка): автор, название, год и место издания, жанр, тематика и т. д.

• Структурная: главы, абзацы, предложения, словоформы и т. д.

• Лингвистическая: морфологическая, морфо-синтаксическая (частеречная), синтаксическая, семантическую и т. д.

19

Page 20: Панфилов. Корпусы текстов и принципы их создания

Стандарты разметки

• проект TEI (Text Encoding Initiative) • рекомендации EAGLES (Expert Advisory Group

on Language Engineering Standards) • стандарт CES (Corpus Encoding Standard) • стандарт XCES (Corpus Encoding Standard for

XML) • проект ISLE (International Standards for

Language Engineering) • стандарт CDIF (Corpus Document Interchange

Format, BNC)

20

Page 21: Панфилов. Корпусы текстов и принципы их создания

Метаинформация НКРЯ и BNC

• Общее: автор текста, название текста, время и место создания текста, объем текста, жанр текста, тип текста

• Особенность НКРЯ: имплицитная метаразметка «текст-стиль», «аудитория – возраст», «аудитория – уровень образования», «аудитория – размер»

• Особенность BNC: разметка в формате TEI по стандарту XML, речевые обороты, паузы, и паралингвистические особенности, такие как смех в разговорных текстах

21

Page 22: Панфилов. Корпусы текстов и принципы их создания

Лингвистическая разметка BNC

Морфологическая разметка:

<w c5="VVD" hw="say" pos="VERB">said </w>

<w c5="NP0" hw="owen" pos="SUBST">Owen</w>

<c c5="PUN">,</c>

<c c5="PUQ">‘</c>

<w c5="AVQ" hw="where" pos="ADV">where</w>

<w c5="VBZ" hw="be" pos="VERB">is </w>

<w c5="AT0" hw="the" pos="ART">the </w>

<w c5="NN1" hw="body" pos="SUBST">body</w>

22

Page 23: Панфилов. Корпусы текстов и принципы их создания

Лингвистическая разметка НКРЯ

23

Синтаксическая разметка:

Page 24: Панфилов. Корпусы текстов и принципы их создания

Электронный вид

Корпус

Данные Корпусный менеджер

24

• Корпусный менеджер – поисковая система для поиска данных в корпусе, получения статистической информации и предоставления пользователю результатов в удобной форме

Page 25: Панфилов. Корпусы текстов и принципы их создания

Электронный вид НКРЯ и BNC

• Общее: корпусы доступны через web-интерфейсы, возможна частичная выгрузка и работа с ними в офлайн режиме

• Особенность НКРЯ: используется корпусный менеджер на основе системы Яндекс.Сервер

• Особенность BNC: последняя реализация BNC XML Edition работает совместно с корпусным менеджером Xaira

25

Page 26: Панфилов. Корпусы текстов и принципы их создания

Способы создания корпусов

26

Page 27: Панфилов. Корпусы текстов и принципы их создания

Способы и инструменты создания корпусов

Способы:

• Ручной ввод

• Сканирование текстов

• Преобразование имеющихся корпусов

• Выборка из интернета (вручную или автоматически)

Инструменты:

• BootCaT

• Sketch Engine

27

Page 28: Панфилов. Корпусы текстов и принципы их создания

От текстов к корпусу

1. Поступление текстов из источников в машиночитаемой форме

2. Корректировка текстов, конвертирование и графематический анализ

3. Разметка текста 4. Исправление ошибок и снятие

неоднозначности 5. Подключение корпусного менеджера 6. Обеспечение прав доступа к корпусу и

документирование

28

Page 29: Панфилов. Корпусы текстов и принципы их создания

BootCaT

• Bootstrapping Corpora and Terms – инструмент, позволяющий создать корпус по данным из интернета

• На входе – несколько исходных термов (seed terms)

• По ним с помощью автоматизированных запросов Google строится корпус, из которого извлекаются новые термы

• Процесс повторяется итерационно несколько раз

29

Page 30: Панфилов. Корпусы текстов и принципы их создания

Схема работы BootCaT

30

Автоматизированные запросы Google (Queries)

Создание корпуса

Извлечение новых термов (Unigram Terms)

Извлечение многословных термов (Multi-Word Terms)

Выбор исходных термов (Seeds)

Page 31: Панфилов. Корпусы текстов и принципы их создания

Sketch Engine

Sketch Engine – корпусный менеджер, предоставляющий такие возможности, как: • создание корпусов по заданным словам на

базе Интернет • создание корпусов по исходным документам • сравнение корпусов • просмотр параллельных корпусов • вычисление статистики по запросам • формирование списка слов по определенному

критерию

31

Page 32: Панфилов. Корпусы текстов и принципы их создания

Научно-технические корпусы

32

Page 33: Панфилов. Корпусы текстов и принципы их создания

Научно-технические корпусы (НТК)

• CorTec – англо-португальский корпус (экотуризм, информационные технологии, кардиология, юридические документы, кулинарные рецепты)

• The Coruña Corpus of English Scientific Writing (естественные науки, инженерия и техника, медицина, сельскохозяйственные, социальные и гуманитарные науки)

• Galician Technical Corpus – корпус на галисийском языке (юриспруденция, экология, экономика, информационные технологии, социология, медицина)

33

Page 34: Панфилов. Корпусы текстов и принципы их создания

НТК в НКРЯ

• В основном корпусе среди нехудожественной литературы можно выделить учебно-научную сферу

• 5 994 документа

• 1 711 286 предложений

• 27 992 504 слова

• Не встречаются словосочетания «машинное обучение», «математическое ожидание», «лингвистический корпус»

34

Page 35: Панфилов. Корпусы текстов и принципы их создания

НТК в BNC

• BNC содержит тексты по естественно-научной тематике, прикладной науке и социальной науке

• 1042 текста

• 1 238 264 s-элементов (фраз)

• 25 021 591 w-элементов (слов)

• Словосочетание «data mining» встречается 1 раз (и связано с горнодобывающей компанией), «linguistic corpora» встречается 1 раз

35

Page 36: Панфилов. Корпусы текстов и принципы их создания

Литература

• В.П. Захаров, С.Ю. Богданова «КОРПУСНАЯ ЛИНГВИСТИКА», Иркутск, ИГЛУ, 2011

• http://www.ruscorpora.ru

• http://www.natcorp.ox.ac.uk

• http://bokrcorpora.narod.ru

• http://opencorpora.org

• http://bootcat.sslmit.unibo.it

• http://www.sketchengine.co.uk

36

Page 37: Панфилов. Корпусы текстов и принципы их создания

Спасибо за внимание!

37