15
1 СИСТЕМА АВТОМАТИЗАЦИИ ИЗВЛЕЧЕНИЯ ТАБЛИЧНОЙ ИНФОРМАЦИИ ИЗ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ РАЗНЫХ ФОРМАТОВ Шигаров Алексей Олегович Институт динамики систем и теории управления СО РАН 664033, Россия, Иркутск, ул. Лермонтова, 134, тел. +7-3952-45-31-02, e-mail: [email protected] Черногория, Будва 2009

System for tabular information extraction from documents in various formats

Embed Size (px)

Citation preview

Page 1: System for tabular information extraction from documents in various formats

1

СИСТЕМА АВТОМАТИЗАЦИИ ИЗВЛЕЧЕНИЯТАБЛИЧНОЙ ИНФОРМАЦИИ

ИЗ ЭЛЕКТРОННЫХ ДОКУМЕНТОВРАЗНЫХ ФОРМАТОВ

Шигаров Алексей Олегович

Институт динамики систем и теории управления СО РАН

664033, Россия, Иркутск, ул. Лермонтова, 134,

тел. +7-3952-45-31-02, e-mail: [email protected]

Черногория, Будва — 2009

Page 2: System for tabular information extraction from documents in various formats

2 Введение

� Актуальность проблематики извлечения таблицподчеркивается в обзорах авторов Embley D.W. (2006), e Silva A.C. (2006), Handley J.C. (1999), Hurst M. (2000), Lopresti D. и Nagy G. (2000), Zanibbi R. (2004)

� Методы, системы и технологии извлечения таблиц издокументов необходимы для анализа документов, извлечения информации, управления данными

� Задачи извлечения таблиц из документов

1. Обнаружение таблиц

2. Сегментация таблицы

3. Анализ функций ячеек таблицы

4. Структурный анализ таблицы

Page 3: System for tabular information extraction from documents in various formats

3Известные методы и системыизвлечения таблиц

1. решают обычно только отдельные изперечисленных задач

2. ориентированы на

1. определенные структуры таблиц

2. форматы входных данных, в основном на

1. ASCII-текст (plain-text) без графического форматирования

2. Растровые изображения документов

3. Web-страницы формата HTML

Page 4: System for tabular information extraction from documents in various formats

4 Предлагаемая система

1. позволяет извлекать таблицы комплексно, т.е. выполняет все перечисленные задачи

2. ориентирована на таблицы

1. из статистических отчетов

2. представленные в электронных документах в видемашиночитаемого текста

3. использует метафайлы в качестве входныхданных

1. документы разных форматов могут печататься вметафайлы

2. в отличии от файлов PDF и PostScript метафайлы могутинтерпретироваться с помощью GDI (Graphics DeviceInterface, часть Windows API)

Page 5: System for tabular information extraction from documents in various formats

5 Пример структуры статистической таблицы

Page 6: System for tabular information extraction from documents in various formats

6Технология извлечения таблициз электронных документов

Page 7: System for tabular information extraction from documents in various formats

7 Обработка страниц документов

� Объекты страницы документа

Page 8: System for tabular information extraction from documents in various formats

8 Обработка страниц документов

� По записям метафайла формируются

1. Текстовые элементы (соответствуют «словам»)

2. Линейки (линии разграфки)

� Объекты на странице формируются снизу вверх

Page 9: System for tabular information extraction from documents in various formats

9 Обработка страниц документов

� Предобработка страницы� Исключение из текста текстовой разграфки (составленной из

символов псевдографики и ASCII символов)

� Обнаружение таблиц на странице документа

1. Текстовые элементы группируются в текстовые блоки

2. Текстовые блоки группируются в строки

Page 10: System for tabular information extraction from documents in various formats

10 Обработка страниц документов

� Обнаружение таблиц на странице документа

3. Строки табличного вида группируются в табличныерегионы

4. Табличные регионы группируются в табличныеобласти

Page 11: System for tabular information extraction from documents in various formats

11 Анализ и обработка таблиц

� Анализ функций ячеек таблицы� Функция (роль) ячейки зависит от её месторасположения

относительно базовой точки тела таблицы

� Поиск базовой точки тела таблицы

1. Область поиска сегментируется на ячейки

2. С помощью регулярных выражений и эвристик о заголовках непустыеячейки классифицируются по лексическому значению на «Даты», «Числа» и «Текст»

3. Тело содержит только «Числа» или специальные обозначения, илипустые ячейки

4. Y-координата базовой точки тела дополнительно корректируется

Page 12: System for tabular information extraction from documents in various formats

12 Анализ и обработка таблиц

� Сегментация таблицы

� Таблица сегментирована если имеет полнуюразграфку

� Выполняется восстановление полной разграфки

• Вертикальные линейки восстанавливаются по вертикальнымпромежуткам таблицы

• Горизонтальные линейки восстанавливаются погоризонтальным промежуткам таблицы и по ограничивающимпрямоугольникам строк таблицы

� Восстановленная разграфка таблицы корректируется спомощью её исходных линеек (при их наличии)

Page 13: System for tabular information extraction from documents in various formats

13 Анализ и обработка таблиц

� Структурное описание таблицы

� Структурный анализ таблицы включает

1. формирование1. дерева заголовков столбцов2. дерева заголовков строк3. дерева перерезов4. множества элементов данных

2. связывание элементов данных с заголовками

Page 14: System for tabular information extraction from documents in various formats

14XML представлениеструктурного описания таблицы

Page 15: System for tabular information extraction from documents in various formats

15 Заключение

� Интерпретация полученных XML представленийструктурных описаний таблиц зависит от конкретныхпредметных задач. Например, они могутпреобразовываться к отношениям в терминахреляционных баз данных

� Предлагаемая система обеспечиваетавтоматизированный ввод в базы данных большихобъемов информации из таблиц, содержащихся ввиде машиночитаемого текста в электронныхстатистических отчетах