System for tabular information extraction from documents in various formats

1

СИСТЕМА АВТОМАТИЗАЦИИ ИЗВЛЕЧЕНИЯТАБЛИЧНОЙ ИНФОРМАЦИИ

ИЗ ЭЛЕКТРОННЫХ ДОКУМЕНТОВРАЗНЫХ ФОРМАТОВ

Шигаров Алексей Олегович

Институт динамики систем и теории управления СО РАН

664033, Россия, Иркутск, ул. Лермонтова, 134,

тел. +7-3952-45-31-02, e-mail: [email protected]

Черногория, Будва — 2009

2 Введение

� Актуальность проблематики извлечения таблицподчеркивается в обзорах авторов Embley D.W. (2006), e Silva A.C. (2006), Handley J.C. (1999), Hurst M. (2000), Lopresti D. и Nagy G. (2000), Zanibbi R. (2004)

� Методы, системы и технологии извлечения таблиц издокументов необходимы для анализа документов, извлечения информации, управления данными

� Задачи извлечения таблиц из документов

1. Обнаружение таблиц

2. Сегментация таблицы

3. Анализ функций ячеек таблицы

4. Структурный анализ таблицы

3Известные методы и системыизвлечения таблиц

1. решают обычно только отдельные изперечисленных задач

2. ориентированы на

1. определенные структуры таблиц

2. форматы входных данных, в основном на

1. ASCII-текст (plain-text) без графического форматирования

2. Растровые изображения документов

3. Web-страницы формата HTML

4 Предлагаемая система

1. позволяет извлекать таблицы комплексно, т.е. выполняет все перечисленные задачи

2. ориентирована на таблицы

1. из статистических отчетов

2. представленные в электронных документах в видемашиночитаемого текста

3. использует метафайлы в качестве входныхданных

1. документы разных форматов могут печататься вметафайлы

2. в отличии от файлов PDF и PostScript метафайлы могутинтерпретироваться с помощью GDI (Graphics DeviceInterface, часть Windows API)

5 Пример структуры статистической таблицы

6Технология извлечения таблициз электронных документов

7 Обработка страниц документов

� Объекты страницы документа


� По записям метафайла формируются

1. Текстовые элементы (соответствуют «словам»)

2. Линейки (линии разграфки)

� Объекты на странице формируются снизу вверх


� Предобработка страницы� Исключение из текста текстовой разграфки (составленной из

символов псевдографики и ASCII символов)

� Обнаружение таблиц на странице документа

1. Текстовые элементы группируются в текстовые блоки

2. Текстовые блоки группируются в строки


� Обнаружение таблиц на странице документа

3. Строки табличного вида группируются в табличныерегионы

4. Табличные регионы группируются в табличныеобласти

11 Анализ и обработка таблиц

� Анализ функций ячеек таблицы� Функция (роль) ячейки зависит от её месторасположения

относительно базовой точки тела таблицы

� Поиск базовой точки тела таблицы

1. Область поиска сегментируется на ячейки

2. С помощью регулярных выражений и эвристик о заголовках непустыеячейки классифицируются по лексическому значению на «Даты», «Числа» и «Текст»

3. Тело содержит только «Числа» или специальные обозначения, илипустые ячейки

4. Y-координата базовой точки тела дополнительно корректируется


� Сегментация таблицы

� Таблица сегментирована если имеет полнуюразграфку

� Выполняется восстановление полной разграфки

• Вертикальные линейки восстанавливаются по вертикальнымпромежуткам таблицы

• Горизонтальные линейки восстанавливаются погоризонтальным промежуткам таблицы и по ограничивающимпрямоугольникам строк таблицы

� Восстановленная разграфка таблицы корректируется спомощью её исходных линеек (при их наличии)


� Структурное описание таблицы

� Структурный анализ таблицы включает

1. формирование1. дерева заголовков столбцов2. дерева заголовков строк3. дерева перерезов4. множества элементов данных

2. связывание элементов данных с заголовками

14XML представлениеструктурного описания таблицы

15 Заключение

� Интерпретация полученных XML представленийструктурных описаний таблиц зависит от конкретныхпредметных задач. Например, они могутпреобразовываться к отношениям в терминахреляционных баз данных

� Предлагаемая система обеспечиваетавтоматизированный ввод в базы данных большихобъемов информации из таблиц, содержащихся ввиде машиночитаемого текста в электронныхстатистических отчетах

Science

System for tabular information extraction from documents in various formats