32
Технология извлечения табличной информации из электронных документов разных форматов Диссертация на соискание учёной степени кандидата технических наук по специальности 05.25.05 — информационные системы и процессы Алексей Олегович Шигаров [email protected] Институт динамики систем и теории управления СО РАН Научный руководитель: чл.-к. РАН, д.т.н. Игорь Вячеславович Бычков ИВТ СО РАН, февраль 2010 1/32

Technology for tabular information extraction from documents in various formats

Embed Size (px)

Citation preview

Page 1: Technology for tabular information extraction from documents in various formats

Технология извлечения табличной информациииз электронных документов разных форматов

Диссертация на соискание учёной степени

кандидата технических наук по специальности

05.25.05 — информационные системы и процессы

Алексей Олегович Шигаров[email protected]

Институт динамики систем и теории управления СО РАН

Научный руководитель: чл.-к. РАН, д.т.н.Игорь Вячеславович Бычков

ИВТ СО РАН, февраль 2010

1/32

Page 2: Technology for tabular information extraction from documents in various formats

Статистические таблицы

«Таблицы статистические, способ оформления статистических данных в видесистематически расположенных чисел, характеризующих те или иные массовыеявления или процессы. [. . . ] Пересечение горизонтальных и вертикальных линийобразует клетки таблицы, в которых располагаются цифровые данные. Содержаниекаждой цифры раскрывается заголовками соответствующих строк и граф. [. . . ]»

«Большая советская энциклопедия. Изд. 3-е» – М.: Советская энциклопедия.

Т.25 «Струнино-Тихорецк». 1976. С. 161–162.

«Статистические таблицы — способы рационального изложения и наглядногопредставления статистических данных; систематическое размещение числовых данныхв серии рядов и колонок с целью обеспечения понимания и сопоставления данных.[...]»

Официальный сайт СТАТИСТИКА.ру: Госкомстат, Росстат и государственные

службы статистики РФ, http://statistika.ru

2/32

Page 3: Technology for tabular information extraction from documents in various formats

Актуальность исследования

Таблицы из документов часто являются основным источником необходимойинформации

Базы данных не всегда есть, доступны, открыты, содержат полную информацию

Актуальность приобретают методы и системы извлечения табличной информациииз документов

Позволяют преобразовать эту информацию к структурированому виду,например, к отношениям в реляционных базах данных

Актуальность данной проблематики подчеркивается в обзорах авторовEmbley D.W. (2006), e Silva A.C. (2006), Handley J.C. (1999), Hurst M. (2000),Lopresti D. и Nagy G (1999, 2000), Zanibbi R. (2004)

3/32

Page 4: Technology for tabular information extraction from documents in various formats

Актуальность исследования

Задачи извлечения табличной информации из документов

1 Обнаружение таблиц

2 Сегментация таблицы

3 Анализ функций ячеек таблицы

4 Структурный анализ таблицы

Известные методы и системы извлечения табличной информации обычно

1 Решают только отдельные из перечисленных задач

2 Ориентированы на определённые структуры и особенности таблиц и документов

3 Ориентированы на определённые форматы входных данных

4/32

Page 5: Technology for tabular information extraction from documents in various formats

Актуальность исследования

Программные продукты

Системы оптического распознавания текста («FineReader», «Cuneiform», «OmniPage»)

Системы преобразования документов из PDF в Excel («PDF2XL», «Solid Converter PDF»)

Выполняют только обнаружение и сегментацию таблиц

Ориентированы на «решёточную» структуру таблиц, как в Excel

Актуальной задачей является разработка технологии извлечения табличнойинформации, которая

1 ориентирована на структуру и особенности статистических таблиц, в частности,публикуемых Росстатом

2 ориентирована на таблицы, представленные в виде машиночитаемого текстав электронных документах разных форматов

3 является комплексной, т. е. выполняет 1) обнаружение, 2) сегментацию, 3) анализфункций ячеек и 4) структурный анализ таблиц

5/32

Page 6: Technology for tabular information extraction from documents in various formats

Цель и основные задачи диссертационной работы

Цель

состоит в создании технологии извлечения табличной информации из электронныхдокументов разных форматов, которая автоматизирует обнаружение, сегментацию, анализфункций ячеек и структурный анализ статистических таблиц

Основные задачи

1 Анализ представления статистических таблиц в документах

2 Разработка моделей страницы документа и таблицы, предназначенных для представленияданных в процессе извлечения табличной информации

3 Разработка методов автоматического обнаружения, сегментации, анализа функций ячееки структурного анализа статистических таблиц

4 Разработка информационной системы извлечения табличной информации из электронныхдокументов

5 Проверка созданной технологии на задачах автоматизации ввода больших объёмовтабличной информации из электронных статистических отчётов в базы данных

6/32

Page 7: Technology for tabular information extraction from documents in various formats

Научная новизна

Впервые предложена технология извлечения табличной информации из электронныхдокументов разных форматов, которая

1 ориентирована на структуру и особенности статистических таблиц, в частности,публикуемых Росстатом

2 ориентирована на таблицы, представленные в виде машиночитаемого текста

3 является комплексной, т. е. выполняет 1) обнаружение, 2) сегментацию, 3) анализфункций ячеек и 4) структурный анализ таблиц

7/32

Page 8: Technology for tabular information extraction from documents in various formats

Практическая значимость

Результаты диссертационной работы могут использоваться в задачах извлеченияинформации и управления данными

Предлагаемая технология может использоваться для автоматизации ввода в базыданных табличной информации из электронных документов разных форматов

Работа выполнена при поддержке РФФИ, грант 09-07-12017-офи_м

8/32

Page 9: Technology for tabular information extraction from documents in various formats

Использование результатов диссертации на практике

Министерство сельского хозяйства Иркутской области

Автоматизация ввода информации из электронных статистических отчётовИркутскстата в базу данных статистической информации по сельскому хозяйствуинформационной системы «Каскад»

Институт систем энергетики им. Л.А. Мелентьева СО РАН

Автоматизация ввода информации из электронных статистических отчётовв хранилище данных в составе информационной инфраструктуры исследованийв энергетике

9/32

Page 10: Technology for tabular information extraction from documents in various formats

Защищаемые положения

1 Модель страницы документа, которая служит для представления данных страницыв процессе извлечения табличной информации

2 Модель структурного описания таблицы, которая предназначена для представлениятабличных заголовков и данных, и связей между ними

3 Методы обнаружения, сегментации, анализа функций ячеек и структурного

анализа статистических таблиц, которые обеспечивают извлечениеи структурирование табличной информации, содержащейся в электронных документах

10/32

Page 11: Technology for tabular information extraction from documents in various formats

Глава 1. Анализ процесса извлечения табличной информацииСтруктура и особенности статистических таблиц

Предлагаемая технология ориентирована на структуру и особенности статистическихтаблиц

«ГОСТ 2.105-95 ЕСКД», «The Chicago Manual of Style»

-----------------------T-------------T-------------¬¦ ¦Намолочено ¦Намолочено ¦¦ ¦зерна, всего ¦зерна, с 1 гদ +------T------+------T------+¦ ¦ ¦ ¦ ¦ ¦¦ ¦ 2004 ¦ 2005 ¦ 2004 ¦ 2005 ¦¦ ¦ ¦ ¦ ¦ ¦L----------------------+------+------+------+------- Хозяйства всех категорийИркутская область 7250 9334 30 20 Братский район 640 977 18 16 Заларинский район 100 141 17 13 Зиминский район 292 1309 25 28 Иркутский район 799 942 16 18 Kачугский район 61 98 20 15 Kуйтунский район 414 722 19 20 с/х предприятияИркутская область 3221 5237 23 24 Братский район 159 488 19 17 Заларинский район 56 121 18 22

Тело

Шапка

Боковик

Перерез

Охватывающий

заголовок

строки

Вложенный

заголовок

строки

Вложенный

заголовок

столбца

Разграфка, в т.ч. текстовая (псевдографика)

Охватывающий

заголовок

столбца

Элемент

данных

Базовая точка

тела таблицы

11/32

Page 12: Technology for tabular information extraction from documents in various formats

Глава 1. Анализ процесса извлечения табличной информацииФорматы входных данных

Известные методы и системы извлечения табличной информации в основномиспользуют в качестве входных данных

ASCII-текст (plain-text) (не поддерживает графическое форматирование)

Растровые изображения документов (требуют оптического распознавания текста)

Web-страницы HTML (таблицы часто используются для компоновки Web-страниц)

Предлагаемая технология ориентирована на Метафайлы EMF (Enhanced MetaFile)

Документы разных форматов: DOC (Word), XLS (Excel), HTML, ASCII-текст, могутпечататься в метафайлы

Машиночитаемый текст документов остается в метафайлах машиночитаемым

В отличии от файлов PDF, PostScript метафайлы могут интерпретироваться с помощьюGDI (Graphics Device Interface, часть Windows API)

12/32

Page 13: Technology for tabular information extraction from documents in various formats

Технология извлечения табличной информации

ЭЛЕКТРОННЫЕДОКУМЕНТЫ

Получение данных из метафайла

Анализ функций ячеек таблицы

Сегментация таблиц

Обнаружение таблиц на странице

Структурный анализ таблиц

Виртуальный

EMF принтер

Интерпретаторыструктурных описаний таблиц,

ориентированные на решения задач

предметных областей

ЗАДАЧИ ПРЕДМЕТНЫХОБЛАСТЕЙ

Метафайлы

EMF

EMF EMF

EMF

Страницы(текст,

разграфка)

Система извлечениятабличной информации

из метафайлов

Ограничивающие

прямоугольники

таблиц

Таблицы(линейки,

ячейки)

Таблицы(шапка, боковик,

тело, перерезы)

XML XML XML XML XML

Структурные описания таблиц

HTML

ASCIIтекст

PDFWord(DOC)

Excel(XLS)

Базыданных

Хранилищаданных

ФайлыExcel(XLS)

13/32

Page 14: Technology for tabular information extraction from documents in various formats

Глава 2. Обработка страниц документовМодель страницы документа

Объекты страницы документа

Ограничивающие

прямоугольники

Вертикальные

промежутки

Ограничивающие прямоугольники строк

Russian Federation 6,406 8,801 29,026 47,781 1,173 5,123

Switzerland 1,902 2,899 13,713 21,090 144 58 878 447

Japan 13,352 9,117 90,901 52,604 107 76 550 313

ВсегоМежсимвольные

интервалы

Подстрочный

интервал

Надстрочный

интервал

Внутренний зазор

Внешний зазор Ограничивающий

прямоугольник

Всего за 2008 годза Текстовые элементы

2000 99,263 18,022 12,798 138 4,749 337 81,241

By use

Total Saw-logs PlywoodPulp and

ChipsOthers

Year TotalImported

logs 1)

337

Текстовые

блоки

Текстовый элементТекстовый блок

Строки

Табличный

регион

1993 1994 1995 1996 1997 1998

Хозяйства всех категорий

Сельское хозяйство 125.8 1168.3 4149.8 5719.5 6732.3 6184.5

Растениеводство 209.0 125.8 2092.7 2031.2 3370.2 2709.7

Животноводство 218.8 749.5 2057.1 3088.3 3362.1 3474.8

Сельскохозяйственные предприятия

Сельское хозяйство 136.6 684.2 163.1 292.6 237.6 137.7

Растениеводство 58.0 278.8 572.1 841.7 969.4 856.5

Животноводство 138.6 405.4 981.0 1050.9 1168.2 1081.2

Ограничивающие прямоугольники табличных регионов

Табличная

область

14/32

Page 15: Technology for tabular information extraction from documents in various formats

Глава 2. Обработка страниц документовМодель страницы документа

Объекты на странице формируются снизу вверх

Табличный регион

Табличная область

Страница документа

Линейка

Строка

. . .

. . .

. . .

... . . .

Текстовый блок

Текстовый

элемент... Текстовый

элемент

Текстовый блок

Текстовый

элемент... Текстовый

элемент

Строка

Табличный

регион

ЛинейкаТабличная

область

15/32

Page 16: Technology for tabular information extraction from documents in various formats

Глава 2. Обработка страниц документовСегментация пустого места на странице документа

1 Сегментация пустого места внутри страницы

Ограничивающие прямоугольники

текстовых блоков

Вертикальные сегменты

пустого места

2 Выделение вертикальных промежутков среди сегментов пустого места

Вертикальные промежутки

16/32

Page 17: Technology for tabular information extraction from documents in various formats

Глава 2. Обработка страниц документовОбнаружение таблиц на странице документа

1 По записям метафайла формируются 1) текстовые элементы (соответствуютотдельным «словам») и 2) линейки (линии разграфки)

2 Предобработка страницы

Исключение из текста текстовой разграфки (псевдографики)

3 Текстовые элементы группируются в текстовые блоки

4 Текстовые блоки группируются в строки

Текстовые элементы принадлежат

Всего за

одному

текстовому

блоку

Всего за

разным

текстовым

блокам

Текстовые

элементы

Текстовые

блоки

Ограничивающие

прямоугольники

строк

Ограничивающие

прямоугольники

текстовых блоков

2) 1)

Trends in Research and Development

1997 a) 721 a) 9.8 1996 a) 15,079 506,480

1998 731 10.2 1997 15,742 510,460

(1,000)

GDP

(billion yen)

YearResearchers Females

(%)

Fiscal

year

R&D

expenditures

(billion yen)

Cтроки

17/32

Page 18: Technology for tabular information extraction from documents in various formats

Глава 2. Обработка страниц документовОбнаружение таблиц на странице документа

1 Строки табличного вида группируются в табличные регионы

1993 1994 1995 1996 1997 1998

Хозяйства всех категорий

Сельское хозяйство 125.8 1168.3 4149.8 5719.5 6732.3 6184.5

Растениеводство 209.0 125.8 2092.7 2031.2 3370.2 2709.7

Животноводство 218.8 749.5 2057.1 3088.3 3362.1 3474.8

Сельскохозяйственные предприятия

Сельское хозяйство 136.6 684.2 163.1 292.6 237.6 137.7

Растениеводство 58.0 278.8 572.1 841.7 969.4 856.5

Животноводство 138.6 405.4 981.0 1050.9 1168.2 1081.2

Ограничивающие

прямоугольники

табличных регионов

Вертикальные

промежутки

табличных регионовТабличные

регионы

2 Табличные регионы группируются в табличные области

1993 1994 1995 1996 1997 1998

Хозяйства всех категорий

Сельское хозяйство 125.8 1168.3 4149.8 5719.5 6732.3 6184.5

Растениеводство 209.0 125.8 2092.7 2031.2 3370.2 2709.7

Животноводство 218.8 749.5 2057.1 3088.3 3362.1 3474.8

Сельскохозяйственные предприятия

Сельское хозяйство 136.6 684.2 163.1 292.6 237.6 137.7

Растениеводство 58.0 278.8 572.1 841.7 969.4 856.5

Животноводство 138.6 405.4 981.0 1050.9 1168.2 1081.2

Ограничивающий

прямоугольник

табличной области

Вертикальные

промежутки таблицыТабличная

область

18/32

Page 19: Technology for tabular information extraction from documents in various formats

Глава 3. Анализ и обработка таблицАнализ функций ячеек таблицы

Функция (роль) ячейки зависит от её расположения относительнобазовой точки тела таблицы

Поиск базовой точки тела таблицы

1 Область поиска сегментируется на ячейки

2 С помощью регулярных выражений и эвристик о заголовках непустые ячейкиклассифицируются на «Даты», «Числа» и «Текст»

3 Тело содержит только «Числа», специальные обозначения и пустые ячейки

-----------------------T-------------T-------------¬¦ ¦Намолочено ¦Намолочено ¦¦ ¦зерна, всего ¦зерна, с 1 гদ +------T------+------T------+¦ ¦ ¦ ¦ ¦ ¦¦ ¦ 2004 ¦ 2005 ¦ 2004 ¦ 2005 ¦¦ ¦ ¦ ¦ ¦ ¦L----------------------+------+------+------+------- Хозяйства всех категорийИркутская область 7250 9334 30 20 Братский район 640 977 18 16 Заларинский район 100 141 17 13 Зиминский район 292 1309 25 28 Иркутский район 799 942 16 18 Kачугский район 61 98 20 15 Kуйтунский район 414 722 19 20 с/х предприятияИркутская область 3221 5237 23 24 Братский район 159 488 19 17 Заларинский район 56 121 18 22

Базовая точка

тела таблицы

Область поиска

базовой точки

тела таблицы

Ячейки с «Числами»

Ячейки с «Текстом»

Ячейки с «Датами»

19/32

Page 20: Technology for tabular information extraction from documents in various formats

Глава 3. Анализ и обработка таблицСегментация таблицы

Таблица сегментирована, если имеет полную разграфку

Выполняется восстановление недостающей разграфки

1 Вертикальные линейки восстанавливаются по вертикальным промежуткам таблицы

2 Горизонтальные линейки восстанавливаются 1) в шапке по горизонтальным промежуткамтаблицы 2) под шапкой по табличным строкам

3 Восстановленная разграфка таблицы корректируется с помощью её исходных линеек

Базовая точка тела таблицы

Вертикальные промежутки /

Вертикальные линейки

Текстовые блоки134

Горизонтальные

промежутки /

Горизонтальные линейки

-------------------------------------------------------------------------------------

| | | Хозяйства | Крестьянские

| | | населения | хозяйств

|---------------------------------------------------------------------------

| | - | | Урожай- |Валовой| Урожай- |Валовой | Урожай-

| | | | ность | сбор | ность | сбор | ность

| . ц | |

Все категории Сельхозпредприятия

хозяйств

Валовой Урожай Валовой

сбор ность сбор

тыс ц с 1 га тыс. ц. | ц с 1 га| тыс.ц | ц с 1 га| тыс.ц | ц с 1 га

-------------------------------------------------------------------------------------

ЗЕРНОВЫЕ И ЗЕРНОБОБВЫЕ КУЛЬТУРЫ

1997 г. 7405 11,6 7152 11,6 19 9,7 134 9,7

1998 г. 7419 12,2 7155 12,2 20 11,5 234 11,1

КАРТОФЕЛЬ

1997 г. 9939 148 385 124 9652 149 102 145

1998 г. 9834 137 322 104 8645 139 67 89

20/32

Page 21: Technology for tabular information extraction from documents in various formats

Глава 3. Анализ и обработка таблицСтруктурный анализ таблицы

Модель структурного описания таблицы

Компоненты структурного

описания таблицы

Связывание элемента

данных с заголовками

-----------------------T-------------T-------------¬¦ ¦ ¦ ¦¦ ¦ ¦¦ +------T------+------T------+¦ ¦ ¦ ¦ ¦ ¦¦ ¦ ¦ ¦ ¦ ¦¦ ¦ ¦ ¦ ¦ ¦L----------------------+------+------+------+-------

Намолочено Намолочено зерна, всего зерна, с 1 га¦ 2004 2005 2004 2005

Хозяйства всех категорийИркутская область 7250 9334 30 20 Братский район 640 977 18 16 Заларинский район 100 141 17 13 Зиминский район 292 1309 25 28 Иркутский район 799 942 16 18 Kачугский район 61 98 20 15 Kуйтунский район 414 722 19 20 с/х предприятияИркутская область 3221 5237 23 24 Братский район 159 488 19 17 Заларинский район 56 121 18 22

-----------------------T-------------T-------------¬¦ ¦Намолочено ¦Намолочено ¦¦ ¦зерна, всего ¦зерна, с 1 гদ +------T------+------T------+¦ ¦ ¦ ¦ ¦ ¦¦ ¦ 2004 ¦ 2005 ¦ 2004 ¦ 2005 ¦¦ ¦ ¦ ¦ ¦ ¦L----------------------+------+------+------+-------

Дерево

заголовков

строк

Дерево

заголовков

столбцов

Дерево

перерезов

Множество

элементов данных

hc0

hc1 hc2

hc3 hc4 hc5 hc6

ho0

ho1

ho2

hr0

hr1

hr2

hr3hr4hr5hr6hr7hr8

hr9hr10

d7

d1

d2

d3

d4

d5

d6

d8

d9

d13

d14

d15

d16

d10

d11

d12

d17

d18

d19

d20

d21

d22

d23

d24

d25

d29

d30

d31

d32

d26

d27

d28

d33

d37

d38

d39

d40

d34

d35

d36

hci— Заголовки

столбцов

hrj— Заголовки строк

hok— Перерезы

dl — Элементы данных

Структурный анализ таблицы включает

1 формирование 1) дерева заголовков столбцов, 2) дерева заголовков строк,3) дерева перерезов и 4) множества элементов данных

2 связывание элементов данных с заголовками

21/32

Page 22: Technology for tabular information extraction from documents in various formats

Экспериментальная оценка

Экспериментальные данные

государственные статистические отчёты России, США, Евросоюза, Японии, финансовыеотчёты различных компаний

форматы: DOC (Word), XLS (Excel), PDF (с латиницей), HTML

всего 425 страниц, 518 таблиц

Оценки1

1 Точность — процент количества корректно обнаруженных таблиц/базовых точек телтаблиц/линеек к общему количеству обнаруженных соответственно таблиц/базовых точектел таблиц/линеек

2 Полнота — процент количества корректно обнаруженных таблиц/линеек к общему числусуществующих соответственно таблиц/линеек

Таблица: Экспериментальные результаты

Обнаружение: таблиц базовых точек тел таблиц линеек2

Точность 84,5% 91,4% 86,2%Полнота 91,7% X 82,5%

1Hu J., Kashi R., Lopresti D., Wilfong G. Medium-Independent Table Detection // In Proc. DocumentRecognition and Retrieval VII. IS&T/SPIE Electronic Imaging. USA. 2000. P. 291-302.

2Случайным образом выбрана 51 таблица с 275 вертикальными и 1046 горизонтальными линейками

22/32

Page 23: Technology for tabular information extraction from documents in various formats

Глава 4. Практическое применение результатовИнформационная система

Информационная система «STABEX» (STAtistical TABle EXtractor) для извлечениятабличной информации из метафайлов

Имеет графический пользовательский интерфейс

Визуализирует процесс извлечения табличной информации

Пользователь может вручную корректировать результаты автоматического выполненияобнаружения, сегментации, анализа функций ячеек и структурного анализа таблиц

Эскизы

загруженных

страниц

Обрабатываемая страница документа

Результаты обработки страницы:

структурные описания

извлечённых таблиц

Обнаруженная и сегментированная

таблица внутри страницы

23/32

Page 24: Technology for tabular information extraction from documents in various formats

XML представление структурного описания таблицы

<table name="Таблица 1">

<columnHeader text="Заголовки столбцов" id="0">

<columnHeader text="Намолочено зерна, всего" id="14581672">

<columnHeader text="2004" id="14581896"/> [...]

</columnHeader> [...]

</columnHeader>

<rowHeader text="Заголовки строк" id="0">

<rowHeader text="Иркутская область" id="14582344">

<rowHeader text="Братский район" id="14582400"/> [...]

</rowHeader> [...]

</rowHeader>

<cutinHeader text="Перерезы" id="0">

<cutinHeader text="Хозяйства всех категорий" id="14582848"/> [...]

</cutinHeader>

<data>

<dataElement text="7250" colId="14581896" rowId="14582344" cutId="14582848"/>

<dataElement text="640" colId="14581896" rowId="14582400" cutId="14582848"/>

[...]

</data>

</table>

Дерево заголовков столбцов

Дерево заголовков строк

Дерево перерезов

Множество элементов данных

24/32

Page 25: Technology for tabular information extraction from documents in various formats

Глава 4. Практическое применение результатовАвтоматизация наполнения базы данных

Задача

Необходимо организовать ввод статистической информации в базу данных «Каскад»

Неполнота представления информации в базах данных Иркутскстата не позволяеторганизовать её прямое преобразование в АИС «Каскад»

Статистические отчёты являются основным источником необходимых данных

Электронные статистические отчёты

1 Документы Word (DOC) с таблицами в виде ASCII-текста и табличных объектов Word

2 Листы Excel (XLS)

Автоматизация ввода статистической информации в базу данных АИС «Каскад»

База данных

АИС «Каскад»

Статистические

отчеты

Структурные описания

таблиц, XML

Промежуточное

представление,

таблицы СУБД Paradox

25/32

Page 26: Technology for tabular information extraction from documents in various formats

Глава 4. Практическое применение результатовАвтоматизация наполнения базы данных

Деревья заголовков структурного описания таблицы объединяютсяв дерево показателей

Намолочено зерна, всего

Намолочено зерна, с 1 га

Хозяйства всех категорий

с/х предприятия

20042005

Показатели

20042005

Иркутская областьБратский район

. . .. . .

. . .

. . .

. . .

Иркутская областьБратский район

. . .. . .

. . .

. . .

. . .

Намолочено зерна, всего

Намолочено зерна, с 1 га20042005

20042005

Иркутская областьБратский район

. . .. . .

. . .

. . .

. . .

Иркутская областьБратский район

. . .. . .

. . .

. . .

. . .

Обработка дерева показателей

Заголовки приводятся к эталонным написаниям

Из дерева исключаются «Даты», «Территории» и игнорируемые заголовки

26/32

Page 27: Technology for tabular information extraction from documents in various formats

Глава 4. Практическое применение результатовАвтоматизация наполнения базы данных

Для извлечённого структурного описания таблицы формируется

1 Таблица реляционного вида в формате СУБД «Paradox»

YEAR TERR F1 F2 F3

1997 Ангарский район 99 1 100

1997 Балаганский район 99 1 96

1997 Бодайбинский район 93 7

1997 Братский район 98 2 97

1997 Жигаловский район 97 3 98

1997 Зиминский район 99 1 99

1997 Иркутская область 98 2 97

1998 Ангарский район 7

1998 Балаганский район 4

1998 Бодайбинский район 3

Метки

полей

Записи

2 Текстовый FNI (Field Name Information) файл

каждой метке поля таблицы СУБД «Paradox» сопоставляется путь в дереве показателей

Название извлечённой таблицы

Имя файла таблицы СУБД Paradox

Метки полей Структура заголовков

T T006.dbC Таблица 1F YEAR ВремяF TERR ТерриторииF F1 Зерновые культуры\СельхозпредприятияF F2 Зерновые культуры\НаселениеF F3 Зерновые культуры\Крестьянские хозяйства

Метки измерений «Время» и «Территории»

27/32

Page 28: Technology for tabular information extraction from documents in various formats

Основные полученные результаты

1 Разработана модель страницы документа, которая служит для представления данныхстраницы в процессе извлечения табличной информации из электронных документов

2 Разработана модель структурного описания таблицы, которая предназначена дляпредставления заголовков и данных таблицы, а также связей между ними

3 Разработаны методы обнаружения, сегментации, анализа функций ячеек

и структурного анализа таблиц, ориентированные на структуру и особенностистатистических таблиц

28/32

Page 29: Technology for tabular information extraction from documents in various formats

Личный вклад автора

Автором получены лично

Модель страницы документа

Методы обнаружения, сегментации, анализа функций ячеек и структурного анализастатистических таблиц

Информационная система извлечения табличной информации из метафайлов

Технология извлечения табличной информации из электронных документов разныхформатов

В неделимом соавторстве с А.Е. Хмельновым

Модель структурного описания таблицы

В неделимом соавторстве с А.Е. Хмельновым, И.В. Бычковым и Г.М. Ружниковым

Применение данной технологии для автоматизации наполнения базы данных системы«Каскад»

29/32

Page 30: Technology for tabular information extraction from documents in various formats

Представление результатов диссертационной работы

Основные результаты докладывались на научных конференциях

Международная конференция MIT-2009 «Математические и информационныетехнологии» (Будва, Черногория, 2009 г.)

9 международная конференция «Распознавание образов и анализ изображений: новыеинформационные технологии» (Нижний Новгород, 2008 г.)

12, 13 и 14 всероссийская конференция «Информационные и математическиетехнологии в науке и управлении» (Иркутск, 2007, 2008, 2009 гг.)

6 и 9 школа-семинар «Математическое моделирование и информационныетехнологии» (Иркутск, 2005, 2007 гг.)

Школа-семинар молодых ученых «Информационные технологии и моделированиесоциальных эколого-экономических систем» (Иркутск, 2008 г.)

Семинар «Ляпуновские чтения и презентация информационных технологий»(Иркутск, 2007, 2008, 2009 гг.)

30/32

Page 31: Technology for tabular information extraction from documents in various formats

Публикации по теме диссертации

По теме диссертации опубликовано 12 научных работ,в т.ч. 3 публикации в изданиях из списка ВАК

1 Бычков И.В., Ружников Г.М., Хмельнов А.Е., Шигаров А.О. Эвристический методобнаружения таблиц в разноформатных документах // Вычислительные технологии.– 2009. – Т. 14, № 2. – С. 58–73

2 Шигаров А.О. Технология извлечения табличной информации из электронныхдокументов разных форматов // Современные технологии. Системный анализ.Моделирование. – 2009. – № 3 (23). – С. 97–102.

3 Shigarov A.O., Bychkov I.V., Ruzhnikov G.M., Khmel’nov A.E. A method for table detectionin metafiles // Pattern Recognition and Image Analysis. – 2009. – Vol. 19, No 4. – P. 693–697.

Получено 4 свидетельства об официальной регистрации программ для ЭВМв Роспатенте

31/32

Page 32: Technology for tabular information extraction from documents in various formats

Технология извлечения табличной информациииз электронных документов разных форматов

Диссертация на соискание учёной степеникандидата технических наук по специальности05.25.05 — информационные системы и процессы

Алексей Олегович Шигаров

Научный руководитель: чл.-к. РАН, д.т.н. Игорь Вячеславович Бычков

Работа выполнена в Институте динамики систем и теорииуправления СО РАН

32/32