Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде

  • Автор:
  • Специальность ВАК РФ: 05.13.17
  • Научная степень: Кандидатская
  • Год защиты: 2011
  • Место защиты: Москва
  • Количество страниц: 105 с. : ил.
  • бесплатно скачать автореферат
  • Стоимость: 300 руб.
Титульный лист Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде
Оглавление Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде
Содержание Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде
Глава 1. Концепция извлечения информации в полуавтоматическом режиме
1.1. Разработка системы поиска статистической информации
1.1.1. Поиск новых источников данных
1.1.2. Методы извлечения статистической информации из таблиц
1.1.3. Инструменты поиска и отображения статистических показателей
1.2. Концептуальная основа адаптивных методов извлечения.статистической информации
1.3. Основные выводы
Глава 2. Методы поиска и распознавания статистических данных
2.1. Особенности структуры статистических таблиц
2.1.1. Понятия и определения
2.1.2. Ключи в статистических таблицах
2.2. Задача извлечения статистических показателей
2.2.1. Постановка задачи
2.2.2. Решение задачи
2.3. Алгоритмы динамического обучения
2.3.1. Известные алгоритмы динамического обучения
2.3.2. Решающие деревья
2.3.3. Инкрементное построение дерева решений
2.4. Алгоритм RIF
2.4.1. Обучение
2.4.2. Классификация и внедрение нового объекта
2.4.3. Отбор деревьев
2.5. Основные выводы
Глава 3. Система поиска статистических данных
3.1. Архитектура системы извлечения данных
3.1.1. Предварительная обработка таблиц
3.1.2. Генерация признаков
3.1.3. Динамическое обучение и классификация
3.1.4. Интерфейс оператора
3.1.5. База данных
3.2. Эксперименты
3.2.1. Оптимальное число деревьев
3.2.2. Сравнение композиции и среднего дерева
3.2.3. Отбор деревьев
3.2.4. Задачи распознавания структуры таблиц
3.2.5. Вычислительная эффективность
3.3. Основные выводы
Заключение
Литература
Диссертационная работа посвящена разработке методов извлечения статистических данных из таблиц, представленных в текстовом виде. Предлагается методология полуавтоматической обработки информации, основанная на динамическом обучении с привлечением эксперта. Исследуются инкрементные алгоритмы машинного обучения, не совершающие ошибок на обучающей выборке. Описывается полуавтоматическая система извлечения статистических показателей из таблиц, разработанная на основе предложенной методологии.
Актуальность темы. Социальная, экономическая, демографическая, финансовая статистика собирается и публикуется в бумажном и электронном виде различными организациями. Многие источники, например Росстат, ВЦИОМ, OECD, банки и финансовые организации предоставляют статистические данные в табличном виде (Рис. 1). Число таблиц, созданных ежегодно, измеряется сотнями тысяч. При этом в разных источниках могут использоваться разные термины и структуры таблиц для описания одних и тех же явлений. Это осложняет поиск, агрегацию и анализ динамики изменения статистических показателей.
В настоящее время не существует единого удобного способа поиска статистической информации по всем источникам. Организациям, которые занимаются анализом статистики, приходится обрабатывать таблицы вручную или с помощью примитивных программных средств, адаптация которых к быстро меняющимся источникам требует большого количества ресурсов. При этом обработка каждой новой коллекции таблиц занимает много времени, что ограничивает возможность оперативного анализа статистических данных. Таким образом, создание поисковой системы над множеством доступных источников
Множество всех строк из X, являющихся описаниями ключей, обозначим через Хх> = X П V. Для построения множества Х-р необходимо осуществить поиск каждой строки из Я" в множестве всех словесных описаний Т>. Рассмотрим множество всех подмножеств Xd, состоящих из строк, попарно не содержащих одно и то же слово: Х-р — {S Є 2Xv : Vsi, S2 Є S =ї 0(s) П $(«2) = &}■ Каждое множество из Хт> состоит из строк si sm, которые отстоят от соответствующих описаний ключей на расстояние а(«і) cn(sm). При этом все эти строки могут не содержать некоторые ИЗ СЛОВ (xi, ... ,хп) исходной строки х. Для построения отображения S необходимо выбрать множество строк из Xd, содержащее наибольшее число слов и состоящее из строк, имеющих
минимальное значение а. Обозначим через 0(5) = {1 , n} |J 9{s) множе-
ство номеров слов исходной строки х, не содержащихся ни в одной из строк множества S Є Х-р. Для поиска оптимального множества слов предлагается функционал, учитывающий пропуск слов и нечёткость поиска слов.
E(S)=7|5(S)l + £ a(s) —> min
s£S SeXv
Здесь 7 — параметр, отвечающий за то, насколько сильно нужно штрафовать за пропуск слов. Его значение оптимизируется исходя из реальной выборки. Пусть S* — множество строк, на котором достигается минимум функции E(S). Обозначим через key(s) ключ, имеющий словесное описание s, где s строка. Тогда 'S (с) = {key(s),s Є S*}, где с Є Ск ~ ячейка описания статистической таблицы.
Предложенный метод построения отображения S состоит из двух шагов, существенно влияющих на его эффективность: нечёткий поиск слов и построение множества Лф.

Рекомендуемые диссертации данного раздела