Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка

  • Автор:
  • Специальность ВАК РФ: 05.13.19
  • Научная степень: Кандидатская
  • Год защиты: 2014
  • Место защиты: Санкт-Петербург
  • Количество страниц: 115 с. : ил.
  • бесплатно скачать автореферат
  • Стоимость: 250 руб.
Титульный лист Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка
Оглавление Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка
Содержание Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка
Оглавление
Оглавление

Список использованных сокращений
Введение
1. Защита информационных систем от утечек информации
1.1. Основные модели обработки естественно-языковой информации в БЬР-системах
1.2. Постановка проблемы исследования
1.3. Выводы
2. Методы обнаружения угроз ИБ на основе морфологической модели естественного языка
2.1 Модель угрозы утечки конфиденциальной информации, обрабатываемой в современных информационных системах организаций
2.2 Постановка задачи
2.3 Метод снижения числа ошибок первого и второго рода в морфологических анализаторах ОЬР-систсм
2.4 Метод предотвращения передачи конфиденциальных ЕЯ сообщений,
содержащих отсутствующие в словаре парадигмы слов
2.5 Метод идентификации защищаемых данных в передаваемых сообщениях на основе анализа связей в объектной модели естественного языка
2.6 Выводы
3. Сравнительный анализ
3.1 Оценка показателей качества предложенных решений
3.2 Оценка применимости предложенных решений
3.3 Выводы
Заключение
Литература

Список использованных сокращений
БД - база данных
БПФ - быстрое преобразование Фурье
ВКФ - взаимокорреляционная функция
ЕЯ - естественный язык
ГЗ - грамматики зависимостей
ГОС - грамматика обобщённых составляющих
ГП - грамматические переменные
ГФС - грамматика с фазовой структурой
ИБ - информационная безопасность
ИС - информационная система
ИТ - информационные технологии
КСГ - контекстно-свободные грамматики
ЛФГ - лексико-функциональные грамматики
НСГ - грамматики непосредственно составляющих
ПС - поисковые системы
РСПГ - грамматика расширенных сетей переходов СЗИ - средства защиты информации УГ — унификационные грамматики DLP - data leak prevention В YOD - bring your own device

Введение
Актуальность темы исследований
Количество зарегистрированных утечек конфиденциальной информации увеличивается с каждым годом. Это связано как с развитием и повсеместным распространением информационных систем, применяемых для обработки данных, так и с увеличением ценности самих информационных активов компаний. На рисунке 1 показан постоянный рост числа зарегистрированных утечек конфиденциальной информации с 2006 по 2013 годы [74].
1400 -| 1200 -1000 800 600 -400
VJ - 2006 2007 2008 2009 2010 2011 2012 2
■ Число утечек 198 333 530 747 794 801 934 1
Рисунок 1. Число зарегистрированных утечек информации с 2006 по 2013 годы.
Самым действенным элементом обеспечения безопасности данных в корпоративных информационных системах остается применение технических средств защиты информации - прежде всего средств предотвращения утечек данных (Data Leak Prevention, DLP) [1].
В настоящий момент можно выделить несколько ключевых направлений развития информационных систем (ИС), которые неизбежно повлияют на идеологию DLP-систем. Во-первых, это принципиальное отличие типов информации и требований к ее защите в зависимости от специфики организаций. Даже в компаниях, относящихся к одному и тому же сегменту (банки, государственные организации, телекоммуникации), структура информационных активов неодинакова.
Во-вторых, наблюдается переход на коммуникацию через разновидности «социальных сетей» с помощью мобильных устройств [2]. Это накладывает

соответствующих синтаксическому классу. Различаются свободные и связанные ГП. Связанные ГП - ГП, присущие лексеме в целом (всем ее словоформам), например, одушевленность и род для существительных. Свободные ГП -совокупность ГП, по которым лексема изменяется, например, число и падеж для существительных.
Иногда в морфологических моделях выделяются синтаксические подклассы лексем, имеющие определенные морфологические и/или синтаксические особенности. Например, в русском языке в классе прилагательных можно выделить местоименные прилагательные («который»), притяжательные прилагательные («дядин»), порядковые числительные («второй») [12]. Как показывает практика, такие особенности приводят к некоторым проблемам при оценке эффективности работы морфологических анализаторов, поскольку различные морфологические словари содержат различные морфологические описание одних и тех-же слов [13].
В теоретической работе «Формальная модель русской морфологии» [14] дается полное описание морфологических явлений русского языка и 54 нестандартные решения для их формализации. Перечислим важные особенности данной модели:
1. Различение морфологического рода
2. Различение синтаксического рода
3. Отнесение темы глагола (‘- ов у а и т . д .) к флексии
4. Метод описания чередований для существительных и различение для супплетивных основ
5. Выделения специальных признаков глагола, различные комбинации значений которых покрывают все возможные в русском языке способы видообразования (всего 32 комбинации);
6. Отсечение отрицания (частицы «не») у существительных и прилагательных.
Недостатками такой модели является ее сложность:

Рекомендуемые диссертации данного раздела