Адаптивная двухфазная схема решения задачи "структура - свойство"

  • автор:
  • специальность ВАК РФ: 05.13.17
  • научная степень: Кандидатская
  • год, место защиты: 2013, Москва
  • количество страниц: 137 с. : ил.
  • бесплатно скачать автореферат
  • стоимость: 240,00 руб.
  • нашли дешевле: сделаем скидку
  • формат: PDF + TXT (текстовый слой)
pdftxt

действует скидка от количества
2 диссертации по 223 руб.
3, 4 диссертации по 216 руб.
5, 6 диссертаций по 204 руб.
7 и более диссертаций по 192 руб.
Титульный лист Адаптивная двухфазная схема решения задачи "структура - свойство"
Оглавление Адаптивная двухфазная схема решения задачи "структура - свойство"
Содержание Адаптивная двухфазная схема решения задачи "структура - свойство"
Вы всегда можете написать нам и мы предоставим оригиналы страниц диссертации для ознакомления
Содержание
Введение
Глава 1. Задача «структура - свойство»
1.1 Этапы решения задачи «структура - свойство»
1.2 Ключевые особенности решения задачи «структура — свойство»
1.2.1 Ограничения допустимости
1.2.2 Виртуальный скрининг
1.2.3 Многоуровневое дескрипторное описания
1.2.4 Адаптация дескрипторного описания
1.3 Постановка задачи построения адаптивных распознающих моделей
1.3.1 Определения
1.3.2 Распознающие модели как решение задачи «структура - свойство»
1.3.3 Адаптивные описывающие отображения
1.3.4 Ограничения допустимости и локальные классифицирующие функции
1.3.5 Качество распознающих моделей
1.3.6 Постановки задач
1.4 Прогнозирование свойств М-графов методами машинного обучения
1.4.1 Линейная регрессия
1.4.2 Метод опорных векторов
1.5 Выводы
Глава 2. Методы решения
2.1 Общая методология прогнозирования
2.2 Эволюционный метод адаптации дескрипторного описания
2.3 Модели «структура - свойства» на базе кластерной структуры
2.3.1 Ограничения допустимости на базе кластерной структуры
2.3.2 Нечеткий классификатор на базе кластерной структуры
2.3.3 Параметры нечёткой классификации
2.4 Двухфазная схема решения задачи «структура - свойство»
2.4.1 Описание двухфазной схемы решения задачи «структура - свойство»
2.4.2 Оценка качества результирующей модели
2.4.3 Интерпретация двухфазной схемы на примере метода опорных векторов
2.4.4 Модификация двухфазной схемы без использования отказов от прогноза
2.4.5 Приложения двухфазной схемы
2.6 Оценки вычислительной сложности
2.7 Понижение вычислительной сложности дескрипторного описания
2.8 Выводы
Глава 3. Результаты использования предложенных подходов
3.1 Программная реализация предложенных методов
3.1.1 Общее описания разработанного программного комплекса
3.1.2 Предварительная обработка обучающей выборки
3.1.3 Модуль построения и использования моделей «структура - свойство»
3.2 Прогнозирование противоопухолевой активности гликозидов
3.3 Прогнозирование противоопухолевой активности соединений разных химических классов
3.4 Прогнозирование способности ингибировать активность поли-(АДФ-рибоза)-полимеразы-
3.5 Выводы
Заключение
Список литературы

Введение
Стремительное развитие средств вычислительной техники, происходящее в последние десятилетия, позволило широко применять методы и алгоритмы информатики для анализа данных в больших хранилищах. В частности появились технологии и вычислительные системы для хранения и анализа данных о структуре различных химических соединений. Для обозначения применения методов информатики для решения химических задач используется специальный термин хемоинформатика [1]. В общем смысле хемоинформатика - название научных исследований, охватывающих процессы дизайна, создания, организации, управления, поиска, анализа, распространения, визуализации и использования информации о химических соединениях [2]. В частном случае под хемоинформатикой подразумевают также использование информационных ресурсов для преобразования данных в знания для принятия наилучших решений при поиске соединений-лидеров в разработке лекарств [3]. Методы хемоинформатики в настоящее время начинают активно внедряться во все области химии, и, прежде всего, в органическую химию. Одной из ключевых задач хемоинформатики является задача поиска количественных соотношений «структура — свойство» [4].
С точки зрения математики задача состоит в поиске численной зависимости между структурой молекулы химического соединения и её физико-химическими свойствами или биологической активностью. В англоязычной литературе для обозначения этих двух разновидностей рассматриваемой задачи существуют термины QSPR (Quantity Structure Property Relationship) и QSAR (Quantity Structure Activity Relationship), соответственно [5, 6].
Математические модели «структура - свойство» и «структура - активность» позволяют выявлять потенциально активные молекулы в больших ба-

зах химических соединений, а также осуществлять синтез веществ с заранее заданными свойствами. Поэтому модели «структура - свойство» / «структура - активность» применяются в процессе разработки новых лекарственных препаратов для поиска химических соединений, обладающих нужным видом биологической активности. Вычислительная процедура, которая включает автоматизированный просмотр базы данных химических соединений и отбор тех из них, для которых прогнозируется наличие желаемых свойств, носит название виртуальный скрининг [2, 7]. Использование виртуального скрининга позволяет существенно сократить объем длительных и дорогостоящих экспериментальных исследований в области химии, медицины и гии [8].
В настоящей диссертационной работе рассматривается задача «структура - свойство», которая состоит в поиске численной зависимости между структурой химических соединений, представленных своими молекулярными графами (М-графами), и их химическими свойствами, представленными заданным конечным набором классов. Под молекулярным графом подразумевается помеченный граф, вершины которого интерпретируются как атомы, а ребра как валентные связи между парами атомов. Метки вершин и ребер (числа или символы) кодируют атомы и связи различной химической природы.
В работе рассматриваются М-графы с числом вершин, не превосходящих заданной величины Т. Такое ограничение с одной стороны обусловлено необходимостью изъять из рассмотрения М-графы, соответствующие высокомолекулярным соединениям (молекулы которых содержат сотни и тысячи атомов), а с другой позволяет более точно оценить вычислительную сложность предлагаемых алгоритмов. Множество М-графов с числом вершин, не превосходящих Т, обозначим 717.

будем называть матрицу X размера Л'г х М. в /-ой строке которой стоит вектор признаков х1 /-ого молекулярного графа.
1.3.2 Распознающие модели как решение задачи «структура - свойство»
Традиционно решение задачи «структура - свойство» разбивается на два достаточно независимых этапа:
Этап описания обучающей выборки. Кратко, этап описания обучающей выборки состоит в выборе представления информации о структуре М-графа, то есть, набора признаков-дескрипторов. Более подробно, в ходе этапа описания обучающей выборки необходимо решить следующие задачи:
■ выбрать и зафиксировать алфавит дескрипторов для данной обу-
чающей выборки;
■ построить описывающее отображение О: ТО —> Ж:и ;
* для каждого молекулярного графа С1 из обучающей выборки
ТО = {(С,,С,)},'!, вычислить его вектор признаков х, = (х(1,..,х|Л/).
Результатом работы этапа описания, как правило, принято считать построенную по обучающей выборке матрицу «молекулярный граф - дескриптор» МБ.
Этап поиска функциональной зависимости (этап анализа МД-матрицы), также его называют этапом построения распознающей модели. В ходе данного этапа может решаться большое число дополнительных подзадач. К их числу относятся: кластерный анализ обучающей выборки; поиск выбросов в обучающей выборке; отбор дескрипторов для прогнозирования; различные преобразования и разложения матрицы «молекулярный граф - дескриптор» с целью оптимизации описания обучающей выборки, и другие. Однако ключевым для данного этапа является решение задачи поиска функциональной зависимости / между значениями признаков и значением ис-

Вы всегда можете написать нам и мы предоставим оригиналы страниц диссертации для ознакомления

Рекомендуемые диссертации данного раздела