Анализ и разработка алгоритмов и программного обеспечения для компьютерных систем управления транспортными техническими устройствами в изменяющихся условиях

  • автор:
  • специальность ВАК РФ: 05.13.11
  • научная степень: Кандидатская
  • год, место защиты: 2005, Москва
  • количество страниц: 128 с.
  • бесплатно скачать автореферат
  • стоимость: 240,00 руб.
  • нашли дешевле: сделаем скидку
  • формат: PDF + TXT (текстовый слой)
pdftxt

действует скидка от количества
2 диссертации по 223 руб.
3, 4 диссертации по 216 руб.
5, 6 диссертаций по 204 руб.
7 и более диссертаций по 192 руб.
Титульный лист Анализ и разработка алгоритмов и программного обеспечения для компьютерных систем управления транспортными техническими устройствами в изменяющихся условиях
Оглавление Анализ и разработка алгоритмов и программного обеспечения для компьютерных систем управления транспортными техническими устройствами в изменяющихся условиях
Содержание Анализ и разработка алгоритмов и программного обеспечения для компьютерных систем управления транспортными техническими устройствами в изменяющихся условиях
Вы всегда можете написать нам и мы предоставим оригиналы страниц диссертации для ознакомления
Оглавление
Введение.
1. Аналитический обзор возможных способов построения программных средств обучения и управления интеллектуальными транспортными устройствами
1.1. Описание области исследования.
1.2. Анализ общей структуры программной системы управления интеллектуальным устройством.
1.3. Методы представления знаний в программных системах управления транспортными устройствами
1.4. Построение планирующих систем в программах управления транспортными устройствами.
1.5. Обучение с подкреплением. Основные понятия
1.5.1 Интерфейс программная система обучения и управления ПСОиУ среда.
1.5.2 Цель, вознаграждение, полное вознаграждение.
1.5.3 Функция стоимости. Рациональная функция
стоимости.
1.6 Постановка задачи исследования.
1.7 Выводы и результаты
2. Методы обучения и управления с подкреплением для работы в изменяющихся условиях.
2.1 Метод полного программирования.
2.1.1 Оценка политики.
2.1.2. Улучшение политики.
2.1.3 Итерация политик
2.1.4 Итерация функции стоимости
2.2 Методы обучения на основе эксперимента.
2.2.1. Оценка политики
2.2.2 Управление методом на основе эксперимента.
2.2.3 Алгоритм управления методами на основе эксперимента в политике.
2.2.4 Алгоритм управления методами на основе эксперимента вне политики
2.3 Методы временных разностей.
2.3.1 Оценка политики алгоритмом временных
разностей
2.3.2 Управление методам временных разностей в политике
2.3.3 Управление методом временных разностей вне политики
2.4 Выводы и результаты.
3. Применение методов обучения с подкреплением, к обучению автоматизированного самоходного агрегата.
3.1 Цели создания модели АСА
3.2 Реализация модели.
3.2.1 Состав и содержание модели.
3.2.2 Блочная структура модели. Основные параметры и переменные модели. Согласованное взаимодействие блоков программы в
процессе моделирования.
3.2.3 Блок обучения и реализации движения АСА
3.2.4 Реализация блока обучения на основе
алгоритма обучения на эксперименте.
3.2.5 Реализация блока обучения на основе
алгоритма временных разностей
3.2.6 Блок сценария движения по заранее
заданной траектории
3.3. Анализ результатов моделирования. Оценка
эффективности обучения
3.4 Выводы и результаты.
Заключение
Литература


Предлагаемый способ обучения можно сравнить с обучением человека. Человек обычно обучается в процессе взаимодействия с окружающим миром. Однако обратная связь, вызванная действиями человека, не всегда проявляется сразу и в явной форме. На примере взаимодействия с миром всегда можно проследить причинно-следственные связи, а также последовательности действий, приводящие к реализации сложных целей. Соединение программы обучения и управления и среды функционирования позволяет получить требуемую информацию об эффективности действий, их последовательности для достижения цели. В работе используется оценочный подход к проблеме обучения во взаимодействии со средой, названный обучением с подкреплением [, ]. Базовая идея алгоритмов обучения с подкреплением - собрать наиболее важные аспекты реальной задачи, возникающие перед программной системой устройства в процессе взаимодействия со средой и достижения цели. Очевидно, что программа управления должна уметь определить и оценить состояние, в котором находится устройство, и принять действия, которые повлияют на это состояние. Кроме того, у устройства должна быть поставлена цель, которую необходимо достичь. В процессе обучения с подкреплением вырабатывается вычислительный алгоритм перехода от ситуации к действиям, которые максимизируют величину полученного вознаграждения или выигрыша. В отличие от большинства форм машинного обучения, обучение с подкреплением не определяет явно какое действие выбрать в конкретной ситуации или состоянии, а исследует действия на предмет вознаграждения, которое может быть получено в случае их выполнения. При этом в большинстве случаев выбор действия влияет не только на непосредственное вознаграждение, но и возможно на последующие ситуации и, таким образом, на все дальнейшие вознаграждения. Действия определяются не только сиюминутным результатом, но и последующими действиями и случайными вознаграждениями. Эти два свойства (метод “проб и ошибок” и подкрепление с задержкой) являются основными характеристиками обучения с подкреплением. Таким образом, в терминологии обучения с подкреплением можно выделить три важных компонента: действие, вознаграждение и цель. Важно отметить, что устройство работает на основе собственного опыта, что позволяет использовать представленный способ машинного обучения для построения программных систем автономных устройств . Один из вопросов, возникающих при использовании обучения с подкреплением - это нахождение компромисса между исследованием и эксплуатацией []. Для получения большего вознаграждения устройство в каждой ситуации должно предпочесть действие, которое уже использовалось в прошлом и оказалось наиболее эффективным или приносящим наибольшее вознаграждение. Но для этого программа должна выбирать действия, которые еще не были проверены в данной ситуации или состоянии. Для достижения наибольшего вознаграждения необходимо использовать (эксплуатировать) то, что уже известно, при этом исследовать наиболее выигрышные действия в будущем. Проблема в том, что ни эксплуатация, ни исследование не могут быть использованы отдельно, в отрыве друг от друга. Другая ключевая особенность обучения с подкреплением - наличие определенной цели [,], к достижению которой должны вести все действия устройства. В задачах обучения с подкреплением также возможно использование понятия планирования, но в контексте выбора или компромисса между самим планированием и выбором действий в различных состояниях в режиме реального времени. В обучении с подкреплением участвуют четыре компонента: политика, функция вознаграждения, функция стоимости и модель внешней среды. Политика определяет выбор программной системы управления в каждом из возможных состояний одного из действий и, соответственно, способ действия устройства в определенное время. Такая политика может быть представлена правилами вывода или простой таблицей поиска. Функция вознаграждения задает отображение каждого действия для заданного состояния в числовую меру, определяющую степень эффективности принятия действия в данном состоянии для достижения цели.
Вы всегда можете написать нам и мы предоставим оригиналы страниц диссертации для ознакомления

Рекомендуемые диссертации данного раздела