Критерий оценки выигрыша

Если решать задачу управления методом динамического программирования, то оперировать мы будем двумя наборами параметров: состояниями системы и шаговыми управлениями, переводящими одно состояние в другое. Решением задачи будет последовательность шаговых управлений (траектория системы) в сумме дающих наибольший выигрыш.

Состояние системы - это вектор текущего состояния в подмножестве контрольных параметров. Шаговое управление - вектор управляющего воздействия, то есть значения соответствующих вектору состояния компонент в подмножестве непосредственно управляемых параметров. Определяя вектор целей системы, мы заполняем параметры конечного состояния. Определяя текущее состояние, на момент начала работы, мы определяем стартовое состояние.


А разобраться мы попробуем в том, как как определяется выигрыш.



Оттолкнёмся от идеи оптимальности управления. Ведь именно она определяет способ выбора концепции. Этот выбор определяется так называемым критерием оптимальности. И в ДОТУ это либо «максимизация прибыли», либо «минимизация убытков».

Глава 14 ДОТУ:
По своему существу полный выигрыш V — мера качества управления процессом в целом. Шаговые выигрыши, хотя и входят в меру качества управления процессом в целом, но в общем случае не являются мерами качества управления на соответствующих им шагах, поскольку метод предназначен для оптимизации процесса управления в целом, а эффектные шаговые управления с большим шаговым выигрышем, но лежащие вне оптимальной траектории, интереса не представляют. Структура метода не запрещает при необходимости на каждом шаге употреблять критерий определения шагового выигрыша Vn, отличный от критериев, принятых на других шагах.

В случае с одним управленцем этих двух критериев вполне достаточно. Однако если в систему добавить второго «игрока», пусть даже в виде непредсказуемой внешней среды, выбор критериев становится гораздо шире. Теория игр, например, предлагает следующие варианты (желающие могут найти описание критериев самостоятельно, здесь лишь названия).

Критерий
Описание
Критерий пессимиста (критерий Вальда) В критерии пессимиста максимизируется наихудший из возможных результатовИспользование  критерия  пессимиста  страхует  от наихудшего результата, но цена такой стратегии – потеря возможности получить наилучший из возможных результатов.
Критерий сожалеющего пессимиста (критерий Севиджа) Критерий сожалеющего пессимиста предполагает минимизацию наибольшей потерянной прибыли, иными словами минимизируется наибольшее сожаление по потерянной прибыли
Статистический критерий При использовании статистического критерия максимизируется математическое ожидание полезности
Критерий Лапласа Критерий Лапласа представляет упрощенную максимизацию математического  ожидания  полезности,  при  которой предполагается, что уровни спроса равновероятны, а это избавляет от  необходимости  накопления  реальной  статистики повторяемости уровней спроса.
Критерий оптимиста При использовании критерия оптимиста игрок всегда выбирает решение, которое может дать самый лучший результат, при этом оптимист предполагает, что условия игры будут для него наиболее благоприятными
Критерий Гурвица Критерий Гурвица представляет собой регулируемый компромисс между крайним пессимизмом и полным оптимизмом.

Выбор критерия зависит от условий задачи ,а точнее от полноты информации об объекте управления. Напомню, теория игр, даёт три возможные оценка уровня информации об объекте:
  1. Детерминированная (условия известны полностью) - ищем путь.
  2. Стохастическое (известно множество возможных вариантов условий и их вероятностное распределение) - ищем экстремум функции (или мат ожидание) 
  3. Неопределённый (известно множество возможных вариантов условий без их вероятностного распределения).

0 коммент.: