ПОСТАНОВКАЗАДАЧІ ОПТИМАЛЬНОГО СТОХАСТИЧнОГО КЕРУВАННЯ
1. Загальні положення
Позначатимемо /> – простірстанів, />, />.
Можливі керування є множиноюприпустимих керувань />, яка у свою чергу є підмножиною просторукерувань />:/>, />.
Послідовність керуючих функцій />, />, записана у вигляді
/> (1),
називається стратегією керування.
Задача оптимального керування системою (1) полягає в пошуку такоїпослідовності функцій керування />, що мінімізує цільовий функціоналсистеми за /> кроків.Ця послідовність /> називається оптимальноюстратегією керування.
Визначення. Якщокількість кроків, на яких досліджується поведінка системи, є скінченною, тозадача називається задачею зі скінченним горизонтом рішення. Якщо ж мирозв’язуємо задачу на нескінченному часовому інтервалі (/>), то горизонт рішення єнескінченним.
Задача оптимального стохастичного керування з дискретним часом випливаєіз детермінованої задачі, якщо система функціонує за умов випадкових збурень />. У цьомувипадку функція (1), що визначає стан системи на кожному наступному кроці,залежить від поточного стану />, керування /> і випадкових збурень />:
/>, />. (2)
Збурення /> є елементами деякогоймовірнісного простору /> (де /> – простір збурень, /> – />-алгебра підмножин з />) і маєрозподіл />.2 Критерії якості
Розглянемо спочаткукритерії якості, які найчастіше використовуються в детермінованих дискретнихзадачах керування, а потім перейдемо до стохастичного випадку. Якщо на кожномукроці функціонування системи задана функція />, що визначає витрати за один кроккерування, то критерій якості руху матиме вигляд
/>. (3)
Величина />, що називається коефіцієнтомдисконтування, визначає внесок витрат за всі попередні кроки на кожномупоточному кроці.
Найчастіше критерій(3) використовується в тих випадках, коли необхідно розв’язувати задачі,пов'язані з витратами деяких видів ресурсів. Саме цей функціонал ми будемовикористовувати надалі.
Крім критерію (3) розглядаютьсятакож критерії, які мінімізують горизонт системи /> і є аналогом часу руху длянеперервних систем. У цьому випадку цільовий функціонал матиме вигляд
/>.
Також часто вдискретних задачах керування використовуються термінальніфункціонали якості
/> або />,
де /> – заданий стан системи,/> –кінцевий стан системи.
Оскільки в задачіоптимального стохастичного керування збурення /> випадкові, то може бути тількиапріорна інформація про них, наприклад, у вигляді функції розподілу, відомоїповністю або частково. У цьому випадку якість процесу керування оцінюється задопомогою формули
/>,
яка дорівнює математичномусподіванню функції />. 3 Види функцій керування стохастичноюсистемою
Задачадетермінованого керування відрізняється від свого стохастичного аналога тим, щов першій відсутні неконтрольовані фактори />, і еволюція системи однозначновизначається обраним керуванням />. Отже, у задачі детермінованогокерування для кожного початкового стану /> можна заздалегідь вибратипослідовність оптимальних керувань />, />, …, />, застосування яких дає оптимальнезначення функціонала />.
Для стохастичноїсистеми в загальному випадку цього зробити не можна, оскільки системапереходить зі стану в стан не тільки під дією керування />; на неї на кожномукроці також впливають випадкові величини />. Очевидно, що, по-перше, цівеличини можуть так змінити траєкторію системи, що обране раніше за оптимальнекерування /> вмомент його застосування вже таким не буде, і, по-друге, інформація, одержуванана кожному кроці про впливи />, що мали місце, може бутидодатково використана для поліпшення якості керування (рис. 1).
/>
Рисунок 1 – Еволюція стохастичної системи (/>– заданий стан)
Отже, для розв’язаннязадач оптимального стохастичного керування доцільно використовувати стратегії />, у яких /> – функція минулихстанів системи. У цьому випадку схема визначення оптимального керування накожному кроці наступна. Якщо /> – початковий стан системи, то заперше керування вибирається функція />. Якщо мали місце стани />, …, /> і були заданікерування />,…, />, токерування на />-му кроці вибирається як функція />, (/>для всіх />). Отже, длявибору керування використовується вся інформація, що є в наявності. Описанастратегія керування є позиційною, оскільки керування визначається залежно відреалізованих позицій (станів) системи, на відміну від програмного керування,коли послідовність керувань визначається заздалегідь, до початку процесукерування, і є функцією часу.
Розглянемо окремівипадки.
Якщо />, />, то керуванняназивається стаціонарним керуванням. Такі стратегії найпростіші, оскільки єодним і тим же вектором для всіх моментів часу.
Керування />, />, називається марковськоюпозиційною стратегією (стратегією, кожний елемент якої залежить тільки відпоточного стану системи).
Керування />, />, називається напівмарковськоюпозиційною стратегією (стратегією, кожний елемент якої залежить тільки відпоточного і початкового станів системи).
Марковські танапівмарковські позиційні стратегії використовуються найчастіше.
Зрозуміло, що взагальному випадку кінцевий стан системи />, згідно з формулою (2) />, />, залежить відпочаткового стану />, керувань /> і збурень />. Щоб переконатисяв цьому, досить виразити в (2) /> через />, потім /> через /> і т.д. Якщо ці перетворенняможливо провести, то одержимо співвідношення />. Це означає, що різнимреалізаціям випадкового збурення /> для одного початкового стану /> відповідатимуть різні оптимальні стратегії керування />.4 Формальнапостановка задачі оптимального стохастичного керування
Розглянемо систему (2) із цільовим функціоналом (3). Надалі, якщо іншене обговорено спеціально, будемо вважати, щооптимальні керування на кожному кроці позиційні: />, /> і />, />.
За таких умов задача оптимального стохастичного керування полягає впошуку оптимальної послідовності функцій керування />, (тобто стратегіїкерування), що мінімізує сумарні витрати за увесь час функціонування системи.
Формальна постановказадачі оптимального стохастичного керування зі скінченним горизонтом у дискретному випадку має вигляд:
/>, (4)
/>. (5)
Розв’язання задачіоптимального стохастичного керування з нескінченним горизонтом полягає в пошукупослідовності керувань />, які мінімізують сумарні витрати.
Формальна постановказадачі оптимального стохастичного керування з нескінченним горизонтом у дискретному випадку має вигляд:
/>, (6)
/>. (7)
Далі під часрозв’язання задач оптимального керування вважатимемо, що границя у (6) існуєдля всіх /> і/>.
Будемо розглядатизадачі (4) – (5) і (6) – (7) у стаціонарному випадку, тобто припускатимемо, щопростори станів і керувань /> і />, обмеження керування />, функція /> і витрати /> не змінюютьсяпри переході від кожного кроку до наступного. Якщо ж це не так, то задача єнестаціонарною. Нестаціонарна задача може бути зведена до стаціонарної задопомогою спеціальних методів, тому далі мова йтиме тільки про стаціонарні задачі.
Зупинимосядетальніше на позначеннях, зроблених вище.
Визначення. Функція /> називається функцією витрат за /> кроків пристратегії /> взадачі зі скінченним горизонтом />. Аналогом цієї величини длязадачі з нескінченним горизонтом є функція /> – функція витрат при стратегії />.
Для фіксованого стану/> позначимочерез /> і /> оптимальнівитрати в цих задачах, тобто
/>,
/>.
Якщо останніспіввідношення вірні для всіх />, то функція /> називається оптимальноюфункцією витрат за /> кроків, а /> – оптимальною функцієювитрат.
Стратегія /> називається оптимальноюпри горизонті /> в стані />, якщо
/>,
і оптимальною в стані/>, якщо
/>.
Стратегія /> називається оптимальноюпри горизонті />, якщо />. Це означає, що стратегія /> доставляєоптимальне значення цільовому функціоналу при всіх />.
Аналогічно, стратегія/> називаєтьсяоптимальною, якщо
/>. (8)
Стратегія /> називається рівномірнооптимальною при горизонті />, якщо стратегія /> оптимальна пригоризонті /> длявсіх />.Отже, якщо стратегія рівномірно оптимальна при горизонті />, то вона такожоптимальна при горизонті />. Зворотне твердження в загальномувипадку невірно.
Стратегія /> називається стаціонарноюстратегією, якщо />.
Якщо у цьому випадкузначення цільового функціонала /> в задачі оптимальногостохастичного керування з нескінченним горизонтом отримано з використаннямстаціонарної стратегії />, то результат позначають />. Отже,стаціонарна стратегія /> у задачі з нескінченнимгоризонтом оптимальна, якщо />. Тут /> – оптимальне значення цільовогофункціонала задачі.
Розв’язання будь-якоїзадачі оптимального стохастичного керування здійснюється за шість етапів:
1. Змістовнапостановка задачі.
2. Побудова моделіоб'єкта керування, що включає вибір векторів станів і керувань, просторівстанів і керувань, вектора і простору випадкових збурень; побудову функціївитрат, що визначається метою керування.
3. Формальнапостановка задачі.
4. Вибір іобґрунтування методу розв’язання задачі.
Обчисленняоптимальної стратегії керування одним з методів.
6. Аналіз отриманихрезультатів.5 Алгоритм розв’язання задачіоптимального стохастичного керування
Процедура пошукуоптимальних позиційних стратегій є досить складною задачею. Одним з головнихпитань, вирішення якого дозволяє у значній мірі полегшити цю процедуру, єнаступне: чи можна обмежитися пошуком оптимальних стратегій у класістаціонарних або марковских стратегій? Якщо це можливо, то структура керуваннязначно спрощується, і, крім того, зменшується об'єм оброблюваної інформації: непотрібно запам'ятовувати керування />, …, />, попередні стани />, …, /> і діставати залежністьпоточного керування /> від усіх цих величин. У цьомувипадку для розв’язання дискретних задач оптимального керування зі скінченнимгоризонтом найчастіше використовується алгоритм, заснований на методідинамічного програмування, запропонованого Беллманом. Суть методу полягає внаступному:
/>, (9)
/> (10)
де математичнесподівання береться за мірою />. Формули (9) – (10) єстохастичним аналогом детермінованого алгоритму методу динамічного програмування.
Величина /> – цеоптимальні витрати, пов'язані з функціонуванням системи, за останні /> кроків, заумови, що перед першим із цих кроків система перебувала в стані />. Стратегія />, кожнийелемент якої /> доставляє оптимальне значення(10) для всіх />, />, є оптимальною стратегією длякожного />.Оптимальна функція витрат /> даної задачі визначається на />-му кроці ідорівнює />.
Для розв’язання задачоптимального стохастичного керування з нескінченним горизонтом, як правило,застосовуються чисельні методи, які дозволяють на кожній ітерації одержуватинаближення до оптимального керування і оптимальної функції витрат. У цьомувипадку можна показати, що оптимальна функція витрат /> задовольняє рівнянню Беллмана
/>.6 Формулювання задачі оптимального керуванняв термінах відображень
Сформулюємо задачуоптимального стохастичного керування (4) – (5), а також алгоритм динамічногопрограмування за допомогою відображення />, яке задане формулою:
/>.
Розглянемо оператори /> і />, яківідображують множину функцій, що приймають дійсні значення на />, в себе:
/>,
/>, />.
За такихпозначень задачу оптимального стохастичного керування (4) – (5) можна записатиу вигляді:
/>,
/>,
де />, />, а /> – суперпозиціяоператорів /> (нагадаємо,що суперпозицією відображень /> і /> називається відображення /> таке, що />, />).
Алгоритмдинамічного програмування (9) – (10) у термінах відображень можна записати утакий спосіб:
/>, />,
звідки випливає, що />, де /> – />-кратнийдобуток оператора /> на себе.
Задачу з нескінченнимгоризонтом (6)-(7) у термінах відображень
можна сформулювати в такий спосіб.
/>,
/>.
Функціональнерівняння Беллмана тепер буде еквівалентно рівності
/>, />.