ЧИСЕЛЬНЕ РОЗВ’ЯЗАННЯ ЗАДАЧоптимального керування
1 Дискретизація задачі із закріпленим лівим і вільнимправим кінцем. Необхідні умови оптимальності
Розглянемо неперервну задачу оптимального керування
/>,(1)
/>,(2)
/>, />, />. (3)
Виконаємо дискретнуапроксимацію даної задачі. Для цього розіб’ємо відрізок /> точками />, /> і будемо обчислюватизначення цільового функціонала і закону руху тільки в точках розбиття: />, />, />. Закон руху вцьому випадку можна записати у вигляді:
/>.
Тепер дискретназадача оптимального керування, що апроксимує неперервнузадачу (1) – (3), матиме вигляд:
/>, />, (4)
/> , (5)
/> (6)
/>, />. (7)
Для пошукуоптимального розв’язку отриманої дискретної задачі може бути застосований методмножників Лагранжа. Функція Лагранжа має вигляд:
/>,
/>,(8)
де />.
Обмеження накерування введемо далі, під час реалізації чисельного методу. Відзначимо, щоперед першим доданком стоїть знак «–», оскільки /> і якщо не додавати «–», тохарактер екстремуму початкової функції зміниться.
Якщо /> – локально-оптимальнийпроцес для задачі (4) – (7), то існують такі нерівні одночасно нулю множникиЛагранжа />,/>, />, />, що матимутьмісце наступні умови:
1. /> або
/>,
/>,
/>. (10)
2. /> або
/>,
/>. (11)
Із (9) одержимоітераційні співвідношення для спряжених змінних />, а з (10) – співвідношення для />:
/>
/>, (12)
/> . (13)
Перепишемоспіввідношення (12) у вигляді:
/>.
Очевидно, що останнєспіввідношення є аналогом спряженої системи для неперервних задач керування.Дійсно,
/>.
Якщо />, то з останньогоспіввідношення одержимо
/>.
Зі співвідношення(13) випливає, що />.
Сформулюємо критерійоптимальності для задачі (4) – (7). Вважатимемо, що функції />, /> неперервно-диференційованіза змінними /> іопуклі за />.Тоді для локально-оптимального процесу /> існують такі множники Лагранжа />, />, />, />, не всі рівнінулю одночасно, що матимуть місце необхідні умови екстремуму:
1) умовистаціонарності в точці />:
/>;
2) />. (14)
Розпишемо (14),використовуючи вираз для функції Лагранжа:
/>
Перетворимо вираз підзнаком мінімуму, переходячи до довільного />:
/>
Або
/>
Якщо />, то з останньогоспіввідношення одержимо
/>2 Ітераційний метод розв’язання дискретноїзадачі оптимального керування з двійним перерахуванням
Розглянемоітераційний метод пошуку оптимального керування задачі (4) – (7). Суть методуполягає в тому, що на кожній ітерації обчислюються два вектори: /> і />. Перший із них містить />-е наближеннядля керувань у моменти часу /> для системи (14), при />, а другий – />-е наближеннядля фазових станів системи в ці ж моменти часу. Отже, на кожній ітерації миодержуємо процес />, що є />-м наближенням до шуканого оптимальногопроцесу.
Контроль уметоді подвійного перерахування полягає в повторному перерахуванні результатівзадачі і порівнянні отриманих даних для різних значень кроку розбиття. Увипадку розбіжності виконується корекція і обчислення повторюються.
Розглянемо алгоритмметоду.
1. Задаємо крокрозбиття /> таточність обчислень />.
2. Задаємо початковенаближення – припустимий набір керувань на кожному кроці – початкову стратегіюкерування:
/>, />, />,
де /> – наближення керуванняв момент /> наітерації />.
3. За визначеною в п.2 стратегією керування /> будуємо фазову траєкторію процесу
/>, />, />
на початкової ітерації/>,використовуючи початкові умови і різницеві співвідношення, що апроксимуютьрівняння руху:
/>
/>, />.
4. Визначаємопочаткове наближення /> відповідно до (5).
5. Знаходимоспряжені змінні за формулами (12) – (13).
Визначаємо наступнінаближення до оптимального керування />,
/>
в момент /> як розв’язкизадачі (15) або (16):
/>, />.
7. Обчислюємовідповідну стратегії /> траєкторію
/>
за формулами (4),(6):
/>, />, />.
8. Знаходимо наступненаближення цільового функціонала
/> за формулою (5).
9. Якщо />, то переходимодо п. 10, інакше вважаємо, що
/>, />, /> і переходимо до п. 13.
10. Перевіряємо, чивиконується задана точність обчислень. Якщо
/> і />,
то переходимо до п. 13,інакше – до п. 11.
11. Позначаємо
/>, />, />.
12. Виконуємонаступний крок ітераційного методу – п. 5.
13. Позначаємо
/>, />, /> – розв’язок, отриманийіз кроком розбиття />.
1 Якщо крок /> не ділився, топереходимо до п. 15, інакше – до п. 1
15. Ділимо крок
/>. Тоді /> і переходимо до п. 2при />.
1 Перевіряємо задануточність. Якщо
/> і />,
то переходимо до п. 18,інакше переходимо до п. 17.
17. Позначаємо
/>, />, />, />, і переходимо до п. 15– наступного кроку подвійного перерахування.
18. />, />, /> – розв’язок задачі.
Кінець алгоритму.3. Оптимальне стохастичне керування: формулюванняіз зовнішнім інтегралом
Розглянемовідображення />, що задане формулою
/>, (17)
за таких припущень:
параметр /> приймає значення звимірного простору />. Для будь-якої фіксованої пари /> заданаймовірнісна міра /> на просторі />, а символ /> у формулі (12)означає зовнішній інтеграл відносно цієї міри. Отже,
/>;
функції /> і /> відображують множину /> відповідно вмножини /> і/>, тобто />, />;
скаляр /> додатний.
Формули (1), (6) єокремими випадками відображення /> з (12). Очевидно, що відображення(1) для детермінованої задачі випливає з (12), якщо множина /> складається з єдиногоелемента, а відображення (6) (для стохастичної задачі зі зліченним просторомзбурень) відповідає випадку, коли множина /> зліченна, а /> є />-алгеброю, складеною ізвсіх підмножин />.
Очевидно, щовідображення /> з (12) задовольняє припущенню монотонності.Якщо на множини />, /> і функції />, /> і /> накласти вимоги вимірності,то витрати за /> кроків /> можна визначити в термінахзвичайного інтегрування для будь-якої стратегії />, для якої функції />, /> вимірні.
Для початкового стану/> істратегії /> ймовірнісніміри
/>, ..., />
у сукупності ізсистемою рівнянь
/>, /> (18)
визначають єдину міру/> на />-кратномупрямому добутку /> копій простору />. У випадку, якщо />, />, і виконується одна з умов
/> або
/>,
то функція витрат за /> кроків, щовідповідає вимірній стратегії />, приводиться до звичайноговигляду
/>,
де стани />, /> виражено якфункції змінних />, ..., /> за допомогою рівнянь (13) тапочаткового стану />.
Рекурентнеспіввідношення методу динамічного програмування для розв’язання багатоетапнихзадач оптимального стохастичного керування зі скінченним горизонтом можназаписати так:
/>, />,
/>
де /> –щільність розподілу величини />.4 Оптимальне стохастичне керування: мультиплікативний функціонал витрат
Розглянемо відображення />, що задане формулою
/>, (19)
за припущення, щопараметр /> приймаєзначення зі зліченної множини /> відповідно до заданого розподілу ймовірностей,що залежать від стану /> і керування />. Вважатимемо також, що />, />, />, />. Тодівідображення /> з формули (14) задовольняєприпущенню монотонності.
Якщо />, />, то задача оптимальногокерування з мультиплікативним функціоналом витрат і скінченним горизонтом /> матиме такий вигляд:
/>, (20)
/>. (21)
а відповідна задача знескінченним горизонтом:
/>, (22)
/>. (23)
Границя в (23) існує,якщо />: /> або />.
Самостійний інтересстановить задача з експоненціальною функцією витрат
/>,
/>,
де />.
Для розв’язаннябагатоетапних задач оптимального стохастичного керування з мультиплікативнимфункціоналом витрат використовується таке рекурентне співвідношення алгоритмудинамічного програмування:
/>, />,
/>
де /> – щільність розподілувеличини />.5. Мінімаксне керування
Розглянемо задачукерування системою, у якій некерованими впливами є стратегії супротивника (абоявища природи) />, />, що обираються залежно відпоточного стану /> і керування />. Вважатимемо, що припустимістратегії супротивника приймають значення із множини />, />. Будемо обчислювати стратегіюкерування />,орієнтуючись на найгіршу поведінку супротивника. Розглянемо відображення />, задане формулою
/>,
за таких припущень:
параметр /> приймає значення здеякої множини />, а /> – непуста підмножина /> при будь-яких />, />;
функції /> і /> відображують множину /> в множини /> та /> відповідно,тобто />, />;
скаляр /> додатний.
За таких умовприпущення про монотонність для відображення /> має місце. Якщо при цьому />, /> і /> для всіх />, />, />, то відповідну/>-кроковузадачу мінімаксного керування можна сформулювати так:
/>, (17)
/>. (18)
Задача з нескінченнимгоризонтом формулюється аналогічно:
/>, (24)
/>. (25)
Границя успіввідношенні (25) існує при виконанні будь-якої з умов:
· />,/>, />, />;
· />,/>, />, />;
· />, />, />, />, /> і деякого />.
Для розв’язаннябагатокрокових мінімаксних задач оптимального стохастичного керуваннярекурентне співвідношення алгоритму динамічного програмування використовуєтьсяу такому вигляді:
/>, />,
/>,
/>.