Метод динамічного програмування

МЕТОДДИНАМІЧНОГО ПРОГРАМУВАННЯ

1 Принцип оптимальності
Оптимальне керування в будь-який моментчасу не залежить від передісторії процесу і визначається тільки станом системив поточний момент і метою керування. Якщо в якийсь період часу керування булонеоптимальним, то наслідки цього в майбутньому виправити вже не можна. Підметою керування розуміються вимоги, яким повинна задовольняти керована система,наприклад, це може бути приведення системи в заданий стан або забезпеченняпевних умов руху протягом заданого періоду часу.
Отже, принцип оптимальності характеризуєнаступний за заданим станом рух системи, але він може не мати місця длятраєкторії, що передує цьому стану.
2 Метод динамічного програмування
Розглянемо застосування методу динамічногопрограмування до розв’язання неперервних задач оптимального керування. У цьомувипадку треба виконати дискретизацію початкової задачі, тобто початкову задачупотрібно замінити близькою їй дискретною задачею. Розглянемо динамічну систему,закон руху якої описується автономним диференціальним рівнянням
/>,(1)
де />, /> – кусково-неперервні функції.
Припустимо, що початковий стан системи /> заданий, а накерування накладено обмеження />. Вважатимемо, що час руху /> фіксований.Цільовий функціонал задачі в цьому випадку матиме вигляд:
/>.(2)
Для дискретизації неперервної задачі (1) – (2)розіб'ємо відрізок /> на /> інтервалів довжиною
/>
кожний, де /> – натуральне число. Значенняфункцій /> і/> будемодалі визначати лише в дискретні моменти часу />, де />. Для цього введемо позначення />, />, і замінимодиференціальне рівняння (1) різницевим, апроксимуючи першу похідну значеннями вдискретні моменти часу:
/>.
З останнього співвідношення випливає, що
/>, />.(3)
Інтегральному цільовому функціоналу (2)відповідає інтегральна сума
/>.(4)
Отже, ми перейшли до дискретної задачі, уякій потрібно знайти такі керування />, що задовольняють обмеженню />, />, і мінімізуютьфункціонал (4) за початкових умов />. Очевидно, що результатирозв’язання цієї задачі будуть тим точніше апроксимувати початкову неперервнузадачу, чим більше />.
Розглянемо співвідношення
/>, />,
де />, …, /> визначаються за рекурентнимиформулами (3), і позначимо
/>.
Величина /> – це частина інтегральної суми(4), що відноситься до моментів часу
/>,
/>
і залежить від стану /> системи в момент часу
/>.
Відповідно до принципу оптимальності,керування /> наостанньому етапі треба обирати так, щоб
/>.
Далі будемо розглядати лише задачі, у якихзазначений мінімум досягається в єдиній точці.
На наступному етапі визначимо керування />, для якого
/>,
де
/>,
а
/>
– керування, що залежить від стану, у якомуперебуває система. Отже, на передостанньому відрізку часу знайдене оптимальнекерування як функція від стану />, в якому перебуватиме система намомент часу
/>.
Повторюючи цю процедуру, на />-му етапі потрібновизначити оптимальне керування />, що задовольняє співвідношенню
/>(5)
де
/>
відповідно до (3). Співвідношення (5)називаються рекурентними співвідношеннями Беллмана.
Після того, як на останньому етапі будезнайдено значення /> і оптимальне керування />, то за відомимзначенням /> можнавизначити послідовно />, />, …, />, />, />. При цьому значення /> відповідаємінімальному значенню функціонала (4).
Наведений алгоритм розв’язання задачіоптимального керування методом динамічного програмування можна перенести назагальний випадок задачі керування з векторним законом руху (1), тобто якщо />, />.
3 Принцип оптимальності для задачі оптимальногокерування з фіксованим часом і вільним правим кінцем
Розглянемо автономну систему
/>,(6)
з цільовим функціоналом
/>,(7)
у якому початковий і кінцевий моменти часу /> і /> задані, ізаданий початковий стан />.
Починаючи з будь-якого моменту часу />, відрізокоптимальної траєкторії />, /> від точки /> до точки /> також є оптимальноютраєкторією.
Відносно початкового відрізка оптимальноїтраєкторії до точки /> можна стверджувати, що цей відрізокє оптимальною траєкторією, лише у тому випадку, коли точка /> фіксована (наприклад, убагатоточкових задачах керування), тобто коли за умовами припустима траєкторіяобов'язково повинна проходити через точку />. Якщо ж задана тільки початковаточка />, товідрізок оптимальної траєкторії може і не бути оптимальною траєкторією, тобтоможе не доставляти оптимальне значення функціоналу (7).
4 Рівняння Беллмана в задачі з фіксованим часомі вільним правим кінцем
Розглянемо систему з законом руху (6) ікритерієм оптимальності (2). Початковий стан системи заданий:
/>,(8)
час руху /> відомий, а кінцевий стан /> – невідомий.Побудована таким чином задача – це задача з фіксованим часом і вільним правимкінцем.
Позначимо через />, /> оптимальну траєкторію, якавідповідає оптимальному керуванню />. Зафіксуємо деякий момент часу /> і відповіднуйому точку /> наоптимальній траєкторії. Відповідно до принципу оптимальності, відрізоктраєкторії /> відточки /> доточки /> єоптимальною траєкторією і надає найменшого значення функціоналу
/>
серед всіх припустимих процесів /> на відрізкучасу /> зпочатковим станом />, тобто
/>.
Припустимо, що для будь-якої точки /> фазовогопростору /> ібудь-якого моменту часу /> існує оптимальна траєкторія зпочатковою умовою />, яка надає найменшого значенняфункціоналу />.Позначимо це мінімальне значення через
/>.
Функція />, що задана у всіх точках />, простору />, />, називаєтьсяфункцією Беллмана.
Припустимо, що />, />, – оптимальний процес іоптимальна траєкторія /> задовольняє початковій умові />. Тоді
/>
визначає цільовий функціонал (2) початковоїзадачі.
Розглянемо приріст /> і відповідний йому момент часу />. Очевидно, щоостаннє співвідношення можна переписати так:
/>.(9)
Відповідно до принципу оптимальності, відрізокоптимальної траєкторії від точки /> до точки /> також є оптимальною траєкторією,тобто
/>,
тому співвідношення (9) можна переписати увигляді
/>.(10)
Очевидно, що другий доданок в (10) залежитьвід стану системи /> (оскільки оптимальне значенняфункціонала /> залежитьвід початкового стану системи /> і для кожного початкового стану /> оптимальнезначення функціонала /> різне). У цей стан />, у свою чергу, системапопадає під дією керування />, яке діє на інтервалі часу />. Отже,значення /> залежатимевід вибору керування на відрізку />.
Дійсно, розглянемо різні припустимікерування /> навідрізку />.Їм відповідатиме набір траєкторій /> , що виходять із точки />, яка лежить наоптимальній траєкторії />. На кожній траєкторії із цьогонабору фазова точка в момент часу /> попаде в деякий стан />.
Виберемо керування /> на відрізку /> так, щоб траєкторія /> на цьомувідрізку була оптимальною. Це оптимальне керування в загальному випадку різнедля кожної траєкторії пучка. Очевидно, що вибираючи одне – оптимальне – середвсіх можливих керувань />, /> для кожної із траєкторій />, ми фіксуємоподальший стан кожної із них і при цьому одержуємо мінімальне значенняфункціонала
/>,
яке дорівнює
/>.
Очевидно, що це значення залежить від стану/>. Аоскільки, як було встановлено раніше, стан /> залежав від вибору керування /> на відрізку />, то й значення/> такожзалежатиме від того, яким було обрано керування />, />.
Розглянемо значення функціонала /> на траєкторіяхз набору, побудованого вище при />. Оскільки відрізок кожноїтраєкторії /> відточки /> доточки /> єоптимальним відповідно до принципу максимуму, то значення функціонала дорівнює
/>.(11)
Ясно, що останнє співвідношення різне длякожної з траєкторій /> і відповідного цій траєкторіїкерування /> навідрізку />.Виберемо серед всіх значень /> мінімальне. Оскільки обидвадоданки в (11) залежать тільки від вибору керування /> на інтервалі />, то і мінімальнезначення (11) залежатиме тільки від вибору керування на цьому інтервалі, тобто
/>.
Побудований набір траєкторій є підмножиноюбільш широкої множини всіх припустимих функцій, на яких шукається найменшезначення функціонала />. Тому в загальному випадку маємісце нерівність
/>.(12)

Але оскільки оптимальна траєкторія /> належить допобудованого набору траєкторій, то в співвідношенні (12) насправді має місцерівність, тобто
/>.
Звідси з урахуванням (11) одержимо
/>, (13)
тобто оптимізація процесу проводитьсятільки для />,тому що для /> траєкторія вже оптимальна.
Розглянемо поведінку останньогоспіввідношення при />, тобто коли інтервал />, на якомушукається оптимальне керування, звужується до точки. Відповідно до закону руху
/>.
Вважатимемо, що функція Беллмана /> неперервнодиференційована по всіх своїх аргументах. Тоді
/> (14)
Позначатимемо далі
/>.
Співвідношення (14) з урахуванням цьогопозначення набуде вигляду
/>.
Використовуючи останнє співвідношення,рівність (13) можна подати у вигляді
/> (15)
Оскільки функції /> і /> у правій частині (15) не залежатьвід />, їхможна винести за знак мінімуму. Після скорочень одержимо
/>.
Припустимо, що функція /> є неперервною навідрізку />.Розділивши останнє співвідношення на />, при /> одержимо

/>.(16)
Останнє співвідношення називаєтьсярівнянням Беллмана. Воно є аналогом рекурентних рівнянь Беллмана дискретноїзадачі оптимального керування для випадку неперервної системи.
Замінивши /> на />, де /> – оптимальна траєкторія, одержимоз (16)
/>.(17)
До рівняння Беллмана додаються крайовіумови, що випливають безпосередньо з визначення функції Беллмана:
/>.(18)
Рівняння Беллмана – це диференціальнерівняння в частинних похідних відносно функції />. Але це рівняння не є лінійнимчерез наявність у (17) операції мінімізації. Фактично це означає підстановку врівняння такого />, на якому досягається мінімум іяке змінюється в залежності від значень /> і />.
5 Рівняння Беллмана в задачі з фіксованими кінцямита вільним часом
Додамо до задачі (2), (6), (9) умовузакріплення правого кінця траєкторії />, де /> – задано, а /> – невідомо. У цьомувипадку функція Беллмана залежатиме тільки від поточного стану системи. Дійсно,згідно з визначенням функції Беллмана
/>.
Якщо підінтегральна функція не залежить від/>, тозначення інтеграла /> при фіксованих /> і /> залежить тільки віддовжини інтервалу інтегрування />, який можна визначити завтономної системи (6), якщо відомі точки /> і /> фазової траєкторії. Тому різниця /> – це функціявід аргументів /> і />, а /> не залежить явно від />. У цьомувипадку /> ірівняння Беллмана для задачі із закріпленими кінцями набуває вигляду
/>.
6 Рівняння Беллмана в задачі швидкодії
Розглянемо задачу оптимальної швидкодії зфіксованими кінцями і вільним часом, закон руху якої має вигляд (6) і заданіпочатковий стан /> та кінцевий стан />. Час /> невідомий і йогопотрібно знайти з умови мінімізації цільового функціонала
/>.
У задачі з фіксованими кінцями і вільнимчасом функція Беллмана залежить тільки від поточного стану системи і незалежить від моменту, починаючи з якого розглядається її еволюція (доведенняаналогічно п. 5), тобто />.
Вважатимемо, що функція /> неперервна на будь-якомувідрізку /> ідля будь-якої точки фазового простору /> і будь-якого моменту часу /> існуєоптимальна траєкторія, а функція /> неперервно диференційована засвоїми аргументами. Тоді необхідна умова оптимальності у вигляді рівнянняБеллмана (17), (18) для даної задачі матиме вигляд:
/>,
або
/>
за заданих крайових умов />.
Очевидно, що якщо процес /> – оптимальний, то,будучи підставленим у рівняння Беллмана, він дасть тотожність
/>.
Зауваження. Оскільки функція Беллмана /> дорівнюємінімальному значенню цільового функціонала, що характеризує перехід системи вкінцевий стан зі стану />, то в задачі оптимальноїшвидкодії ця функція показує оптимальний час переходу /> зі стану /> у фіксований стан />.

7 Зв'язок методу динамічного програмування ізпринципом максимуму
Розглянемо задачу оптимального керування зфіксованими кінцями та вільним часом (6) з цільовим функціоналом />, і крайовими умовами/>, />. Вважатимемо,що час /> невідомий.
Оптимальне керування будемо вибирати середкусково-неперервних вектор-функцій />. За принципом динамічногопрограмування для оптимального процесу /> існує такий розв’язок /> рівнянняБеллмана
/>,(19)
що /> – значення, на якому досягаєтьсямінімум у лівій частині рівняння (19).
Доведемо, що з рівняння (19) випливаєіснування деякого вектора />, який задовольняє співвідношеннямпринципу максимуму. Нехай /> – функція Беллмана, що відповідаєоптимальному процесу />. Розглянемо нову змінну
/>
і нову функцію
/>,

де />.
Використовуючи ці позначення, перетвориморівняння Беллмана. Очевидно, що
/>, />, />,
тому
/>
Оскільки />, то останнє співвідношення можнапривести до вигляду:
/>.(20)
Позначимо
/>, />.
Тоді формула (20) стає аналогом функціїПонтрягіна
/>,

де />.
Це означає, що на оптимальному процесі /> функціяПонтрягіна набуває максимального значення, рівного 0. Очевидно, що функціяПонтрягіна не залежить від />, тому що /> і />, /> не залежать від />.
Доведемо, що спряжені змінні /> задовольняють спряженійсистемі
/>, />.(21)
Для цього припустимо, що функція Беллмана /> має неперервнічастинні похідні другого порядку. Позначимо
/>.(22)
Оскільки оптимальне керування /> однозначновизначає оптимальну траєкторію />, то функція /> досягає на кожномуфіксованому /> позмінній /> максимальногозначення, рівного 0, у точці />, що відповідає оптимальномукеруванню /> вцій точці. У цьому випадку для функції /> в будь-який момент часу дляпроцесу /> будевиконана умова
/>, />, />.(23)
Продиференціюємо співвідношення (22):
/>, />.
Тоді відповідно до (23) для оптимальногопроцесу дістанемо
/>, />.(24)
Оскільки
/>,
то співвідношення (24) можна переписати увигляді:
/>,
або, з урахуванням позначень (21),
/>, />.
Оскільки />, то
/>,
а це, у свою чергу означає, що
/>, />.
Отже, встановлено теоретичний зв'язокпринципу максимуму з методом динамічного програмування. Але на практицівиконати подібну операцію не завжди можливо. Так наприклад, рівняння (21) булоотримано в припущенні, що функція Беллмана /> має неперервні похідні другогопорядку, що не завжди виконується.
Обидва методи придатні для задач, у якихвідсутні обмеження на керування, і всі функції гладкі. Кожний з цих методівможе бути застосований там, де не працює інший. Рівняння Беллмана вимагаєбільше припущень для застосування (неперервність і диференційованість функцій),а принцип максимуму складніше використовувати для розв’язання дискретних задач.

Не сдавайте скачаную работу преподавателю!

Данный реферат Вы можете использовать для подготовки курсовых проектов.

Доработать Узнать цену написания по вашей теме

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Заказать работу:

!	Курсовая работа
!	Дипломная работа
!	Реферат
!	Решение задач
!	Отчет по практике
!	Контрольная работа

Пишем реферат самостоятельно:

!	Как писать рефераты Практические рекомендации по написанию студенческих рефератов.
!	План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
!	Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
!	Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
!	Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:

→	Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Другие популярные рефераты:

Реферат	Механические волны
Реферат	Обратная матрица
Реферат	Инверсия и ее применение
Реферат	Социокультурная динамика межпоколенных взаимодействий
Реферат	Расследование преступлений в сфере компьютерной информации
Реферат	Туристско-краеведческая характеристика Калининградской области
Реферат	Организация административно-хозяйственной службы гостиницы
Реферат	Диагностика психологической готовности ребенка к школе 2
Реферат	Модель современного менеджера
Реферат	Условия формирования военно-административной системы Южного Зауралья в XVII - первой половине XIX века

Сейчас смотрят :

Реферат	Дидактическая игра на уроках математики как средство активизации учебной деятельности при изучении темы « Сложение и вычитание»
Реферат	Дослідження та розробки на підприємстві
Реферат	Гостинница Де Пари
Реферат	Тема вины и возмездия в драме А. Н. Островского Гроза 2
Реферат	Комплекс упражнений, направленных на формирование представлений о функциональной зависимости у младших школьников
Реферат	Деловой туризм 5
Реферат	Авангардное искусство
Реферат	Анализ рынка жилья в городе Иркутске
Реферат	Chinese Footbinding Essay Research Paper The ancient
Реферат	Деятельность секретаря в приемной руководителя
Реферат	Роль леса в художественном сознании русского народа в экономике и культуре России
Реферат	Группа и коллектив. Конфликты в коллективе
Реферат	Групповые конфликты их природа типология и функции
Реферат	Birth Of A Nation Essay Research Paper
Реферат	Діяльність канцелярії. Атестація і звільнення кадрів

Реферат по предмету "Экономико-математическое моделирование"

Метод динамічного програмування

Другие популярные рефераты:

Сейчас смотрят :