Министерство образования, здравоохранения и культуры Республики Казахстан ВУЗ АВИЭК Кафедра ЭВМ Курсовая работа По дисциплине: “Теория принятия решений” Тема: “Военные игры. Игры преследования. ” Выполнил: Ст-т гр ЗПОС-96-1 Гринев М. В. Принял: Доцент, к. ф. -м. н. Пшенин Е. С. Алматы 2000г. Введение.
Когда собака гонится за кроликом, то даже если она все время видит его, она не знает его дальнейшего поведения и может руководствоваться только знанием физических возможностей кролика и своих собственных. Таково своеобразие задачи преследования одного управляемого объекта другим управляемым объектом, математическому описанию которой посвящена данная работа. Конечно, здесь речь пойдет не о животных, а о технических объектах, но у этих объектов предполагается некоторая свобода действий, аналогичная свободе воли животных. Заранее нужно сказать, что рассматриваемые в работе технические объекты чрезвычайно элементарны, и весь вопрос ввиду его новизны находится на очень низком уровне развития. В работе рассматриваются игры, в которых участвуют два игрока: убегающий и преследующий. Такие игры преследования называются дифференциальными потому, что в них поведение обоих игроков описывается дифференциальными уравнениями. Фазовые координаты и управления.
Типичными примерами дифференциальных игр являются сражения, воздушные бои, преследование судна торпедой, перехват самолета зенитной ракетой, охрана объектов. Если один из игроков выключается из игры, мы получаем обычную задачу максимизации. Она уже относится к вариационному исчислению и составляет основную часть теории управления.
Решения игроков всегда заключаются в выборе некоторых величин, называемых управлениями. Они в свою очередь определяют собой значения других величин – фазовых координат. Последние обладают тем свойством, сто знание их значений в любой момент времени полностью определяет течение игры. Военные игры.
Фазовые координаты должны быть такими величинами, которые характеризуют положение дел в той мере, в какой по необходимости упрощенная модель задачи соответствует реальному процессу. Фазовыми координатами могут, в частности, быть число людей, самолетов, танков, судов; может оказаться целесообразным разделить их на группы по расположению в различных районах или по какому-либо другому признаку, например по удаленности от линии фронта и т. д. Пусть армия1 – “минимизирующая” - имеет в своем распоряжении управления……; соответственно армия2 – “максимизирующая”- имеет управления ………. Выбор управлений часто обусловлен обстоятельствами. Предположим, например, что платой является разница в живой силе (или снаряжении и т. п. ) в конце игры или в фиксированный момент времени Т. Пусть x1 – соответствующая координата I-той армии, тогда плата равна x2 – x1. Механизм развития подобной игры лучше всего продемонстрировать на конкретных примерах.
Пусть x1 –количество живой силы армии1 в некотором секторе; это количество может уменьшаться за счет воздушных налетов противника. Пусть x3 –число самолетов армии2 (противника), которые можно использовать для этой цели через. Черезy1 обозначим (
Представим, что армия1 получает пополнение с фиксированной скоростью r. Тогда имеем уравнение X`1=r-cy1x3 +… (1)
Многоточие в правой части уравнения означает различные другие члены, как, например, изменения в результате других действий армии2 или маневрирования живой силой армии1. если игра полностью симметрична, то имеем такое же уравнение, только армии меняются ролями.
Пусть x4 –запас военного снаряжения армии1, который служит для ее снабжения. Пусть b максимальная скорость такого снабжения. Пустьj1 (0
При определении пространства состояний E мы будем требовать, чтобы выполнялось условие x4і0. тогда (2) представляет собой ограничение на использование этого запаса и дает игроку возможность распоряжаться этим запасом с учетом его ограниченности.
В левых частях уравнений (1) и (2) стоят обычные производные от координат по времени. Уравнения такого типа служат основным средством описания развития дифференциальной игры. Они называются уравнениями движения и имеют вид: X`м = fi(x1, …xn, ji, …, jn, yn…yn), I=1, …n (3)
Итак, скорость изменения фазовых координат является заданной функцией от фазовых координат и управлений обоих игроков. Игры с движущимся объектом.
Возьмем в качестве примера движущегося объекта автомобиль и рассмотрим при этом уравнение движения, фазовые координаты, управления и различия между последними. Автомобиль выбран потому, что его свойства общеизвестны. Рассуждения можно применить, лишь с малыми изменениями, к любому движущемуся объекту. Летательные аппараты движутся в трехмерном пространстве, но принцип остается тот же. Геометрическое положение объекта, например автомобиля, описывается тремя фазовыми координатами: x1, x2 – декартовы координаты некоторой фиксированной точки автомобиля и x3 –угол, образуемый осью автомобиля с фиксированным направлением, например направлением x1. Предполагается, что движение происходит во всей плоскости x1, x2. Если автомобиль фигурирует в дифференциальной игре, то нужно знать о нем больше. Предположим, сто автомобиль управляется с помощью мотора и руля. Мотор управляет тангенциальным ускорением. Эта величина, находящаяся под контролем игрока, является управлением и будет обозначаться черезj1. Чтобы иметь простой и единообразный вид границ уравнений, мы примем ускорение равным Aj1. Здесь A – максимальное возможное ускорение, и управление j1 подчиняется теперь ограничению вида 0Јj1Ј1. Таким образом, оно является долей полного ускорения и находится под контролем водителя. Скорость x4не находится под непосредственным контролем водителя, но ее величину, как и величины x1, x2, x3, оба игрока должны принимать в расчет. Следовательно, она должна рассматриваться как фазовая координата.
Положение руля определяет кривизну траектории автомобиля. Но нереально считать, сто водитель может менять ее произвольно. Имеет смысл принять кривизну траектории автомобиля за еще одну фазовую координату x5(очевидно, физически это есть угол поворота передних колес), а долю скорости ее изменения - за управлениеj2 . Итак , если W – максимальная скорость изменения величины x5 , то скорость, выбираемая водителем, равна W j2, где -1 Ј j2 Ј1. В этих предположениях движение автомобиля будет определяться следующими уравнениями движения. x`1 = x4 cos x3 (1) x`2 = x4 sin x3, (2) x`3 = x4x5, (3) x`4 = A j1, 0Јj1Ј1 (4) x5 = W j2 , -1 Ј j2 Ј1 (5).
Здесь (1), (2) есть просто разложение скорости автомобиля по осям координат; (3) устанавливает, что скорость изменения направления равна скорости, умноженной на кривизну. Что касается (4), то скорость изменения скорости есть ускорение.
Резюмируя, можем сказать, что величины x1…x5описывают те свойства автомобиля, которые существенны при его участии, скажем, в игре преследования. Они называются фазовыми координатами. Водитель управляет с помощью величинj1 (положение педали газа) и j1(доля скорости вращения руля). Эти величины являются управлениями, и только они одни в каждый момент времени находятся под контролем игрока. Они, в отличие от фазовых координат, не могут быть изменены измерены противником. Данная модель имеет недостаток - неограниченная скорость. Это можно исправить, налагая ограничения на x4, но более естественно изменить само управление (4). Во-первых, утверждение, что сила, развиваемая мотором, пропорциональна величине, на которую отжата педаль газа, следует считать сверхупрощением динамики автомобиля. Во-вторых, самое важное, эта сила пропорциональна ускорению автомобиля, только если пренебрегать трением. Если предположить, что трение пропорционально скорости и направлено в противоположном направлении, то получим улучшенный вариант уравнения (4): x`4 = F(A j1) – Kx4 .
Здесь A j1 (0 Ј j1 Ј1) – величина, на которую отжата педаль газа, F – результирующая сила (на единицу массы автомобиля), развиваемая мотором, а K – коэффициент трения. Тогда скорость будет ограничена величиной F(A)/K. Другая существенная поправка состоит в ограничении кривизны x5. Итак, уравнения движения можно усложнить для получения более точного соответствия с действительностью или упростить для облегчения математических выкладок. Игры преследования.
Много примеров игр преследования можно привести из области военного дела: торпеда и корабль, корабль и подлодка, танк и джип и т. д.
Чтобы получить общую картину, будем обозначать преследователя через Р, а преследуемого через Е. Соответствующие движущиеся объекты могут управляться человеком или автоматически. В более сложных случаях участников игры может быть больше двух, например группа боевых самолетов противостоит эскадре вражеских бомбардировщиков или– уже из другой области –в футболе несколько нападающих играют с удерживающим мяч противником. В общем случае Р и Е - разумные противники с противоположными интересами. Но если каждый из них управляет лишь одним движущимся объектом, то символами Р и Е будут обозначаться сами эти объекты. Так, Р может быть некоторой фиксированной точкой преследующего объекта, например его геометрическим центром. Игра преследования обычно считается оконченной, когда произошел захват. Это означает, что расстояние РЕ стало меньше некоторой наперед заданной величины l.
Для пояснения идей остановимся на некоторых типичных моментах. За Е обычно принимают вторгающийся бомбардировщик, самолет или управляемый снаряд, а за Р–защищающий перехватчик, также самолет или снаряд. Во-вторых, спрашивается: как наилучшим образом должен преследовать Е? Далее, если в каждый момент времени Р знает и свое положение и положение Е, то как он должен в этот момент изменять свои управления? Под положением понимаются не только координаты точек Р или Е, но и другие характеризующие состояние величины, такие, как направление полета, ориентация, скорость, короче– фазовые координаты.
Во-вторых, нужно определить, что означает “наилучшим образом”. По терминологии теории игр необходимо выбрать плату. Критерий наиболее очевиден, если захват всегда осуществим. В том случае, когда интерес представляют только два исхода игры, будем говорить о проблеме как о некоторой игре качества (в отличии от игры степени, которые имеют континуум возможных исходов). Но Р может быть перехватчиком с ограниченным запасом горючего. Тогда наиболее реальный критерий должен основываться на том, сможет ли произойти захват раньше некоторого определенного момента времени. Если Е–бомбардировщик, цель которого - достижение данного объекта, то наиболее интересным является вопрос, сможет ли быть осуществлен захват прежде, чем Е выполнит свое назначение. Если Р использует снаряды, ракеты или другое подобное оружие, то захват состоит в том, чтобы оказаться в зоне достижимости Е. Если же Р не уверен, что попадет в цель точно, он может ставить своей задачей оказаться в зоне достижимости Е в течение определенного времени.
Все вышеописанные случаи соответствуют дискретной, точнее, двузначной плате, и мы будем классифицировать соответствующие им игры как игры качества. Но бывают случаи, когда противники стремятся минимизировать или максимизировать определенную переменную величину. Эта величина есть плата, и игра является игрой степени.
Часто в качестве платы удается выбрать такую непрерывную величину, что она автоматически содержит в себе определенный выше дискретный критерий. Например, предположим, что нас интересует только один вопрос: может ли быть осуществлен захват? В качестве платы можно взять время захвата, причем цель Р– сделать это время по возможности меньшим, а цель Е –по возможности большим. Бесконечное время соответствует случаю, когда захват неосуществим. Тогда, если Р действует в соответствии с этим предписанием, он , конечно, достигает своей основной цели всякий раз, когда захват осуществим. Притом сделает это в кратчайшее время. Теперь предположим, что вначале целью Р был захват за время, не превосходящее некоторого фиксированного Т. минимизируя время захвата Р, разумеется, добьется успеха, если у него есть для этого возможность; нужно только взять минимальную величину времени за захвата, которой смог добиться Р, и посмотреть, превосходит эта величина Т или нет. Эта мысль является достаточно общей. Если, скажем, первоначально было желательно узнать, сможет или нет Е достичь определенной приближенности к некоторому объекту, в качестве платы можно выбрать расстояние до объекта в момент захвата. Имеется в виду, что Р стремиться максимизировать это расстояние, можно быть уверенным, что он не только выполнит свою задачу, защиты объекта, если это возможно, но и достигнет наибольшего резерва безопасности или же сделает все, что в его силах, если он окажется не в состоянии расстроить планы Е.
Итак, ответом на вопрос, что означает в играх “наилучшим образом”, является установление численного значения платы. Для игр качества это можно сделать несколько искусственно, приписав два (или более) числовых значения величине платы для двух (или более) исходов. “Наилучшим образом” для Р означает сделать эту плату наиболее малой. Предположим, что плата выбрана; как Р должен минимизировать ее? Если он преследует снаряд Е, как ему действовать? Должен ли он, например, используя данные о положении Е , пытаться экстраполировать будущее движение Е и маневрировать так, чтобы преградить ему путь?
Краткое размышление показывает, что такие вопросы бессмысленны. Ответ зависит от того, как будет вести себя Е. Если он принял решение двигаться по прямой с постоянной скоростью, то Р, разумеется, сможет преградить ему путь, причем довольно просто подсчитать, как это сделать наилучшим образом. Но если Р всегда будет действовать так, то Е, если он достаточно проницателен, может заманить Р в ловушку. Таким образом, никакой план преследования не будет для Р оптимальным, если противник движется произвольно.
Из этого следует, сто нельзя говорить об оптимальном преследовании, не определив, что такое оптимальное уклонение. Необходимо одновременно рассматривать всевозможные способы поведения обоих противников, для того чтобы разработать методы анализа игровых ситуаций.
Оптимальное уклонение можно классифицировать так же как оптимальное преследование. Все замечания, сделанные выше относительно Р и его цели преследования, сохраняют свой смысл и для Е с его целью уклонения. Например, можно говорить о способах избежать захвата или по крайней мере предупредить его до истечении времени Т. Если за плату принять расстояние до объекта в момент захвата, то можно обсуждать вопрос о том, как Е должен максимизировать это расстояние. В военных задачах, разумеется, обе стороны рассматривают оба класса этих вопросов. Выше обсуждались задачи игры и понятия платы только с точки зрения преследователя Р, но это делалось лишь для того, чтобы облегчить описание.
На рисунке 1 С есть область расположения объекта, который Р защищает от атакующего врага Е; Р и Е оба совершают простое движение с одинаковой скоростью и начинают двигаться из положения, указанного на рис. 1. Примем здесь для простоты, что захват означает совпадение точек Р и Е. Платой является расстояние от точки захвата до С (если захват возможен); Р должен максимизировать это расстояние, а Е–минимизировать его. Если Е может достичь С и захвата не произойдет, то этот исход считается для Е наилучшим.
Вообразим, что Е –носитель могущественного оружия, скажем, ядерного, и если он не может достичь объекта, то стремиться взорваться как можно ближе к нему. Соответственно перехватчик Р стремиться встретить его в наиболее удаленной от С точке. . Е С . Р Рисунок 1.
А вот пример посложнее. Он представляет собой игру преследования, где один из противников вынужден двигаться так, чтобы кривизна его траектории не превышала некоторой величины. Это кинематическое ограничение типично. Дано: автомобиль на бесконечной пустой площади, который пытается наехать на пешехода. Таким образом, рассматривается игра преследования, где Р обладает превосходящей скоростью, но меньшей маневренностью по сравнению с Е. Преследователь Р движется с постоянной скоростью w1, радиус кривизны его траектории ограничен заданной величиной R; P управляет выбором значения этой кривизны в каждый момент. Убегающий Е обладает более простым движением. Это значит, что его скорость w2фиксирована, и управление состоит в том, что в каждый момент выбирается направление движения. В этом случае допустимы любые крутые повороты; траектория может не иметь касательной в каждой точке.
Захват происходит, когда расстояние РЕ не больше заданной величины l, радиуса захвата. Преследователь обязан быть быстрее w1>w2. Нас интересуют два вопроса.
Игра качества. Когда Р может поймать Е ? Ясно, что если R велико, l мало и w1 не очень превышает w2, то Е всегда может избежать захвата. Можно считать, например, что он сделает это, просто отступая в сторону всякий раз, когда появляется угроза захвата. Ограничение кривизны траектории преследователя запрещает ему слишком резкие повороты. Он может промчаться мимо Е и, вернувшись обратно для новой попытки, может быть снова обманут тем же маневром Е.
Задача состоит в том, чтобы определить точные условия: значения R, l, w1/w2, которые разграничивают эти возможности. Игра степени с временем захвата в качестве платы. Теперь предположим, что Р всегда может поймать, и выберем платой время, в течении которого происходит захват. В терминах принятой терминологии можно считать, что пешеход надеется на прибытие спасения и потому, если он сам не может избежать захвата, то по крайней мере старается отсрочить его. Разумеется, Р стремиться действовать настолько быстро, насколько позволяют обстоятельства.
Если вначале Е находится более или менее впереди Р, оптимальный ход игры очевиден. На рис. 2(а) точка Р изображает начальное положение преследователя, его скорость направлена вверх; убегающий находится в точке Е, впереди Р и, скажем, немного правее его. На рисунке изображена часть окружности максимальной кривизны, допустимой для траектории преследователя; вектор скорости касается ее в точке Р. согласно предписанию своей оптимальной стратегии, Р должен начать движение по этой дуге, делая максимально крутой поворот вправо–до точки Р1, где его скорость направлена на Е. Далее он движется по касательной, как показано. Соответственно Е движется по той же касательной, и это простое преследование продолжается вдоль прямой вплоть до совершения захвата, скажем, в точке С.
Пусть теперь Р начинает преследование из положения, когда Е находится у него в тылу, как показано на рис. 2 (б). Если Р будет действовать, как описано выше, может случиться, что Е успеет попасть внутрь окружности максимальной кривизны раньше, чем Р успеет его задавить.
Для осуществления захвата Р должен действовать менее прямолинейно, например, как показано на рис. 2(в). Вначале он движется прочь от Е и, отступив достаточно далеко, возвращается по дуге окружности, чтобы начать прямое преследование. Со своей стороны Е, учитывая, что время является платой, стремится отсрочить захват. С этой целью он начинает свое отступление, сперва следуя за Р, скажем вдоль ЕЕ1. В некоторой точке Е1 он поворачивается и убегает в направлении, выбранном так же, как в случае (а).
Такой тип преследования будет называться маневром разворота. Он составляет наиболее интересный случай с точки зрения математики игры степени. Рис. 2(а) . С Е Р1 R Р а Рис. 2 (б) Р l Е Рис. 2(в) R E1 E R P . C