688 - XII Всероссийское совещание по проблемам управления

688
УДК 517.977
СИНТЕЗ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ПРИ
LP-КОМПАКТНОЙ ПОМЕХЕ
Д.А. Серков
Институт математики и механики им. Н.Н. Красовского УрО РАН
Уральский федеральный университет им. Б.Н. Ельцина
Россия, 620990, Екатеринбург, ул. С. Ковалевской, 16
Россия, 620002, Екатеринбург, ул. Мира, 19
E-mail: [email protected]
Ключевые слова: стратегия с полной памятью, функциональные ограничения на
помеху, квазистратегии
Аннотация: Рассмотрена задача оптимизации гарантированного результата в динамических системах, управляемых в условиях помех. Предполагалось, что система
описывается обыкновенными дифференциальными уравнениями, показатель качества процесса управления задан в виде непрерывного функционала на траекториях
системы, воздействия управления и помехи стеснены геометрическими ограничениями. Кроме того, предполагается, что возможные реализации помехи содержатся в
некотором заранее неизвестном компакте пространства функций, суммируемых по
Лебегу. Известно, что при выполнении классических условий существования, единственности и продолжимости решения дифференциального уравнения оптимальный
гарантированный результат в классе стратегий с полной памятью совпадает с оптимальным гарантированным результатом в классе квазистратегий. В данной работе
при дополнительных условиях на правую часть управляемой системы приводятся
эффективно реализуемые алгоритмы управления.
1.
Введение
Для динамической системы, описываемой обыкновенными дифференциальными
уравнениями и управляемой в условиях помех, в рамках проблематики управления
при нейтральной динамической помехе (то есть при помехе, не связанной с действиями управляющей стороны и/или состоянием управляемой системы) изучается задача
о гарантированной оценке результата. Свойство нейтральности помехи выражается
теми или иными функциональными ограничениями на ее реализации.
Воздействия помехи, как и управляющие воздействия, в каждый момент времени предполагаются ограниченными известными компактными множествами. Кроме
того, предполагается, что возможные реализации помехи содержатся в некотором
неизвестном заранее множестве, из заданного семейства подмножеств (множества
допустимых реализаций помехи), компактных в сильной топологии пространства
Лебега. Рассмотрены случаи, когда в это семейство входят все компактные подмножества (так называемые Lp -компактные ограничения) и когда оно состоит из всех
одноэлементных подмножеств (программные ограничения). Оптимизируемый пока-
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
689
затель качества процесса управления, определенный на движениях системы, предполагается непрерывным в соответствующем пространстве непрерывных функций.
Задача управления ставится в классе позиционных стратегий с полной памятью.
Ранее в работах [1–3] для задачи оптимизации гарантии в достаточно широких
классах систем, удовлетворяющих, тем не менее, некоторым специальным условиям
на правую часть уравнений движения, было установлено равенство оптимального
гарантированного результата в классе стратегий с полной памятью оптимальному
гарантированному результату в классе квазистратегий (неупреждающих программных откликов на реализации помех). Это свойство стратегий с полной памятью в
работе [1] обозначается термином «unimprovability» — неулучшаемость. Позднее [4]
неулучшаемость стратегий с полной памятью была установлена без каких-либо дополнительных условий на управляемую систему как при программных, так и при Lp компактных ограничениях на помеху. Тем самым, была показана эквивалентность
задач оптимизации гарантии при этих двух пограничных типах функциональных
ограничений в общем случае. Доказательство этого факта хотя и основывалось на
построении соответствующей оптимальной позиционной стратегии, но носило не конструктивный характер.
В этой работе приводятся дополнительные условия на правую часть рассматриваемой динамической системы, более слабые, чем в работах [1–3, 5], и, вместе с тем,
позволяющие продвинуться в направлении построения эффективной в вычислительном плане процедуры оптимального управления. Дальнейший план изложения: в
разделе 2 дана формальная постановка задачи и условия на правую часть системы
из работ [1–3, 5], в разделе 3 представлена конструкция оптимальной стратегии из
работы [4] и в разделе 4 даны условия на систему и модернизация этой конструкции,
пригодная для дальнейшей численной реализации.
2.
Постановка задачи
Рассмотрим управляемую систему, заданную обыкновенным дифференциальным уравнением
(1)
x(τ
˙ ) = f (τ, x(τ ), u(τ ), v(τ )),
τ ∈ T :=[t0 , ϑ] ⊂ R,
и начальным условием x(t0 ) = z0 ∈ G0 ⊂ Rn , где «:=» означает «равно по определению». Реализации управления u(·) и помехи v(·) предполагаются измеримыми по
Лебегу функциями, удовлетворяющими геометрическим ограничениям
u(τ ) ∈ P ⊂ Rp ,
v(τ ) ∈ Q ⊂ Rq ,
τ ∈ T.
Множества G0 , P и Q предполагаются компактными в соответствующих евклидовых
пространствах. Через U и V обозначим множества всех таких реализаций управления
и помехи соответственно. В отношении функции f (·) будем предполагать, что она
— определена и непрерывна по совокупности аргументов в области Rn+1 × P × Q;
— локально липшицева по второй переменной:
kf (τ, x1 , u, v) − f (τ, x2 , u, v)k 6 Lf (S)kx1 − x2 k,
где (τ, x1 ), (τ, x2 ) ∈ S, S — любое ограниченное подмножество из Rn+1 , u ∈ P, v ∈ Q;
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
690
— удовлетворяет условию подлинейного роста:
kf (τ, x, u, v)k 6 K(1 + kxk),
(τ, x, u, v) ∈ T × Rn × P × Q,
K > 0.
При этих условиях решение в смысле Каратеодори задачи Коши (1) существует
на всем интервале [t0 , ϑ] для любых реализаций управления u(·) ∈ U и помехи v(·) ∈ V
[6, гл. 2]. Для всех (t∗ , x∗ ) ∈ T × Rn , u(·) ∈ U, v(·) ∈ V обозначим x(·, t∗ , z∗ , u(·), v(·))
решение в смысле Каратеодори задачи (1) с начальным условием x(t∗ ) = x∗ .
Выделим компактное в Rn+1 подмножество G состояний системы (1), содержащее
все движения, начинающиеся из G0 :
G := cl
T ×Rn
n
(τ, x) ∈ T × Rn |
o
x = x(τ, t0 , z0 , u(·), v(·)), z0 ∈ G0 , u(·) ∈ U, v(·) ∈ V ,
здесь и далее clX Z обозначает замыкание множества Z ⊆ X в топологии пространства X.
Для произвольных (t∗ , z∗ ) ∈ G, v(·) ∈ V и u(·) ∈ U обозначим
X(t∗ , z∗ , U, v(·)) := clC([t∗ ,ϑ];Rn ) x(·, t∗ , z∗ , u(·), v(·)) | u(·) ∈ U ,
[
X(z0 , U, v(·)) := X(t0 , z0 , U, v(·)), X(G0 ) := clC(T ;Rn )
X(z0 , U, v(·)),
z0 ∈G0
v(·)∈V
где C([t∗ , ϑ]; Rn ) — множество всех непрерывных функций из [t∗ , ϑ] в Rn с нормой
равномерной сходимости.
Множество ∆ :=(τi )i∈0..n∆ , τ0 = t0 , τi−1 < τi , τn∆ = ϑ, назовем разбиением интервала T . Множество всех таких разбиений обзначим ∆T . Для любых ∆ ∈ ∆T и t ∈ T
определим
it := i∈0..n
max i,
∆
τi 6t
d(∆) :=
min
i∈1..(n∆ −1)
(τi − τi−1 ),
D(∆) := max (τi − τi−1 );
i∈1..n∆
таким образом, для всех t ∈ T выполняется включение t ∈ [τit , τit +1 ). Всякое разбиение ∆ := (τi )i∈1..n∆ можно «проредить» до некоторого разбиения ∆0 ∈ ∆T так, что
полученное разбиение будет удовлетворять условиям ∆0 ⊆ ∆, D(∆0 ) / d(∆0 ) 6 3 и
D(∆0 ) 6 3 D(∆). Процедура перехода от ∆ к ∆0 c указанными свойствами может
быть определена, например, следующим образом:
∆0 := τn0 0 := ϑ, τi0 := argmin{τ ∈ ∆ | τ > i2 D(∆)},
∆
i ∈ N, 0 6 i 6 (ϑ − t0 )/(2 D(∆)) .
Следуя [1], назовем обратной связью с полной памятью на разбиении ∆ =
(τi )i∈1..n∆ и обозначим U∆ :=(U∆
i )i∈0..(n∆ −1) всякое конечное семейство операторов вида
n
U∆
i : C([t0 , τi ], R ) 7→ U|[τi ,τi+1 ) ,
i ∈ 0..(n∆ − 1);
символами U|[τi ,τi+1 ) обозначено множество сужений элементов из U на интервал
[τi , τi+1 ). Назовем стратегией с полной памятью и обозначим U семейство (U∆ )∆∈∆T
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
691
обратных связей с полной памятью, заданных на всех разбиениях ∆ ∈ ∆T . Множество всех стратегий (управления) с полной памятью обозначим S.
Определим пошаговое движение x(·) := x(·, z0 , U∆ , v(·)) ∈ X(z0 , U, v(·)) и реализацию управления u(·) := u(·, z0 , U∆ , v(·)) ∈ U, порожденные из начального состояния
z0 ∈ G0 обратной связью U∆ = (U∆
i (·))i∈0..(n∆ −1) при помехе v(·) ∈ V следующими
условиями:
x(·) = x(·, t0 , z0 , u(·), v(·)),
u(t) = U∆
it (x(·)|[t0 ,τit ] ),
t ∈ [t0 , ϑ).
Пусть имеются z0 ∈ G0 , U ∈ S и V ⊆ V. Определим пучок движений X(z0 , U, V)
как множество всех элементов x(·) ∈ C(T ; Rn ), для которых найдутся последовательности
(z0k , vk (·), ∆k , U∆k )k∈N ,
(z0k , vk (·), ∆k , U∆k ) ∈ G0 × V × ∆T × U, k ∈ N,
удовлетворяющие условиям lim z0k = z0 , lim D (∆k ) = 0,
k→∞
k→∞
lim kx(·) − x(·, z0k , U∆k , vk (·))kC(T ;Rn ) = 0.
k→∞
Будем рассматривать три вида функциональных ограничений на помеху. Первый — отсутствие каких-либо ограничений. Второй вид ограничений подразумевает
принадлежность помехи некоторому Lp –компактному подмножеству V (p > 1). Последний вид допускает только программные помехи, то есть каждый элемент из V
может рассматриваться как ограничение на помеху.
Для каждого z0 ∈ G0 и каждой стратегии управления U ∈ S, следуя указанным
видам ограничений на помеху, определим пучки движений системы из начального
состояния z0 , порожденые стратегией U при произвольных помехах, Lp -компактных
ограничениях на помеху и при программных помехах:
X (z0 , U) := X(z0 , U, V),
[
Xc (z0 , U) :=
X(z0 , U, V),
V∈compL2 (T ;Rq ) (V)
Xp (z0 , U) :=
[
X(z0 , U, {v(·)});
v(·)∈V
здесь compL2 (T ;Rq ) (V) обозначает семейство всех подмножеств из V компактных в
Lp (T ; Rq ).
Замечание 1. Пучок X (z0 , U) отвечает определению множества конструктивных движений [7], порожденных позиционной стратегией управления. Определение пучка Xc (z0 , U) следует [1].
В соответствии с определениями выполняются включения Xp (z0 , U) ⊆ Xc (z0 , U) ⊆
X (z0 , U) для всех z0 ∈ G0 и U ∈ S. В [8] показано, что в общем случае Xp (z0 , U) 6=
X (z0 , U). Похожими рассуждениями можно показать, что в общем случае выполняется неравенство Xc (z0 , U) 6= X (z0 , U).
Качество движения будем оценивать функционалом γ(·) : C(T ; Rn ) 7→ R, непрерывным в равномерной норме пространства C(T ; Rn ).
Гарантированным результатом Γ(z0 , U) для стратегии U ∈ S в начальном состоянии z0 ∈ G0 при произвольных помехах назовем величину (см. [7, 9])
Γ(z0 , U) :=
sup
γ(x(·)).
x(·)∈X (z0 ,U)
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
692
Оптимальным гарантированным результатом Γ(z0 ) в классе S для начального состояния z0 ∈ G0 при произвольных помехах назовем величину
Γ(z0 ) := inf Γ(z0 , U).
U∈S
Определим величину Γc (z0 , U) гарантированного результата стратегии U ∈ S для
начального состояния z0 при Lp -компактных ограничениях на помеху,
Γc (z0 , U) :=
sup
γ(x(·)),
x(·)∈Xc (z0 ,U)
и величину Γc (z0 ) оптимального гарантированного результата в классе S для начального состояния z0 ∈ G0 при Lp -компактных ограничениях на помеху,
Γc (z0 ) := inf Γc (z0 , U).
U∈S
Определим величину Γp (z0 , U) гарантированного результата стратегии U ∈ S в
начальном состоянии z0 ∈ G0 при программных ограничениях на помеху,
Γp (z0 , U) :=
sup
γ(x(·)),
x(·)∈Xp (z0 ,U)
и величину Γp (z0 ) оптимального гарантированного результата в классе S для начального состояния z0 ∈ G0 при программных ограничениях на помеху,
Γp (z0 ) := inf Γp (z0 , U).
U∈S
Наряду со стратегиями из класса S введем в рассмотрение квазистратегии: следуя [9, с. 24], назовем квазистратегией всякое отображение α(·) : V 7→ U такое,
что для любых τ ∈ T , v(·), v 0 (·) ∈ V таких, что v(·)|[t0 ,τ ] = v 0 (·)|[t0 ,τ ] , выполняется
α(v(·))|[t0 ,τ ] = α(v 0 (·))|[t0 ,τ ] . Далее Q обозначает множество всех квазистратегий. Для
x0 ∈ Rn и α(·) ∈ Q элементы множества
X (z0 , α(·)) :={x(·, t0 , z0 , α(v(·)), v(·)) | v(·) ∈ V}
представляют собой движения из z0 ∈ G0 , порожденные квазистратегией α(·). Для
начального состояния z0 ∈ G0 величины
Γq (z0 , α(·)) :=
sup
x(·)∈X (z0 ,α(·))
γ(x(·)),
Γq (z0 ) := inf Γq (z0 , α(·))
α(·)∈Q
суть гарантированный результат квазистратегии α(·) и оптимальный гарантированный результат в классе Q при отсутствии функциональных ограничений на
помехи.
Замечание 2. Подобно тому, как это сделано выше, можно также определить оптимальный гарантированный результат в классе квазистратегий при Lp –
компактных или программных ограничениях на помехи; однако эти определения
приведут к одинаковым величинам: квазистратегии с точки зрения оптимального
гарантированного результата нечувствительны к функциональным ограничениям
на помехи.
Следующая теорема следует непосредственно из определений.
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
693
Теорема 1. Для каждого z0 ∈ G0 справедливы соотношения
(2)
Γq (z0 ) 6 Γp (z0 ) 6 Γc (z0 ) 6 Γ(z0 ).
Замечание 3. Как следует из результатов [7, 9, 10], все неравенства цепочки
(2) при всяком z0 ∈ G0 обращаются в равенства, если выполнено условие седловой
точки:
min max hl, f (t, x, u, v)i = max min hl, f (t, x, u, v)i
u∈P v∈Q
v∈Q u∈P
при всех t ∈ T , l, x ∈ Rn ; здесь и далее h·, ·i — скалярное произведение в Rn . Мы предполагаем, что последнее условие, вообще говоря, не выполнено. В этой ситуации
отдельные неравенства цепочки (2) могут быть строгими. Примеры ситуаций,
когда различаются первый и последний элементы цепочки (2), хорошо известны в
теории гарантирующего управления [9, гл.VI, § 1]. Для функционала платы γ, равномерно (L1 , δ)-непрерывного на множестве всех движений системы (1), пример
ситуации, когда последнее неравенство цепочки (2) строгое, приведен в [1]. Для
непрерывного функционала пример аналогичного неравенства приводится в [3].
В силу неравенств (2) особый интерес представляют те функциональные ограничения на помехи и те условия, при которых соответствующий оптимальный гарантированный результат в классе стратегий с полной памятью совпадает с оптимальным
гарантированным результатом в классе квазистратегий. В этом случае класс S является неулучшаемым в том смысле, что использование при выработке значений
допустимого управления любой информации о прошлых и текущих значениях реализуемой допустимой помехи не является для управляющей стороны существенной
— не позволяет ей улучшить значение гарантированного результата.
Согласно [1], достаточным условием для неулучшаемости класса стратегий с полной памятью при L2 -компактных ограничениях на помехи является взаимная однозначность отображения v 7→ f (t, x, u, v) при всех (t, x, u) ∈ T × Rn × P. В работе [3]
предложено более слабое условие неулучшаемости класса S : для любых u, u0 ∈ P,
(t, x) ∈ G
(3)
Qtxu = Qtxu0 ,
где при всех (t, x, u) ∈ G × P символами Qtxu обозначено фактор–множество множества Q, по отношению эквивалентности ∼ : (v1 ∼ v2 ) ⇔ (f (t, x, u, v1 ) = f (t, x, u, v2 )).
txu
txu
Но и это условие было достаточно обременительным: так, для систем вида
(4)
x(t)
˙
= g1 (t, x(t), u(t)) + g2 (t, x(t), u(t)) · h(t, x(t), v(t)),
где g2 (·) — матрица-функция размерности n × m, g1 (·) — вектор-функция (столбец)
размерности n, h(·) — вектор-функция размерности m, эти условия сводились к требованию независимости ядра отображения g2 (t, x, u) : Rm 7→ Rn от управляющего
параметра u ∈ P при всех (t, x) ∈ G.
3.
Неулучшаемость класса S
В работах [4, 5] построено семейство (Uε )ε>0 (Uε ∈ S, ε > 0) стратегий, которые
без каких либо дополнительных условий на правую часть системы (1) обеспечивают
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
694
неравенства Γc (z0 , Uε ) 6 Γq (z0 ) + ϕ(ε) для некоторой функции ϕ(·) : (0, 1) 7→ (0, 1)
такой, что (ϕ(ε) → 0). Эти соотношения влекут равенство оптимального гарантироε→0
ванного результата в классе Q и оптимального гарантированного результата в классе
S при программных и при Lp -компактных ограничениях на помеху.
Стратегии (Uε )ε>0 при формировании управления симулируют движение вспомогательной управляемой системы — y-модели. Для выбора помехи, действующей
в y-модели, на малом завершающем участке предыдущего интервала разбиения в
управлении исходной системы (1) используется специально выбранная серия тестовых управляющих воздействий. По наблюдениям за соответствующими реакциями
управляемой системы решается обратная задача динамики [11, 12] — строится аппроксимация помехи, реально действующей в управляемой системе (1). Эта аппроксимация принимается в качестве помехи в y-модели. Управление в y-модели определяется как контруправление (см. [7]), экстремальное к некоторому множеству оптимальных траекторий системы, порожденному квазистратегиями. Выбранное таким
образом управление используется и в «реальной» управляемой системе (1) на всем
интервале разбиения, за исключением завершающего «тестового» участка. При подходящим образом согласованном уменьшении шага разбиения и меры «тестовых»
участков, движения y-модели будут сходиться в C(T ; Rn ) к этому множеству оптимальных траекторий, а движения исходной системы — к соответствующим движениям y-модели. Такие сходимости обеспечивают близкие к оптимальным значения
показателя качества на движениях управляемой системы и, как следствие, искомые
свойства семейства стратегий (Uε )ε>0 .
Приведем формальные определения стратегий (Uε )ε>0 . В построении используются «целевые» множества W(z) ⊆ C(T ; Rn ), полученные из траекторий, порождаемых «почти оптимальными» квазистратегиями:
n [
o
\
clC(T ;Rn )
(5)
W(z) :=
X (z, α(·)) , z ∈ G0 ,
δ>0
Γq (z,α(·))
6Γq (z)+δ
и проекция w(·|τ, y(·)) ∈ W(y(t0 ))|[t0 ,τ ] некоторого элемента y(·) ∈ C([t0 , τ ], Rn ) на
сужение этого множества на отрезок [t0 , τ ]:
(6)
w(·|τ, y(·)) ∈
argmin
kw(·) − y(·)kC([t0 ,τ ],Rn ) .
w(·)∈W(y(t0 ))|[t0 ,τ ]
Выберем и зафиксируем некоторое значение параметра «точности» ε из интервала (0, 1).
Обозначим (uεj )j∈1..nε некоторую ε-сеть в компакте P — произвольное конечное
подмножество из P такое, что supu∈P min j∈1..nε ku − uεj k 6 ε.
Пусть ∆ :=(τi )i∈0..n∆ — разбиение интервала T . Без ограничения общности считаем, что для разбиения ∆ выполняется неравенство D(∆) / d(∆) 6 3 (при необходимости «прорежаем» разбиение ∆ указанным способом). Обозначим
(7)
τi0 := τi − ε d(∆),
i ∈ 1..(n∆ − 1),
зададим дополнительные моменты разбиения интервала T :
(8)
τij0 := τi0 +
j(τi − τi0 )
,
nε
j ∈ 0..nε ,
i ∈ 1..(n∆ − 1)
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
695
(благодаря (7) τij0 ∈ (τi−1 , τi ]), и для произвольного x(·) ∈ C(T ; Rn ) зададим величины
dij (x(·)) :=
0
)
x(τij0 ) − x(τi(j−1)
0
τij0 − τi(j−1)
,
j ∈ 1..nε ,
i ∈ 1..(n∆ − 1).
Зафиксируем некоторые u∗ ∈ P, v∗ ∈ Q и определим обратную связь с полной
∆
памятью U∆
ε = (Uεi (·))i∈0..(n∆ −1) на разбиении ∆ индуктивно.
База индукции: для всех x0 (·) ∈ C([t0 , τ0 ], Rn ) положим
y0 (τ0 ) = x0 (τ0 ),
v¯0 := v∗ , u0 := u∗ ,
(
u0 , t ∈ [τ0 , τ10 ),
(x
(·))(t)
:=
U∆
ε0 0
0
0
),
, τ1j
uεj , t ∈ [τ1(j−1)
(9)
(10)
j ∈ 1..nε .
Шаг индукции: если при некотором i ∈ 1..(n∆ − 1) для всех xi−1 (·) ∈ C([t0 , τi−1 ], Rn )
n
определены значения U∆
ε(i−1) (xi−1 (·)) и элементы yi−1 (·) = yi−1 (·, xi−1 (·)) ∈ C([t0 , τi−1 ], R ),
v¯i−1 = v¯i−1 (xi−1 (·)) ∈ Q, то для любого xi (·) ∈ C([t0 , τi ], Rn ) определим yi (·) как продолжение на [t0 , τi ] элемента yi−1 (·) ∈ C([t0 , τi−1 ], Rn ):
yi (τ ) = yi−1 (τi−1 , xi (·)|[t0 ,τi−1 ] )
Z τ
+
f (t, yi (t), U∆
¯i−1 (xi (·)|[t0 ,τi−1 ] ))dt,
εi−1 (xi (·)|[t0 ,τi−1 ] )(τi−1 ), v
(11)
τi−1
τ ∈ [τi−1 , τi ],
и положим
(12)
v¯i ∈ argmin max kdij (xi (·)) − f (τi , xi (τi ), uεj , v)k,
v∈Q
(13)
(14)
j∈1..nε
ui ∈ argmin hyi (τi ) − w(τi | τi , yi (·)), f (τi , yi (τi ), u, v¯i )i,
u∈P
(
0
ui , t ∈ [τi , τi+1
),
U∆
(x
(·))(t)
:=
i
εi
0
0
ε
), j ∈ 1..nε .
uj , t ∈ [τ(i+1)(j−1) , τ(i+1)j
Обратная связь с полной памятью U∆
ε на разбиении ∆ ∈ ∆T определена. Тем самым
∆
определена и стратегия Uε :=(Uε )∆∈∆T . В присвоениях (14) первая строчка определяет действия управляющей стороны по минимизации гарантированного результата,
вторая — по идентификации помехи. Как уже отмечалось, справедливо утверждение
Теорема 2. Для любого z0 ∈ G0 выполнены равенства
lim sup Γc (z0 , Uε ) 6 Γq (z0 ),
ε→0
(15)
4.
Γp (z0 ) = Γc (z0 ) = Γq (z0 ).
Численная реализация оптимальной стратегия
В конструкции стратегии Uε имеются по крайней мере два места, которые могут представлять существенные трудности при попытке численной реализации такой
процедуры управления. Первое связано с вычислением проеций движений y-модели
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
696
на «целевые» множества (см. (5), (6)). На идейном уровне эта задача сводится к
задаче вычисления градиента цены «нижней» (максиминной) игры в текущем фазовом состоянии управляемой системы. Несмотря на трудность данной задачи, она
давно изучается и во многих важных случаях имеет эффективные методы решения.
Отметим лишь наиболее известные: программные конструкции в случаях регулярности программного максимина [7, 9] и их обобщения в методе программных итераций
[13–18], метод сохастического программного синтеза [10, 19] и тесно связанный с ним
метод выпуклых сверху оболочек вспомогательных программных функций [20–22].
Второй трудностью при реализации стратегии Uε является неограниченный и
достаточно быстрый рост множества (uεj )j∈1..nε при уменьшении параметра ε. Это
ведет к значительному росту размерности задачи минимизации при решении задачи обратной динамики (12). Эту трудность можно избежать в отдельных классах
управляемых систем, рассмотренных ниже.
1. Для произвольных (τ, x, u, v) ∈ G × P × Q обозначим qtxu (v) (единственный)
элемент Qtxu , содержащий v.
Предположение 1. Существует конечное множество {¯
uj ∈ P | j ∈ 1..l}
такое, что для всех (τ, x, u, v) ∈ G × P × Q выполняются соотношения
\
qtx¯uj (v) ⊆ qtxu (v).
(16)
j∈1..l
Замечание 4. В силу этого предположения для каждого v ∈ Q реакция системы на некоторое управление u ∈ P может быть вычислена если известны ее
реакции при этом v на «тестовые» управляющие воздействия {¯
uj ∈ P | j ∈ 1..l}.
И, следовательно, для выбора аппрокисмирущей величины v¯i (12) достаточно этого
конечного множества «тестовых» управлений. Нетрудно видеть, что Предположение 1 обобщает условие (3).
¯ ε )ε (U
¯ ε ∈ S, ε > 0), U
¯ ε = (U
¯ ∆ )∆∈∆ , в котором
Определим семейство стратегий (U
ε
T
∆
¯ задана соотношениями
для каждого ∆ ∈ ∆T обратная связь с полной памятью U
ε
(7)–(14), где nε := l и uεj := u¯j , j ∈ 1..nε .
Теорема 3. Пусть управляемая система (1) удовлетворяет Предположению
1. Тогда, для всех z0 ∈ G0 выполнены равенства
(17)
¯ ε ) = Γc (z0 ).
lim sup Γc (z0 , U
ε→0
Замечание 5. Из определений видно, что в условиях Теоремы 3, при вычисле¯ ε в задаче обратной динамики (12) количество данных
нии значений стратегии U
будет ограничено.
Доказательство Теоремы 3 в основных моментах следует доказательству Теоремы 2.
2. Более простая в реализации оптимальная стратегия, построенная в [3, Теорема 2], в терминах данной работы использует значение управления на предыдущем
шаге разбиения в качестве единственного «тестового» управления: τi0 := τi−1 , nε := 1,
uε1 = ui−1 . Благодаря условию (3) этого оказывается достаточно для нахождения
подходящей аппроксисмации помехи.
Условие (3) может быть ослаблено, а указанная стратегия модернизирована (с
сохранением своих свойств) следующим образом.
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
697
Предположение 2. Существует замкнутое подмножество P¯ ⊆ P такое,
что при всех (τ, x, v, s) ∈ G × Q × Rn , u0 , u00 ∈ P¯ выполнены соотношения
argmin hs, f (τ, x, u, v)i ∩ P¯ =
6 ∅,
u∈P
(18)
Qtxu0 = Qtxu00 .
Определим следующую модификацию U∗ стратегии из [3, Теорема 2]. Пусть
∆
∆
U∗ :=(U∆
∗ )∆∈∆T , где обратная связь с полной памятью U∗ = (U∗i (·))i∈0..(n∆ −1) при
n
любом ∆ задается индуктивно. Для каждого x0 (·) ∈ C([t0 , τ0 ], R ) положим
(19)
v¯0 := v∗ ,
(20)
U∆
∗0 (x0 (·))(t) := u0 ,
u0 := u∗ ,
y0 (τ0 ) = z0 ,
t ∈ [τ0 , τ1 ).
Если при некотором i ∈ 1..(n∆ − 1) элементы v¯i−1 = v¯i−1 (xi−1 (·)) ∈ Q, U∆
∗(i−1) (xi−1 (·)) ∈
U|[τi−1 ,τi ] и yi−1 (·) = yi−1 (·, xi−1 (·)) ∈ C([t0 , τi−1 ], Rn ) определены для всех xi−1 (·) ∈
C([t0 , τi−1 ], Rn ), тогда для каждого xi (·) ∈ C([t0 , τi ], Rn ) мы зададим yi (·) = yi (·, xi (·)) ∈
C([t0 , τi ], Rn ) как продолжение yi−1 (·) на отрезок [t0 , τi ] следующим образом
(21)
yi (τ ) = yi−1 (τi−1 , xi (·)|[t0 ,τi−1 ] )
Z τ
+
f (t, yi (t), U∆
∗i−1 (xi (·)|[t0 ,τi−1 ] )(τi−1 ),
τi−1
v¯i−1 (xi (·)|[t0 ,τi−1 ] ))dt,
τ ∈ [τi−1 , τi ],
и затем положим
(22)
x (τ ) − x (τ )
i i
i i−1
v¯i ∈ argmin
− f (τi , xi (τi ), U∆
(x
(·))(τ
),
v)
,
i−1
∗i−1 i
τ
−
τ
v∈Q
i
i−1
(23)
ui ∈ argmin hyi (τi ) − w(τi | τi , yi (·)), f (τi , yi (τi ), u, v¯i )i,
(24)
¯
u∈P
∆
U∗i (xi (·))(t) := ui ,
t ∈ [τi , τi+1 ).
Таким образом, обратная связь с полной памятью U∆
∗ определена на всем разбиении
∆ ∈ ∆T . Тем самым, определена и стратегия с полной памятью U∗ :=(U∆
∗ )∆∈∆T .
Теорема 4. Пусть система (1) удовлетворяет Предположению 2. Тогда для
всех z0 ∈ G0 выполняются равенства
(25)
Γc (z0 , U∗ ) = Γc (z0 ).
Рассмотрим пример. Пусть система (1) имеет вид


x˙ 1 (τ ) = u1 (τ )v1 (τ ), τ ∈ T :=[0, 1],
(26)
x˙ 2 (τ ) = max{0, x1 (τ )}u2 (τ )v2 (τ ),


(x1 (0), x2 (0)) = (0, 0), G0 = {(0, 0)},
u1 (τ ), u2 (τ ) ∈ [−1, 1],
v1 (τ ), v2 (τ ) ∈ {−1, 1},
и показатель качества задан выражением γ(x(·)) := x2 (1) (x(·) = (x1 (·), x2 (·)) ∈ C(T, R2 )).
При подходящем выборе множества G, система (26) удовлетворяет всем требованиям
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
698
на систему (1); следовательно, выполена Теорема 2, то есть стратегии из S неулучшаемы при Lp –компактных помехах. Заметим, что правая часть системы не удовлетворяет условиям неулучшаемости класса S из работ [1, Theorem 9.1] и [3, Теорема
2]. Из равенств (15) получим Γc ((0, 0)) = Γp ((0, 0)) = Γq ((0, 0)) = −0.5.
Понятно, что множество P¯ :={−1, 1} ⊂ P удовлетворяет Предположениям 1 и
2. Следовательно можно воспользоваться конструкцией стратегии U∗ = (U∆
∗ )∆∈∆T
определенной в (19)–(24): опираясь на монотонность показателя качества γ, получим
∆
обратную связь с полной памятью U∆
∗ = (U∗i )i∈0..n∆ −1 для разбиения ∆ := (τi )i∈1..n∆
и движения (x(·) ∈ C([t0 , τi ], R2 )), i ∈ 1..(n∆ − 1):


x1 (τi )−x1 (τi−1 )
}
{u1 ·
 argmax
u1 (τi−1 )
¯
∆
u
∈
P

,
1
U∗i (x(·)) ∈ 
x2 (τi )−x2 (τi−1 ) 
argmin{u2 ·
}
u2 (τi−1 )
¯
u2 ∈P
(u1 (τi−1 ), u2 (τi−1 )) := U∆
∗(i−1) (x(·)|[t0 ,τi−1 ] ).
Работа выполнена в рамках программы Президиума РАН «Динамические системы и теория управления» при финансовой поддержке УрО РАН (проект 12–П–1–
1002), а также при поддержке гранта РФФИ (проект 12–01–00290).
Список литературы
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Kryazhimskii A.V. The problem of optimization of the ensured result: unimprovability of fullmemory strategies // Constantin Caratheodory: An International Tribute. World Scientific, 1991.
P. 636-675.
Serkov D.A. Optimal Strategies in Control Problem under Programmed Disturbances // IFAC
Proceedings Volumes. IFAC-PapersOnline. 2011. Vol. 18. P. 11465-11470. URL: http://www.ifacpapersonline.net/Detailed/51239.html
Серков Д.А. Оптимизация гарантированного результата при функциональных ограничениях
на динамическую помеху // Доклады Академии Наук. 2013. Т. 450, № 3. С. 274-278.
Serkov D.A. On non-improvability of full-memory strategies in problems of optimization of the
guaranteed result // International Game Theory Review. 2014. Unpublished.
Серков Д.А. Оптимальное управление при компактных в Lp ограничениях на помеху //
Вестник Удмуртского университета. Серия 1: Математика. Механика. Компьютерные науки.
2013. Т. 3. С. 79-87.
Варга Дж. Оптимальное управление дифференциальными и функциональными уравнениями. М.: Наука, 1977. 624 c.
Красовский Н.Н., Субботин A.И. Позиционные дифференциальные игры. М.: Наука, 1974.
456 c.
Серков Д.А. Об одном свойстве конструктивных движений // Вестник Удмуртского университета. Серия 1: Математика. Механика. Компьютерные науки. 2009. Т. 3. С. 98-103.
Субботин A.И., Ченцов A.Г. Оптимизация гарантии в задачах управления. М.: Наука, 1981.
288 c.
Красовский Н.Н. Управление динамической системой. М: Наука, 1985. 520 c.
Кряжимский А.В, Осипов Ю.С. О позиционном моделировании управления в динамических
системах // Изв. АН СССР: Техн. кибернет. 1983. № 2. С. 51-60.
Osipov Yu.S., Kryazhimskii A.V. Inverse Problems for Ordinary Differential Equations: Dynamical
Solutions. London: Gordon and Breach Publishers, 1995. 625 p.
Ченцов А.Г. Об игровой задаче сближения в заданный момент времени // Математический
сборник. 1976. Т. 99 (141), № 3. С. 394-420.
Петросян Л.А., Чистяков С.В. Об одном подходе к решению игр преследования // Вестник
ЛГУ. Сер. мат., мех., астрон. 1977. Т. 1. С. 77-82.
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г
699
15.
16.
17.
18.
19.
20.
21.
22.
Чистяков С.В. К решению игровых задач преследования // Прикл. матем. мех. 1977. Т. 41,
№ 5. С. 825-832.
Чистяков С.В., Никитин Ф.Ф. Теорема существования и единственности решения обобщенного уравнения Айзекса-Беллмана // Дифференц. уравнения. 2007. Т. 43, № 6. С. 757-766.
Меликян А.А. Цена игры в линейной дифференциальной игре сближения // Докл. АН СССР.
1977. Т. 237, № 3.
Ухоботов В.И. Построение стабильного моста для одного класса линейных игр // Прикл.
матем. и мех. 1977. Т. 41, № 2. С. 358-364.
Красовский Н.Н., Третьяков В.Е. Стохастический программный синтез для позиционной
дифференциальной игры // Доклады АН СССР. 1981. Т. 259, № 1. С. 24-27.
Krasovskii N.N., Krasovskii A.N. Control under lack of information. Berlin etc.: Birkh¨auser, 1995.
322 p.
Лукоянов Н.Ю. К вопросу вычисления цены дифференциальной игры для позиционного
функционала // Прикладная математика и механика. 1998. Т. 62, № 2. С. 188-198.
Гомоюнов М.И., Корнев Д.В. К вопросу вычисления цены дифференциальной игры в классе
контрстратегий// Труды ИММ УрО РАН. 2013. Т. 19, № 1. С. 59-68.
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г