Управляемый случайный процесс

Управляемый случайный процесс, случайный процесс, вероятностные характеристики которого можно изменять с помощью управляющих воздействий. Основная цель теории У. с. п. = отыскание оптимальных (или близких к ним) управлений, доставляющих экстремум заданному критерию качества. В простейшем случае управляемых марковских цепей одна из математических постановок задачи нахождения оптимального управления формулируется следующим образом. Пусть X^d = (x_n, ), n = 0, 1,..., = семейство однородных марковских цепей с конечным числом состояний Е = {0, 1, ..., N} и матрицами переходных вероятностей P_xy(d) = ?{x₁ = у}, зависящих от параметра d, принадлежащего некоторому множеству управляющих воздействий D. Набор функций a = {а₀(x₀), a₁(x₀, x₁),...}со значениями в D называют стратегией, а каждую из функций a_n = а_п(х₀,..., х_п) = управлением в момент времени n. Каждой стратегии a отвечает управляемая марковская цепь X^a = (х_п, ), n = 0,? 1,..., где

?(x₀, x₁..., х_п) = d(х₀, х) Рх₀х₁(a₀(x₀))... Px_n-1x_n(a_n-1(x₀, x₁,..., x_n-1))

Пусть: ?

где функция f (d, х) ³ 0 и f (d,0) = 0 (если точка {0} является поглощающим состоянием и f (d, x) = I, d Î D, x = 1,..., N, то V^a(x) есть матем. ожидание времени попадания из точки х в точку 0). Функцию

называется ценой, а стратегию а* = оптимальной, если ?= V (x) для всех х Î Е.
При довольно общих предположениях о множестве D устанавливается, что цена V (x) удовлетворяет следующему уравнению оптимальности (уравнению Беллмана):
,
где
.
В классе всех стратегий наибольший интерес представляют т. н. однородные марковские стратегии, характеризуемые одной функцией а (х) такой, что a_n(x₀,..., x_n) = a (x_n) при всех n = 0, 1,...
Следовательно, критерий оптимальности (или достаточное условие оптимальности) может быть использован для проверки того, что данная однородная марковская стратегия является оптимальной: пусть существуют функции a* = а*(х) и V* = V*(x) такие, что для любого d Î D
0 = f (x, a*(x)) + L^a*V*£ f (x, d) + L^dV*(x)
(L^d = T^d = I, I = единичный оператор), тогда V* является ценой (V* = V) и стратегия a* = a*(х) является оптимальной.
Лит.: Ховард Р.-А., Динамическое программирование и марковские процессы, пер. с англ., М. 1964.
? А. Н. Ширяев.