随机控制

随机控制（stochastic control）或随机最优控制（stochastic optimal control）是控制理论中的一个领域，是针对有不确定性的系统进行控制，不确定性可能是在量测上，也有可能是因为噪声的影响。系统设计者会假设影响状态变数的随机噪声，（以贝叶斯概率的观点来看）其几率分布是已知的。随机控制的目的是在噪声存在的情形下，设计受控变数的时间轨迹，在最小成本的情形下（其成本可能会适有适当的定义）使系统完成预期的控制任务^[1]。随机控制可能是配合离散时间系统，也可能是连续时间系统。

确定性等效

随机控制中最常被探讨的控制器是线性平方高斯控制（LQG控制），其模型为线性的，目标函数的期望值为二次性，而扰动是纯叠加性的。若是离散时间集中式系统，其不确定性是纯叠加性，有一个基本的特性为“确定性等效性质”（certainty equivalence property）^[2]：其最佳控制的解和没有叠加性扰动下的解一样。所有线性系统方程、二次目标函数、噪声为纯叠加性的集中式系统中，确定性等效性质都会成立，二次目标函数的假设是让（配合确定性等效性质）的最佳控制律是控制器观测值的线性函数。

若有任何和上述假设不同的地方：非线性状态方程、非二次目标函数、乘数不确定性（英语：Multiplier uncertainty）或是系统为分散式控制系统都会让确定性等效性质不成立。例如在分散式系统中的Witsenhausen反例就是说明确定性等效性质在分散式系统中不成立。

离散时间系统

在离散时间系统中，控制器会在每个时间周期观测状态变数（也可能包括估测噪声）。其目标可以针对所有时间内的非线性（可能是二次的）目标函数计算不同时间期望值的加权和，也可以只针对最后时间的目标函数进行最佳化。每个时间区间内会产生新的估测值，依最佳化的方式调整控制变数。找目前时间最佳解的作法是后向迭代计算线性平方高斯控制（矩阵Riccati方程），从最后的时间一直倒退迭代到目前时间。

考虑离散时间系统，其传递矩阵或控制响应矩阵中的参数有不确定性（因此状态变数的目前值会有变化），但仍然是线性状态函数以及二次性目标函数，仍然可以用每一个时间周期的解，用后向迭代的方式求解Riccati方程，不过可能没有确定性等效的特性^[2]^ch.13^[3]。若离散时间系统的目标函数不是二次性的，但是只要处理加性不确定性，也可以进行随机控制，不过会比较复杂^[4]。

例子

以下是一个典型的离散时间随机线性二次控制问题，要最小化^[2]^{:ch. 13;}^[3]^[5]

{\text{E}}_{1}\sum _{t=1}^{S}[y_{t}^{T}Qy_{t}+u_{t}^{T}Ru_{t}]

其中E₁为在y₀条件下的期望值运算子，上标T表示是转置矩阵，S为时间区间，其状态方程如下

y_{t}=A_{t}y_{t-1}+B_{t}u_{t},

其中y是n × 1的可观察状态变数向量，u是k × 1的控制变数向量，A_t是时间t时的随机n × n状态转移矩阵的实现，B_t是时间t时的随机n × k控制乘数矩阵的实现，Q (n × n)和R (k × k)是已知的正定费用矩阵。假设A和B的每个元素都是在时间上联合的独立同分布，因此期望值运算不用考虑时间的条件。

可以用贝尔曼方程得到每个时间的最佳控制解^[2]^{:ch. 13}

u_{t}^{*}=-[{\text{E}}(B^{T}X_{t}B+R)]^{-1}{\text{E}}(B^{T}X_{t}A)y_{t-1},

配合对称正定cost-to-go矩阵X，从 $X_{S}=Q$ 开始，以倒退时间方式迭代，方程式为

X_{t-1}=Q+{\text{E}}[A^{T}X_{t}A]-{\text{E}}[A^{T}X_{t}B][{\text{E}}(B^{T}X_{t}B+R)]^{-1}{\text{E}}(B^{T}X_{t}A),\,

这个就是此问题离散时间下的动态Riccati方程。有关矩阵A和B中未知参数所需要知道的资讯只有每个矩中每个元素的期望值、方差，同个矩阵不同元素的共变异数，以及不同矩阵中元素的共变异数。

若在状态方程中有平均值为0、独立且相同分布（i.i.d.）的加性扰动出现，只要和矩阵A和B的元素没有关系，此扰动不会影响最佳方程。假如扰动和矩阵有关，每个时间的最佳控制解会包括额外的加性常数向量。若加性常数向量出现在状态方程中，则每个时间的最佳控制解会再包括额外的加性常数向量。

X的稳态特征若存在，会和S延伸到无限大的的无限时间问题相关。可以用重复迭代动态方程中的X，一直到收敛为止来计算，此时的动态方程中的X就不用有关时间的下标了。

连续时间

若模型是连续时间下的系统，控制器知道系统在每一个时间下的状态。其目标可能是最大化状态变数凹函数（Concave Function）的在时间区间0到最后时间T之间的积分。随着时间的演进，会持续的观测到新的值，也会依最佳化的方式来调整控制变数。

随机模型预测控制

在文献中，有二种随机系统的模型预测控制：强健模型预测控制（Robust model predictive control）及随机模型预测控制（Stochastic Model Predictive Control，SMPC）。强健模型预测控制是较保守的方式，在最佳化过程中会考虑最差的情形，不过此方式和其他强健控制类似，会让整个控制器的性能变差，只适用不确定性有明确范围在系统。而随机模型预测控制是用软性的限制。是用几率的不等式来让违反限制的几率不会超过一定范围^[6]。

金融的应用

在金融领域连续系统的研究中，随机微分方程的状态变数多半是财富或是净值，控制变数是不同时间下各资产的配置情形。给定任一时间下的资产配置，财富变化的决定因素是资产的随机收益以及无风险资产的利率。随机控制的领域在1970年代开始大幅发展，有不少人应用在金融上。Robert Merton用随机控制来研究安全资产以及风险资产的最佳投资组合（英语：optimal portfolio）^[7]。Merton投资组合问题（英语：Merton's portfolio problem）以及布莱克-舒尔兹模型改变了金融文献的特质。有影响力的相关数学教科书包括Wendell FlemingFleming（英语：Wendell Fleming）及Rishel合著的教科书^[8]、以及Fleming和Soner（英语：Halil Mete Soner）合著的教科书^[9]。Jerome Stein将这些技巧应用在2007年–2008年环球金融危机^[10]。

在最后日期T的净值期望值对数的最大值，和财富成分的随机过程有关。在连续系统中，伊藤引理是主要分析工具。若是要探讨在时间(0,T)内凹函数积分的最大值，会使用动态规划。这里没有类似较旧的文献的确定等效关系，因为控制变数的系数（所选资产份额所获得的回报）也是随机性的。

参考文献

^ Definition from Answers.com. [2018-09-05]. （原始内容存档于2019-03-31）.
^ ^2.0 ^2.1 ^2.2 ^2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7.
^ ^3.0 ^3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614.
^ Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y.
^ Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888.
^ Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710  .
^ Merton, Robert. Continuous Time Finance. Blackwell. 1990.
^ Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. （原始内容存档于2021-04-28）.
^ Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006.
^ Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.

[1] Definition from Answers.com. [2018-09-05]. （原始内容存档于2019-03-31）.

[Chow-2] 2.0 ^2.1 ^2.2 ^2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7.

[Turnovsky-3] 3.0 ^3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614.

[4] Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y.

[5] Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888.

[6] Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710  .

[7] Merton, Robert. Continuous Time Finance. Blackwell. 1990.

[8] Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. （原始内容存档于2021-04-28）.

[9] Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006.

[stein-10] Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]