摘要
针对具有控制约束的非线性系统, 提出一种准最优稳定的优先级多目标模型预测控制策略. 采用多目标字典序方法, 根据决策者偏好排序多目标函数, 将冲突多目标控制问题转化为具有优先级顺序的单目标序列优化控制问题. 再引入准稳态最优性准则, 得到各个优化控制问题目标函数的终端性质, 进而建立优先级多目标滚动时域优化控制问题的递推可行性和闭环性能的近似最优性. 数值仿真结果验证了本文策略的优越性.
Abstract
This paper proposes a prioritized multi-objective model predictive control (MO-MPC) strategy with quasioptimal stability for nonlinear systems subject to control constraints. Using the multi-objective lexicographical method, the multiple objective functions are sorted based on decision-maker’s preferences. Then the conflict multi-objective optimization control problem is transformed into a sequence of single objective optimization control problems with the priority order. By introducing the quasi steady-state optimality criterion, the terminal properties of the objective function for each optimization control problem are obtained. Moreover, the recursive feasibility and approximate optimality of closed-loop performance for the prioritized multi-objective receding horizon optimal control problem are established. Numerical simulation results verify the effectiveness of the proposed strategy.
1 引言
工业控制问题通常涉及多个重要性不同且相互冲突的控制目标,如设定点跟踪 [1-2]、经济效益 [3-4]、污染物减排 [5-6] 等冲突目标. 由于多个目标之间缺乏统一的度量标准,常见的加权多目标控制方法难以有效解决目标间不可公度问题 [7-9],进而不能显式地处理系统多目标优先级控制要求. 近年来,基于目标优先级和滚动时域控制原理的字典序多目标模型预测控制(multi-objective model predictive control,MO-MPC)方法成为冲突多目标优先级控制问题的最有效解决方案之一 [10-13],但由于字典序MO-MPC采用分层优化策略,在应用中存在优化求解计算量大等问题,特别是对非线性系统,其计算量问题尤为突出.
传统字典序MO-MPC首先解决最高优先级的优化问题,然后在下一层优化问题中施加关于上层值函数的优先级约束,保证更高优先级目标的最优性. 同时,结合平衡点处的终端三要素建立字典序MO-MPC的递推可行性和闭环稳定性. 例如,文献 [14] 提出了一种次优字典序MO-MPC策略,在降低计算量的同时实现闭环系统的稳定性,文献 [15] 进一步将该策略推广到一般的经济目标函数优化,并在文献 [16] 中实现了变目标优先级的字典序MO-MPC策略设计. 上述方法采用优先级最高目标函数的值函数构建Lyapunov函数,保证闭环系统的渐近稳定性,但随着字典序MOMPC优化问题层数的增加,其在线优化的计算量也将大幅增加. 同时为保证优化问题递推可行性添加的终端约束进一步限制了系统的控制性能.
为了降低计算复杂度和提高闭环系统性能,相关学者采用隐藏模型预测控制(model predictive control,MPC)的终端约束,提出了无终端约束MPC方法,确保闭环系统达到近似最优,避免了终端约束对原始性能的影响,同时降低了优化问题的计算量. 例如,文献 [17]采用强对偶假设下的近似最优性质消除了MPC优化问题的终端约束,提高了控制器的计算效率; 文献 [18] 基于耗散性和可控性条件,去除了终端约束并证明闭环系统的近似最优; 文献 [19] 在N步可达性假设下,通过在目标函数中增加状态增量的罚项,推导出使闭环系统满足近似最优的参数调节MPC策略,使得系统在有限时域内渐近稳定到包含最优稳态的邻域内. 相比于附加终端约束MPC策略 [20-22],上述无终端约束MPC策略通过施加一定条件使得系统渐近稳定到一个包含最优稳态的邻域. 据笔者所知,目前还未见到约束非线性系统的无终端约束字典序MO-MPC 策略的结果.
考虑约束非线性系统多目标优先级控制问题,本文提出一种准最优稳定的非线性字典序MO-MPC策略. 将目标函数按照优先级顺序排列,使多目标问题表述为字典序优化问题. 在不显式处理系统稳态的前提下,通过在目标函数中引入对状态增量的罚项以实现闭环系统的近似最优,并推导了优化问题递推可行性和闭环系统近似最优的充分条件. 相比于传统字典序MO-MPC方法,本文策略避免在最高层构建关于稳态的Lyapunov函数,并去除了字典序 MO-MPC的终端约束,降低预测控制器在线优化的计算量,同时扩大了闭环系统初始可行域范围. 最后仿真对比实验结果验证了本文策略的优越性.
2 问题描述与预备知识
考虑离散时间非线性系统
(1)
其中:为采样时刻k的状态和控制输入,函数 f 关于 x 和u 满足 Lipschitz连续,且f(0,0)= 0. 进一步考虑控制约束集为紧集. 定义系统(1)的状态增量函数为
则该系统的平衡点集为
(2)
考虑系统(1)的个相互冲突且优先级各异的性能函数不失一般性,约定下标越小则优先级越高,即L1优先级最高,Ll 优先级最低. 为书写方便,令z =(x,u). 定义关于性能函数L1(z)的最优平衡点集Zs ⊆ Z如下:
(3)
则最优稳态集为Zs在状态空间的投影.
定义 1 [19] 考虑系统(1)及其平衡点zs和性能函数L1(z)及充分小常数ε >0. 当k → ∞时,该系统满足不等式
(4a)
(4b)
则系统(1)在平衡点zs是ε准最优稳定的. 进一步,满足不等式(4)的状态–控制对zk集合称为ε域. 若在ε域内存在L1(zs)= 0,且在ε域外L1(zk)非零,则当k → ∞ 且ε足够小时,有L1(zk)→ L1(zs)和zk → zs .
假设 1 存在 κ 类函数ψ(·)和δs(·),当ε 足够小时,对满足d(z,Zs)≤ δs(ε)的所有z,下述不等式
(5)
成立. 通常δs(ε)取值为1.
引理 1 [19] 考虑系统(1),性能函数L1(z)和充分小常数 ε ≥ 0. 令Lψ表示函数ψ(∆(z))关于 z 的Lipschitz常数,则存在参数α >Lψ使不等式
(6)
成立,其中:
本文目标是寻找系统(1)的多目标状态反馈控制律,在极小化l个性能函数的同时满足系统控制量约束,并使闭环系统达到近似最优. 为此,本文将采用字典序多目标优化方法设计多目标模型预测控制策略.
(7)
其中:为决策变量θ的可行集; φj是关于标量 θ值函数,∀j ∈ I1:l,φ1优先级最高,φl优先级最低.
定义 2 [15] 考虑多目标问题(7)的可行解 θ ∗ ∈ Θ,当且仅当不存在其他可行解θ ∈ Θ和标量i ∗∈I2:l ,使得对所有满足和φi(θ)= ,则θ ∗为该优化问题一个字典序最优解.
求解字典序最优解的标准方法是将多目标问题(7)转换为按优先级排列的单目标优化问题,即
(8a)
(8b)
则多目标问题(7)的字典序最优解为
(9)
为改进字典序优化的计算效率,通常将优先级等式约束松弛为
(10)
其中容差σ ≥ 0为充分小数. 为简单起见,将不等式约束(10)记为
注 1 假设每个内达到最小值,则问题(7)的最优化是在支配性概念 [15] 上定义. 由定义2可知,字典序最优解θ ∗本质上是一个考虑各性能函数优先级的Pareto最优解,当且仅当性能函数φi极小化的同时,至少有一个其他更高优先级的目标函数{φ1,φ2,· · ·,φi−1}非极小化,从而字典序最优解总是存在的,且对应的最优值函数是唯一.
3 优先级多目标预测控制
令为预测时域,定义k时刻的控制序列和相应预测状态量序列其中: 控制量表示在 k时刻对第k + t步的预测控制量,状态表示在k时刻对第k + t步的预测状态量. 令
参数α >0,γ >0. 定义系统(1)中l个性能函数对应的有限时域目标函数
(11a)
(11b)
进一步定义系统(1)的控制可行域C(xk)为
(12)
其中x0|k = xk为初始条件.
在当前时刻k求解如下字典序多目标优化问题:
(13a)
(13b)
其中:为第i个目标函数最优值函数,对应的最优控制序列为求解优化问题(13)得字典序最优控制序列
(14)
即
(15)
根据 MPC 滚动时域控制原理,定义优先级MOMPC控制律为
(16)
其中是最优解序列(15)的第1个分量,则对应的闭环系统为
(17)
算法(准最优稳定MO-MPC算法):
步骤 1 设置预测时域N ≥ 1和l ≥ 2个性能指标,参数α >0和γ >0; 令k = 0.
步骤 2 测量k时刻的状态量xk,并使用以下子过程在线求解字典序有限时域最优控制问题(13):
1)求解优化问题(13)第1层子问题(13a),得到最优序列
2)求解优化问题(13)的第层的优化子问题(13b),得到最优序列
3)计算多目标优化问题(13)的字典序最优序列
步骤 3 将字典序多目标最优控制序列k的第 1个分量作用于系统(1).
步骤 4 令k = k + 1,并返回到步骤2.
假设 2 [19] 考虑初始状态集对于任意系统(1)存在 N + 1步可达控制序列
假设 2给出字典序优化问题(13)的一个可行解,使初始状态xk ∈ X0能够N + 1步进入到最优稳态集Xs . 存在特殊情况,当k → ∞且ε足够小时,
引理 2(终端性质)[19] 考虑初始状态集X0和参数α >Lψ,对于任意初始状态xk ∈ X0,存在两个正实数κ3和κ4,目标函数(11a)满足以下终端不等式:
(18)
其中:表示第1层字典序优化问题的最优解.
引理 3 考虑系统(1)和参数α,γ >0,则对于任意xk ∈ X0,字典序优化问题各层最优解(13b)满足如下终端性质:
(19)
其中:表示层字典序优化问题的最优解,
证已知字典序优化问题(13b)中包含字典序约束则可得
(20)
推得
(21)
其中
由引理1得到
(22)
将(22)代入(21)得到
(23)
根据引理1可得
(24)
其中:
证毕.
定义 3 [14] 给定多目标优先级p,在当前时刻k,如果由第j层子问题的可行性可以推得第j + 1层子问题也是可行的,则字典序优化问题(13)具有层级递推可行性.
定义 4 [14] 如果由字典序优化问题(13)在当前时刻k的可行性可以推得其在k + 1时刻也是可行的,则字典序优化问题(13)具有时域递推可行性.
注 2 层级递推可行性描述的是同一时刻层级子问题之间的可行性,时域递推可行性描述的是整个优化问题在相邻时刻的可行解的存在性. 两者共同构成字典序MO-MPC的递推可行性.
定理 1 考虑假设2和字典序优化问题(13),如果第1层优化问题(13a)在k时刻优化可行,则字典序优化问题(13)在k + 1时刻也可行.
证 1)根据假设2,设候选控制序列
(25)
为第1层优化问题(13a)在k时刻的可行解,则满足约束(12)和(18). 再考虑第个目标函数及其优化问题(13b)将代入上述优化问题,则满足约束(12)和(19),字典序约束成立,从而优化问题(13)在k时刻存在可行解. 考虑到j的任意性,可得第1层优化问题(13a)可行,意味着后续各层优化问题都是可行的.
2)考虑第1层优化问题(13a)及其k时刻一个可行解
(26)
考虑假设 2成立,控制序列(26)是优化问题(13a)在 k + 1时刻的一个可行解. 故通过归纳得到字典序最优控制问题(13)在k + 1时刻可行. 证毕.
定理 2 考虑系统(1)和假设1–2及其参数 α 和 γ >0,如果优化问题(13)初始可行,则闭环系统(17)在初始可行集X0内满足ε准最优稳定.
证第1层字典序优化问题(13a)初始可行,从定理1可知,在时刻,字典序优化问题(13)都可行. 令为k时刻问题(13)的最优解,为k时刻第 1层子问题(13a)的最优解. 通常满足为k + 1时刻问题(13)的最优解,为k + 1时刻第1层子问题(13a)最优解,将k时刻和k + 1时刻最优控制分别代入式(11a),并沿闭环轨迹(17)做差分运算,得
(27)
进一步整理得
(28)
结合假设2,整理式(27)有
(29)
其中: Ll和L∆分别是L1和∆的Lipschitz常数,
定义系统(1)的集合
(30)
则当状态x停留在集合S外,可得
(31)
显然,最高优先级目标函数最优值J1单调递减. 当xk 在S内,系统以2ρ(α,γ)为边界进行约束. 结合定义 1 和假设 1可知,邻域δs(2ρ(α,γ))≤ 1,使系统满足ε准最优稳定.
在上限时刻 存在V1(xk,uk)= Ks(1). 当k ≥ 时,得到下述不等式:
(32)
(33)
随着时间 k 趋于充分大,闭环系统的状态轨迹将渐近稳定于最优稳态集. 证毕.
4 实例仿真
(34)
其中: 状态量x1代表P1的浓度,x2代表P2浓度,x3代表反应器中混合物的温度. 控制量u在0.049和0.449 范围内. 给出目标函数L1(x,u)= −x2和L2(x,u)= x1,目的是在保证废品量最小的前提下,保证产物量最大. 系统稳态表示为xs =(0.0832,0.0846,0.149)和us = 0.149. 仿真步长为Tsim = 60,预测步长为6,采样周期Ts为0.1 s. 终端代价终端域用已知系统稳态的传统字典序MO-MPC 算法 [18-20,22](traditional-lexicographical MPC,Tra-LMPC)与本文算法(Our-LMPC)进行对比.
4.1 仿真实验1
考虑初始状态对(x0,u0)=(0.001,0.02,0.13,0.12),针对参数α和γ选择不同,对应控制效果如图1所示. 其中,实线为 Tra-LMPC的仿真结果; 虚线为 Our-LMPC(γ = 0.04,α = 0.0001)的仿真结果; 点线为Our-LMPC(γ = 0.03,α = 0.0001)的仿真结果; 点划线为 Our-LMPC(γ = 0.02,α = 0.0001)的仿真结果. 当α不变(α = 0.0001)时,α/γ越小(值函数V1(xk,uk)不变,终端性质E1(xk)起主要作用),约束(19)越严格,Our-LMPC效果越接近Tra-LMPC对应的期望稳态,且变化过程越平稳. 产物浓度x2变化大致相同,物料浓度x1越高,反应温度x3越低,说明物料转化率越高. 同时结合定理2观察系统,Tra-LMPC计算时间是 37.84 s,稳定起始时刻从12 s开始收敛,提前到OurLMPC的5 s. 结合表1看出,Tra-LMPC的显式处理系统稳态和带终端约束将影响原始性能,会加重MPC在线优化的计算量,Our-LMPC具有更快收敛性和计算速度.
由定义1可知,在不显式处理系统稳态的前提下,可通过 ε控制系统准稳态域. 由式(32)–(33)可知,当 α =0.0001时,γ越大,ε准稳态域越大,系统可行域越大. 结合图1–2所示,参数α/γ越小,约束(19)越严格,系统在期望稳态的 ε邻域内越稳定. 其中,当 α = 0.0001时,受α/γ 的影响,γ = 0.04比γ = 0.01的约束条件(19)更严格,效果更稳定,计算的更快.
图1不同γ的状态量和控制量曲线
Fig.1Profiles of states and control with different γ
表1不同γ的总计算时间
Table1The total computation time with different γ
图2不同γ的ε准稳态最优值曲线
Fig.2Profiles of ε quasi steady-state optimal values with different γ
如图3所示,考虑初始状态对(x0,u0)=(0.001,0.03,0.13,0.12). 其中: 实线为 Tra-LMPC的仿真结果; 虚线为 Our-LMPC(γ = 0.01,α = 0.000 1)的仿真结果; 点线为 Our-LMPC(γ = 0.01,α = 0.000 01)的仿真结果; 点划线为 Our-LMPC(γ = 0.01,α = 0.000 001)的仿真结果. 当γ(γ = 0.01)不变时,α越大(目标函数V1(xk,uk)和终端性质E1(xk)受到影响主要调节状态幅值变化∆(xk,uk)Our-LMPC越接近对应的期望稳态). 对比Tra-LMPC,Our-LMPC受参数α 影响明显,α变大的过程中,V1(xk,uk)起主要作用,降低终端性质E1(xk)对系统的影响. 参数α取值变化细微,但E1(xk)也随参数α的变大而变大,故仿真过程中产生震荡,可见松弛约束条件(19)对ε准稳态具有很大影响. 观察图3仿真可知在 γ = 0.01,α = 0.000 1时震荡最小. 另外,对比计算速度,Tra-LMPC 计算时间是34.13 s,Our-LMPC求解速度更快,如表2所示.
图3不同α的状态量和控制量曲线
Fig.3Profiles of states and control with different α
表2不同α的总计算时间
Table2The total computation time with different α
如图4所示,当γ(γ = 0.01)不变时,参数α变化,ε 的范围大体一致. 由式(32)–(33)可知,在ε准稳态域相同的情况下,参数γ比参数α更影响ε的范围. 对比表2,看出Our-LMPC计算量也受参数α影响. 说明改善终端性质对计算量产生影响.
图4不同α的ε准稳态最优值曲线
Fig.4Profiles of ε quasi steady-state optimal value with different α
因此,可以通过调节参数α和γ改善系统的收敛速度和计算量,从而提高预测控制器应用的灵活性.
4.2 仿真实验2
根据集合S可知状态轨迹与Lipschitz常数相关,系统在可达控制序列下渐近到最优稳态集Xs内,预测时域的变化会影响系统的稳定性和计算量. 考虑初始状态对(x0,u0)=(0.001,0.03,0.13,0.15),为了验证 Our-LMPC的优越性,将Our-LMPC和Tra-LMPC对比不同预测时域下控制效果.
表3表示两种策略在不同预测时域下的平均运行时长对比,在相同预测时域下,Our-LMPC速度更快; 随着预测时域变化,Our-LMPC整体运行速度更快. 但是随着预测时域的增加(N = 4的情况过短的预测时域会影响系统性能,如图5所示,从计算的角度,OurLMPC效果很可观),反应器中的产物x1浓度变高,废物x2浓度相近,反应器中的温度低,说明产品转化率变高,体现出随着预测时域的变化经济效果越好但是计算时间越长,不同预测步数表现出相近的产量,N = 2更接近系统最优稳态. 实际上,通过调节参数缩小ε准稳态区域大小,确实起到了减小计算量的效果. 综上,本文算法运行速度更快,且预测时域越短效果越好.
表3不同预测时域下平均运行时长
Table3The average running times with different prediction horizons
图5在不同预测时域下的状态量和控制量曲线
Fig.5Profiles of states and control with different prediction horizons
4.3 仿真实验3
以相同的初始点作为初始量,对比 Tra-LMPC和 Our-LMPC的最小预测时域. 根据表4看出,在相同的初始值下,Our-LMPC比Tra-LMPC预测时域更小,说明Our-LMPC具有更大的可行范围.
表4保证MO-MPC初始可行性的最短预测时域(N)
Table4The shortest prediction hrizon (N) ensuring the initial feasibility of MO-MPC
5 结论
本文提出了一种准最优稳定的优先级MO-MPC策略. 将准最优稳定MPC位于最高优先级,利用该MPC 的近似最优性质优先解决系统渐近到最优稳态的问题,同时实现去掉全局终端约束的效果,该算法从去掉终端约束条件和不用显式处理系统稳态的角度减少字典序优化算法计算量. 本文算法没有利用跟踪稳态构造最高优先级的目标函数,而是对目标函数进行设计,通过设计参数使系统在较小邻域内维持稳定,降低了计算量,并且扩大了可行域. 最后结合字典序约束给出目标函数满足的终端性质,证明了该策略的可行性和近似最优性.