基于混合进化博弈的多敏捷卫星多目标调度优化
doi: 10.7641/CTA.2025.50050
张广辉1 , 魏晨轩1 , 冯彦翔2 , 李晓玲3
1. 河北农业大学信息科学与技术学院, 河北 保定 071001
2. 西安交通大学自动化科学与工程学院, 陕西 西安 710049
3. 长安大学电子与控制工程学院, 陕西 西安 710064
基金项目: 河北省自然科学基金项目(F2024204007), 西安交通大学机械制造系统工程国家重点实验室开放课题项目(sklms2023002)资助.
Multi-agile satellites multi-objective scheduling based on hybrid evolutionary game theory
ZHANG Guang-hui1 , WEI Chen-xuan1 , FENG Yan-xiang2 , LI Xiao-ling3
1. School of Information Science and Technology, Hebei Agricultural University, Baoding Hebei 071001 , China
2. School of Automation Science and Engineering, Xi’an Jiaotong University, Xi’an Shaanxi 710049 , China
3. School of Electronics and Control Engineering, Chang’an University, Xi’an Shaanxi 710064 , China
Funds: Supported by the National Natural Science Foundation of Hebei Province (F2024204007) and the Projection of State Key Laboratory for Manufacturing Systems Engineering of Xi’an Jiaotong University (sklms2023002).
摘要
随着航天技术的不断发展, 具有先进姿态机动能力的敏捷地球观测卫星在气候监测、军事动态等方面发挥重要作用. 为满足复杂的敏捷卫星任务调度需求, 本文以最小化观测任务失败率和卫星负载均衡为目标, 研究了带有时间依赖性的多敏捷卫星多目标调度优化问题. 首先, 基于问题特征构建了数学规划模型. 其次, 基于进化博弈理论提出一种混合进化博弈调度算法(HEGSA), 包括全局开采和局部勘探两个进化阶段, 全局开采阶段通过启发式策略生成具有异构身份的两个子种群, 并采用多目标进化博弈策略优化每个子种群以平衡收敛性和多样性; 局部勘探阶段采用一种自学习算子以增强对解空间的高效搜索. 最后, 通过仿真实验验证了HEGSA的有效性.
Abstract
The continuous advancement of aerospace technology has enabled agile earth observation satellites with advanced attitude maneuverability to play a significant role in climate monitoring, military intelligence, and other fields. In order to meet the complex agile satellite task scheduling requirements, this paper investigates a time-dependent multiobjective scheduling optimization problem for multiple agile satellites, aiming to minimize task failure rates and satellite load balancing. Firstly, a mathematical programming model is constructed based on the problem characteristics. Secondly, a hybrid evolutionary game scheduling algorithm (HEGSA) is proposed based on evolutionary game theory, which includes two evolutionary stages: global exploitation and local exploration. In the global exploitation stage, heuristic strategies are employed to generate two subpopulations with heterogeneous identities, and a multi-objective evolutionary game strategy is used to optimize each subpopulation to balance convergence and diversity. In the local exploration stage, a self-learning operator is used to enhance the efficient search of the solution space. Finally, the effectiveness of HEGSA is verified through simulation experiments.
1 引言
随着遥感技术的不断发展,地球观测卫星(earth observation satellite,EOS)凭借成像效果好、成像范围广和能够长期稳定运行等优点,在气象预报、灾区监测、军事情报侦察和作战等领域得到了广泛应用 [1] . 与仅具有侧摆轴向的传统EOS相比,敏捷地球观测卫星(agile EOS,AEOS)在俯仰、侧摆、偏航3个轴向具有先进姿态调整能力,能够在经过目标点之前或之后进行观测任务,大幅提高了对目标点的观测能力,如图1所示.
1传统EOS与AEOS
Fig.1Conventional EOS and AEOS
AEOS在经过目标点上方时,会产生一个较长的可见时间窗口(visible time window,VTW),能够提高任务调度的灵活性,但也增加了调度问题的复杂性. 敏捷地球观测卫星调度问题(AEOS scheduling problem,AEOSSP)旨在卫星观测资源有限的条件下,根据各项任务的VTW确定实际观测开始时间. AEOSSP 已被定义为一个 NP 难问题 [2],国内外学者针对该问题已经开展了广泛的研究. Lemai^trea 等人 [2] 全面分析了 AEOSSP特征,并提出贪婪算法、动态算法等方法处理该问题. Xu等人 [3] 采用基于优先级的顺序构造方法对AEOSSP进行求解. 然而,上述工作没有考虑到 AEOSSP存在的时间依赖性切换时间约束,限制了 AEOS的实际应用.
为更加切合AEOS 实际观测场景,本文考虑了AEOS对连续任务观测时产生的时间依赖性切换时间. 具体而言,AEOS对处于不同位置的目标点进行连续观测时,存在一个切换时间用来完成姿态调整,且不同的任务观测开始时间对应不同的卫星姿态. 因此,两次观测开始时间对应的卫星姿态变化幅度决定了切换时间的长短,产生了时间依赖性切换时间约束. 针对带有时间依赖性的AEOSSP,Liu等人 [4] 采用了一种自适应大邻域搜索(adaptive large neighborhood search,ALNS)算法,通过设计多种邻域搜索算子解决单星调度问题. Peng等人 [5] 设计了迭代贪婪算法求解单星和多星场景下的AEOSSP. Wu等人 [6] 提出一种带有任务分配和任务排序两阶段的改进ALNS用于解决 AEOSSP. 李君等人 [7] 拓展了AEOSSP约束,构建了多类型时间依赖资源约束的AEOSSP整数规划模型,并针对问题提出一种基于自适应选择因子的迭代局部搜索启发式算法. 宋彦杰等人 [8] 构建了多星任务规划数学模型,并采用包含两种优化策略的改进遗传算法求解该问题. 贺东雷等人 [9] 建立了面向深空探测任务的多星任务规划问题模型,并通过基于实数编码方式的遗传算法解决该问题. 这些工作将AEOSSP视为一个最大化观测收益的单目标问题,未能充分考虑实际卫星任务规划中多目标优化的必要性. 在复杂的卫星观测场景中,调度决策往往需要权衡多个相互冲突的目标,因此,调度算法需要提供多样化调度方案,以便决策者根据实时需求灵活选取最优方案.
为满足决策者对AEOSSP调度方案的不同偏好和观测需求,许多学者对多目标敏捷地球观测卫星调度问题(multi-objective AEOSSP,MO-AEOSSP)展开进一步研究. Wei等人 [10] 对带有时间依赖性的MO-AEOSSP构造了多目标模因算法,以最小化观测任务失败率和轨道负载均衡为目标设计多种搜索算子处理该问题. Wang等人 [11] 为多星场景下的 MO-AEOSSP 提出了多目标模因离散Jaya算法,采用多个目标改进算子求解该问题. 尽管上述算法处理MO-AEOSSP时取得了较好效果,但仍未充分利用卫星能耗等启发式信息提高算法求解质量. 因此,需要继续开发更高效的智能优化算法.
本文针对时间依赖性多星 MO-AEOSSP,提出一种混合进化博弈调度算法(hybrid evolutionary game scheduling algorithm,HEGSA),主要创新点如下:
1)针对时间依赖性多星MO-AEOSSP,以最小化观测任务失败率和卫星负载均衡为目标,构建了数学规划模型,并对该模型采用Cplex进行求解;
2)提出了一种多目标进化博弈模型和一种自学习局部勘探策略,用以平衡种群的收敛性与多样性;
3)将基于进化博弈的全局开采和自学习局部勘探策略结合形成HEGSA算法,实验验证了其有效性.
2 问题描述与建模
2.1 问题描述
MO-AEOSSP描述如下: |T| 个待调度任务 T = {Ti |i = 1,2,· · ·,|T|} 被分配到|A| 颗卫星A = {Aa| a = 1,2,· · ·,|A|} 进行观测,每颗卫星存在|O| 个轨道O={Or|r = 1,2,· · ·,|O|},每个任务在单颗卫星的每个轨道上最多存在一个 VTW,用于观测该任务. 记UT为T 中所有任务VTW 集合,即UT = {vtwiar | i Ta Ar O}. 记fsar = [fsar(1),fsar(2),· · ·,fsar(|Tar|)]为卫星a轨道r的任务调度序列,这里fsari)∈ T且|Tar|表示卫星a轨道r上的实际调度任务数量. 观测相邻任务fsari)和fsari + 1)时,存在切换时间约束,即卫星在完成对fsari)的观测后,要有充足时间去调整姿态以观测fsari + 1). 该问题的一个解就是满足上述约束下,确定每个卫星轨道上的任务调度序列,记π={fsar |a A r ∈ O}. 那么,MO-AEOSSP就是确定一组合适的解π,以最小化指定的优化目标. 本文中的优化目标是最小化观测任务失败率f1和卫星负载均衡f2. 为界定问题,具有如下假设:
1)只考虑一次过境即可完成观测的点目标;
2)一颗卫星的每次观测只能执行一个任务,且任何执行的任务均不能被抢占;
3)本文研究了半敏捷卫星AS-01,其观测姿态在观测过程中保持不变. 基于此特征,采用相邻任务开始时刻对应的卫星姿态计算切换时间.
2.2 数学建模
2.2.1 符号定义与切换时间计算
首先给出 MO-AEOSSP 中各符号定义,如表1所示.
1符号和变量
Table1Symbols and variables
对于任意两个相邻的观测任务TiTj ,其时间依赖性切换时间SiarSjar¯计算如式(1)所示 [4-57] :
Sia,r,Sja,r¯=11.6, Δθ10,c1+Δθ/v1, 10<Δθ30,c2+Δθ/v2, 30<Δθ60,c3+Δθ/v3, 60<Δθ90,c4+Δθ/v4, Δθ>90,
(1)
其中∆θ表示相邻任务的观测角度变化量,其计算方法如式(2)所示:
Δθ=αSia,r-αSja,r+βSia,r-βSja,r+γSia,r-γSja,r
(2)
其中: [v1 v2 v3 v4]表示卫星相机在4个不同角度变化量下对应的角速度,取值分别为[1.5 2 2.5 3]; [c1 c2 c3 c4] 表示每个角速度对应的常数项,取值分别为[5 10 16 22].
2.2.2 数学模型
MO-AEOSSP 具有以下两个目标函数,分别表示为观测任务失败率f1π)和卫星负载均衡f2π):
f1(π)=1-aA rO iT RiXia,riT Ri,
(3)
f2(π)=aA TPa-TP¯2(|A|-1)/TP¯,
(4)
其中: TPa表示卫星a的实际能耗量,其计算方法如式(5)–(6)所示; TP¯表示多颗卫星的平均能耗量,其计算方法如式(7)所示:
TPa=rO Ea,r
(5)
Ea,r=iT Xia,rPtZa+PwDi+i,jT Yi,ja,rSia,r,Sja,r¯Pd
(6)
TP¯=aA TPa|A|.
(7)
根据上述符号定义,建立MO-AEOSSP 数学模型如下:
minf1(π),f2(π),
(8)
aArO Xia,r1,iT,
(9)
jT{ve}ji Yi,ja,r=Xia,r,jT{vs}jia,r Yj,ia,r=Xia,r,iT,aA,rO,
(10)
iT{vs} Yi,vea,r=1,iT{ve} Yvs,ia,r=1,aA,rO,
(11)
sia,rXia,rSia,r,Sia,reia,r-DiXia,r,iT,aA,rO,
(12)
Sia,r+Di+Za+Sia,r,Sja,r¯-Sja,rL1-Yi,ra,r,i,jT,aA,rO,
(13)
iT Xia,rBia,rMmaxa,r,aA,rO,
(14)
iT Xia,rPtZa+PwDi+i,jT Yi,ja,rSia,r,Sja,r¯PdEmaxa,r,aA,rO,
(15)
其中: L表示非常大的正整数,vs和ve表示虚拟的开始任务和结束任务. 式(8)表示研究的 MO-AEOSSP 是一个最小化问题. 约束(9)确保每个任务最多被调度一次. 约束(10)–(11)确保某个任务的VTW被调度时,该VTW所在卫星和轨道上只能有一个前驱任务和后继任务. 约束(12)确保被调度任务的实际开始时间必须在时间窗口范围内,且可完整执行. 约束(13)确保同一卫星和轨道上的相邻任务之间存在充足的时间间隔来完成转换工作. 约束(14)–(15)确保每颗卫星每个轨道下的存储和能源消耗量不超过给定的储备量.
2.2.3 目标函数处理
由于f2为非线性目标函数,Cplex无法直接求解. 基于文献 [5] 对单目标AEOSSP的研究,本文采用ϵ约束法对f2进行处理,具体步骤如下:
步骤 1 由最小化f1求出解π,通过式(5)–(6)计算π中每颗卫星a的实际能耗量TPa,该过程记为f1op.
步骤 2 根据式(16)计算理想平均能耗值EL:
EL=aA TPa|A|
(16)
步骤 3 由EL获得处理后的f2'如式(17)所示:
f2'=aAS TPa-EL2(|A|-1)/EL.
(17)
该步骤基于π的结果,为避免误差,需确保π的唯一性.
步骤 4πf1ϵ,并使f1ϵ,之后,对最小化f2'进行求解,该过程记为f2op.
3 HEGSA算法
3.1 HEGSA整体框架
HEGSA算法由启发式初始化、基于进化博弈的全局开采策略、自学习局部勘探策略和种群重构4个模块组成. 首先,通过启发式策略构建两个不同初始种群; 之后,基于进化博弈的全局开采和自学习局部勘探将对种群进行改进,得到新种群; 最后,对新种群进行种群重构,重新划分成两个种群. 重复上述过程,直到满足终止条件. HEGSA整体流程如图2所示.
3.2 编码与解码
半敏捷卫星任务调度满足先进先出性质和三角不等式法则,可采用最小切换时间代替实际相邻任务的切换时间 [5],即在给定前驱任务Ti的调度开始时间后,可尽早开始进行后继任务Tj的调度. 基于相邻任务可达与不可达上下限的计算方法,本文提出了一种处理 MO-AEOSSP的编码策略和全局松弛解码方法.
2HEGSA流程图
Fig.2Flowchart of the HEGSA
3.2.1 编码
对于第2.1节的MO-AEOSSP,|T|个待调度任务在 |A|颗卫星上观测,每颗卫星有|O|个轨道, T中所有任务的VTW数量之和记为|UT|. 对于该问题的一个解记作π = {fsar|aAr O},且fsar = [fsar(1)fsar(2)· · · fsar(|Tar|)],可将π编码成一个VTW 的序列Uπ = [U1U2]1×|UT|,包含两个子序列 U1 U2. 其中,U1表示π中每个fsar所对应的VTW序列,U2表示UT中未包含在π内的VTW序列.
3.2.2 解码
对于一颗卫星a某一轨道r上一个单独的待调度的任务Ti ,其可行的实际调度开始时间Siar 取值范围如式(18)所示:
Sia,rsia,r,eia,r-Di.
(18)
在该范围内任意时刻开始调度Ti,均满足时间窗口约束,记SiareiarDi分别为可行的最早开始时间ESTiar 和最晚开始时间LSTiar .
对同一卫星和轨道下两个相邻任务TiTj ,若实际调度开始时间SiarSjar 满足约束(13),则称可达,记为ij,否则记为i j. 当已知TiSiar 时,Tj的最早开始时间ESTijsiar计算方法如式(19)所示:
ESTijSia,r=minSja,rSia,r+Za+Di+Sia,r,Sja,r¯Sja,rSja,rsja,r,eja,r-Dj
(19)
ESTijSiar 存在,当Sjar∈ [ESTijSiarLSTjar ]时,ij. 当SiarLSTjar 移动(松弛),ESTijSiar将同样向LSTjar 松弛,若存在某一时刻Siar'使得ESTijSiar 超出LSTjar,则记Siar' 为最早不可达时间UESTijarUESTijarSiar 时,ij. UESTijar 的计算方法如式(20)所示:
UESTija,r=minSia,r'Sia,r'+Sia,r',LSTja,r¯+Za+Di>LSTja,rSia,r'sia,r,eia,r-Di
(20)
以此类推,当已知Tjsjar时,Ti的最晚开始时间 LSTijSjar 计算方法如式(21)所示:
LSTijSja,r=maxSia,rSia,r+Za+Di+Sia,r,Sja,r¯Sja,r,Sia,rsia,r,eia,r-Di.
(21)
LSTijSjar存在,当SiarESTiarLSTijSjar时,ij. 当Sjar向着ESTjar松弛时,LSTijSjar 将同样向着ESTiar 松弛,若存在某一时刻Sjar'使得LSTijSjar超出ESTiar,则记Sjar' 为最晚不可达时间ULSTijar . 当 SjarULSTijar时,ij. ULSTijar计算方法如式(22)所示:
ULSTija, r=maxSja, r'ESTia, r+Za+Di+ESTia, r, Sja, r'¯>Sja, r',
Sja,r'sja,r,eja,r-Dj.
(22)
上述时间计算可以采用预处理方法获取,具体方法可参考文献 [5] . 基于获取到的各项任务开始时间信息,可通过全局松弛方法将任意任务的VTW插入到相应卫星和轨道下.
具体而言,现将某一任务Tk的VTW插入到对应卫星a轨道r下,对于任意位置已调度的前驱任务Ti和后置任务Tj之间,根据全局松弛规则,存在以下条件:
1)由Ti的前驱任务 Ti−1确定 Ti ESTi-1iSi-1arESTi-1iSi-1ar<UESTikar;
2)由Tj的后置任务Tj+1确定TjLSTjj+1Sj+1ar,且 LSTjj+1Sj+1ar>ULSTkjar;
3)由ESTi-1iSi-1ar获取TkESTikSiar,由LSTjj+1Sj+1ar 获取TkLSTkjsjar,且ESTikSiarLSTkjSjar.
若上述条件均满足,则Tk可插入到当前位置,并记ESTikSiarSkar . 之后,需根据式(19)与(21)分别更新 Tk之后任务的EST和之前任务的LST. 此时,得到的新任务序列满足时间窗口约束和切换时间约束,但要确保任务序列满足其他约束,需执行以下步骤:
1)在插入新任务前,计算待插入任务 VTW所在卫星及轨道下的存储余量,若存储余量不足以调度该 VTW,则终止插入流程;
2)在插入新任务后,需计算相应卫星及轨道下的实际能耗量,若实际能耗量超出卫星的能源储备量,则放弃插入当前任务;
3)若新任务成功插入,则删除编码序列Uπ中该任务的其他VTW,确保每个任务不重复调度.
基于上述方法,可对任意的编码序列Uπ进行解码,具体解码过程如下:
步骤 1 输入Uπ,初始化可行解π = ,顺序索引index = 1,设Uπ中的VTW数量为|Uπ|;
步骤 2 获取Uπ中index对应的任务VTW,设插入标识flag = False;
步骤 3 获取当前VTW对应卫星和轨道下的已调度任务序列fsa,r的存储余量. 若存储余量不满足调度当前VTW,则跳转至步骤6,否则,执行下一步;
步骤 4 令插入位置索引io = 1,获取io所对应的fsar中的前驱和后继任务,根据全局松弛策略将当前VTW插入到对应位置. 若当前位置成功插入VTW,则更新其他任务的EST和LST,得到新解π′并执行下一步,否则,令io值加1,继续执行插入操作,若所有位置均无法插入当前VTW,则跳转至步骤6;
步骤 5 判断π′是否满足卫星能耗约束,若满足则令π = π′,flag = True; 否则,π和flag保持不变;
步骤 6 令index加1,之后,若flag=True,则删除Uπ 中后续该任务的其他 VTW并更新 |Uπ| . 此时,若index >|Uπ|则输出π,否则,返回至步骤2.
3.3 启发式初始化
为获得高质量初始种群P1P2,设计了不同初始化策略. P1的初始化策略考虑种群收敛性并构造具有更好f1的解,P2的初始化策略考虑种群多样性并构造具有更好f2的解. 启发式初始化具体步骤如下:
步骤 1 初始化 P1P2 = ,个体索引index = 1. 输入种群规模|PS|和待调度任务集合T;
步骤 2 根据每个任务Ti的收益Ri,采用轮盘赌将T 确定成 T1 . 每个任务在当前顺序被选中的概率 pro(i)计算方法如式(23)所示:
pro(i)=RijT Rj;
(23)
步骤 3T1中每个任务对应的VTW进行随机排序,形成U1. 基于第3.2.2节内容解码U1,产生可行解π,并将π放入到P1,若index<PS2,则令 index值自加1并返回步骤2;
步骤 4T随机打乱形成T2;
步骤 5 按照T2将每个任务依次插入得到π,每次插入任务前根据式(6)计算各卫星和轨道负载,将任务优先插入到具有最低负载的卫星和轨道内;
步骤 6π 放入到P2,此时,若index <|PS|,则令index自加1并返回步骤4. 否则,完成启发式初始化,输出P1P2.
3.4 基于进化博弈的全局开采策略
3.4.1 进化博弈模型
进化博弈旨在不同种群之间通过选择、合作、竞争等策略进行博弈,实现种群质量的改进. 多星多轨道下的MO-AEOSSP求解满足分治法思想,各卫星下每个轨道的子解fsar构成π. 基于这一特性,本文采用双种群进化博弈解决MO-AEOSSP,建立对应的进化博弈模型,具体包含以下内容:
1)参与者. 根据优化目标划分参与者,分别为优先改进f1的种群P1中包含的所有个体π1和优先改进f2 的种群P2中包含的所有个体π2. 采用(主体、客体)来表示两个种群中各个体之间的关系;
2)策略集合. 根据参与者主体和客体之间关系,共设计了4种不同的合作和竞争策略. 策略集合C和每个策略的索引ci表示如式(24)所示:
C=cii=1,,4=Coπ1,π2,Cpπ1,π2,Coπ2,π1,Cpπ2,π1,
(24)
其中: Co表示合作策略,Cp表示竞争策略;
3)基于参与者和策略集合,构建支付矩阵如表2所示.
2支付矩阵
Table2Payoff matrix
表2qiδi分别对应策略 ci 的选择概率和收益值. qi的计算方法如式(25)所示:
qi=δiδ1+δ2, i=1 i=2,δiδ3+δ4, i=3 i=4.
(25)
为量化不同策略的收益值δi ,本文采用超体积指标(hypervolume,HV)增量评估方法,通过计算在不同策略下新生成个体对 HV的贡献度,实现δi的动态更新. HV计算方法如式(26)所示:
HV=Ωi=1|PF| hi,
(26)
其中: 表示勒贝格测度,hi 表示参考点与帕累托前沿(pareto frontier,PF)中第i个解构成的超体积,PF中解的数量记为|PF|.
给定P1P2,基于进化博弈的全局开采策略具体步骤如下:
步骤 1 初始化空种群 PS 和PS′. 对P1P2中的个体进行随机配对,每个配对具有两种组合,分别表示为(π1π2)和(π2π1);
步骤 2 基于支付矩阵和式(25)确定各组合的进化策略,根据对应策略产生新个体π′并放入到PS′;
步骤 3P1P2,PS′内所有个体整合为一个种群PS. 若某一策略ci产生的π′在PS中为非支配个体,则通过式(27)计算更新后的收益δi update. 之后,输出PS和更新后的支付矩阵.
δiupdate =δi+HVPS-HVPS/π',
(27)
其中HVPS和HVPS/{π′}分别表示PS的HV值和移除π′ 后的HV值.
3.4.2 进化策略与修复
考虑到P1P2具有不同的优化目标,可根据参与者主体与客体之间关系设计不同的合作和竞争策略.
Coπ1,π2)π1π2通过合作形成具有更优f1的新可行解π′,该策略的具体含义如式(28)所示:
π'fsa,r=fsa,rπ1,twfsa,rπ1twfsa,rπ2,fsa,rπ2,
(28)
其中: fsarπ1π1中卫星a轨道r下的子解,twfsarπ1表示当前子解的总收益.
Coπ2,π1)π2π1通过合作形成具有更优f2的新可行解π′,该策略的具体含义如式(29)所示:
π'fsa=fsaπ1,TPaπ1-π-'TPaπ2-π-',fsaπ2, ,
(29)
其中: fsaπ1π1中卫星a下的子解,TPaπ1 表示π1中卫星a的实际能耗量,π-'表示当前π′中卫星平均能耗量.
Cpπ1−π2) 和Cpπ2−π1) 由主体不同进行区分,两个策略通过竞争形成新可行解π′,以Cpπ1−π2)为例,该策略具体含义如式(30)所示.
(30)
其中Earπ1表示π1中卫星a轨道r下子解的实际能耗量.
由于每个任务存在多个VTW,新生成的π′存在任务被重复调度的问题,违反了约束(9),因此提出解修复策略. 设被重复调度的任务集合为RT,对RT内每个任务仅保留处于能耗最低的卫星和轨道上的VTW,之后,更新剩余任务的EST与LST,完成修复过程.
3.5 自学习局部勘探策略
为了实现HEGSA对解空间的高效搜索,设计了自学习局部勘探策略,该策略根据进化博弈的改进结果进行动态调整,并采用自适应参数greed平衡局部勘探的收敛性和多样性. 自学习策略的具体步骤如下:
步骤 1 确定待改进的种群集合WP和greed参数. 根据进化博弈的改进结果,若种群PS的非支配解发生变化,则WP为PS内的所有非支配解,否则,WP 为PS 内随机选取的一半个体. 设算法总运行时间为 Tmax,当前运行时间为 Tr,则greed 的计算方法如式(31)所示:
greed =1-TrTmax;
(31)
步骤 2 对WP中某一个体π随机删除RP比例的任务,并更新剩余任务的EST和LST,形成π′;
步骤 3 获取π′的未调度任务序列TL,对TL中每个任务Ti ,基于Ri进行降序排序,得到新的任务序列TL′;
步骤 4 由greed值将TL′划分为TL1和TL2,其中TL1为TL′前greed · 100%的任务序列,TL2为剩余的任务序列;
步骤 5 随机打乱TL2,之后将TL1和TL2前后拼接形成新的任务序列TLfinal;
步骤 6π′的基础上对TLfinal进行解码. 在插入每个任务前首先根据式(6)计算各卫星和轨道的能耗量,将任务优先插入到具有最低能耗的卫星和轨道上,得到新可行解π;
步骤 7π放入PS,若已完全遍历WP中的每个个体,则完成自学习,输出PS,否则,返回到步骤2.
3.6 种群重构
为了保留并不断更新HEGSA在迭代过程中产生的优质解,采用基于切比雪夫分解的方法进行种群重构,具体步骤如下:
步骤 1 初始化空种群P1P2,空权重向量集合WW1W2,输入候选种群PS;
步骤 2 基于种群规模 |PS|,采用 Das&Dennis 法 [12] 生成W,令iW中每个权重向量λ的索引,每个 λi计算方法如式(32)所示:
λiw1,w2=i(|PS|-1),1-i(|PS|-1),i[0,|PS|-1],
(32)
其中w对应目标函数的权重分量;
步骤 3W中具有最大w1的前PS2λi划分到WS1,剩余λi划分到WS2;
步骤 4 获取PS内所有个体π构成的理想点Z,其计算方法如式(33)所示:
Z*Z1,Z2=minf1(π),minf2π',π,π'PS;
(33)
步骤 5 对于W1W2中某一λi,根据式(34)计算PS内候选π在当前λi下的切比雪夫距离CFπ,具有最小CFππ对应放入到P1P2.
CFπ=maxf1(π)-Z1w1,f2(π)-Z2w2;
(34)
步骤 6 判断是否已完全遍历W1W2内的每个λi ,若是则输出P1P2,否则,返回到步骤5.
4 仿真实验
4.1 实验设置
为检验 HEGSA 求解 MO-AEOSSP的有效性,设计多个不同规模算例进行测试,具体包括: 任务数量|T| = {400,450,600,700,1000,1200},卫星数量 |A| = {3,4,6,7,9,10},每种任务数量与两种卫星数量组合,最终形成12组算例,每组算例由(任务数量卫星数量)表示. 所有算例采用satellite tool kit(STK)生成,目标点位置为全球范围内随机生成,日程安排的时间范围为2024/7/13 00:00:00至2024/7/14 00:00:00. 卫星参数与文献 [4] 相同,轨道参数可参考文献 [6] .
在每组算例下,将HEGSA与3种算法进行比较,包括: MMOD-Jaya [11],SPEA2 [13] 和MOEA/D [14] . 其中: MMOD-Jaya 采用原文中算法流程和参数配置; SPEA2和MOEA/D的交叉、变异策略分别为随机匹配交叉和插入变异,交叉、变异位置随机选择,交叉率、变异率分别设置为0.5,0.1,并与HEGSA具有相同的种群规模|PS|. 每个算法的运行环境为: 英特尔i5-13-400F@2.5 GHz,内存大小16 GB,编程语言为 Python. 每个算法在每个算例下独立运行10次,运行的终止条件为最大 CPU占用时间 Tmax. 采用非支配解数量 NF、超体积指标 HV、解的占优度 DPS、反世代距离 IGD和均匀性指标SM [15] 衡量PF质量,其中,计算HV 的参考点设置为(1,1),计算IGD 所需的真实 PF由所有算法在每个算例下的运行结果整合后提取出的全部非支配解构成.
4.2 参数设置
HEGSA存在两个主要参数: 种群规模|PS|和任务移除比例 RP. 对每个参数设置 6个不同的因子水平,|PS| = {20,40,60,80,100,120},RP = {0.025,0.05,0.075,0.1,0.125,0.15}. 为了避免实验结果的偶然性,使用新生成的(700 7)算例进行测试. 通过全因子实验设计产生36组参数组合,每个组合独立运行10次,选择HV作为实验结果的评价指标,每组参数具有相同的终止条件Tmax,测试结果如图3所示. 根据结果,HEGSA参数取值为|PS| = 100,RP = 0.1.
4.3 与Cplex的比较
基于第2.2.3节的内容,将HEGSA 与Cplex 20.1.0 在不同小规模算例下求得的最优f1解进行了直接比较. Cplex的最大运行时间设置为3600秒,超过3600秒后得到的近似解采用“ ”标注,对比结果如表3所示,最优结果加粗表示. 对表3结果进行分析,通过比较最优解和计算时间,HEGSA 在小规模算例上可以取得高质量的解,且计算时间显著少于Cplex.
3各参数HV变化趋势
Fig.3The HV trend of parameters
4.4 与相关算法的比较
表4–6给出了HEGSA 与对比算法在不同算例下5 种指标的平均值,其中最优结果加粗表示. 图4给出了所有算法在每个算例下得到的最优PF,最优PF由10次独立运行得到的PF汇总形成,图中横坐标为观测任务失败率f1,纵坐标为卫星负载均衡f2.
根据表4–6的实验结果,可以得出以下结论:
1)根据表4中NF和DPS指标值可知,HEGSA获取的非支配解数量虽少于其他算法,但其PF的质量显著优于其他算法. HEGSA 取得的DPS 值均大于其他算法,表明HEGSA具有更优的搜索能力;
2)根据表5中HV和IGD指标值可知,HEGSA得到的PF能够覆盖更大的解空间,且最接近真实PF,表明 HEGSA具有更好的收敛性和多样性;
3)根据表6中SM的指标值可知,HEGSA 取得的 SM值均小于其他算法,表明HEGSA得到的PF具有更优的分布均匀性.
3HEGSA与Cplex运行结果
Table3HEGSA and Cplex running results
4HEGSA与3种算法NF和DPS的均值比较
Table4Mean comparison of NF and DPS between HEGSA and three algorithms
5HEGSA与3种算法HV和IGD的均值比较
Table5Mean comparison of HV and IGD between HEGSA and three algorithms
6HEGSA与3种算法SM的均值比较
Table6Mean comparison of SM between HEGSA and three algorithms
由上述结果可知,HEGSA在不同测试实例下都表现了最优的求解效果,并且,随着算例规模的增长,HEGSA展现出更强的解空间搜索能力. 相较于其他对比算法,HEGSA通过进化博弈的全局开采与自学习局部勘探的结合,能够有效利用优质解中的信息,同时,自学习局部勘探策略通过动态调整搜索范围,能够平衡算法的全局开采和局部勘探,提升了搜索效率和解的质量.
根据图4的结果,HEGSA 在相同时间内能够找到覆盖更大解空间的PF,在解的收敛性和多样性方面均表现出明显的优势. 最后,使用Wilcoxon检验法验证了HEGSA与其他对比算法在HV和IGD结果下的显著性差异. 结果表明,在95% 置信水平下,HEGSA与3种对比算法之间的性能差异均具有统计学意义(p <0.05),该结果表明HEGSA在求解MO-AEOSSP时具有显著优越性.
5 结论
本文针对带有时间依赖性的MO-AEOSSP,提出了一种基于进化博弈的HEGSA,建立相应进化博弈模型,根据问题特征设计多种进化策略,保证算法的合理性,并实现基于进化博弈的全局开采策略. 此外,设计了一种自学习局部勘探策略,根据全局开采结果动态调整改进策略,实现全局开采与局部勘探的协同优化,进一步拓展HEGSA的解空间搜索能力. 在不同规模的算例上对HEGSA进行了仿真实验,并将结果与其他多目标算法比较,验证了HEGSA 在性能上优于其他算法,证明了其创新设计的有效性. 之后的工作是将HEGSA拓展到星座协同观测、应急响应等复杂的问题场景,提高HEGSA在复杂环境下的适应性,探索其在更多实际场景下的应用潜力.
4所有算法在不同算例下的PF
Fig.4PF of all algorithms under different instances
1传统EOS与AEOS
Fig.1Conventional EOS and AEOS
2HEGSA流程图
Fig.2Flowchart of the HEGSA
3各参数HV变化趋势
Fig.3The HV trend of parameters
4所有算法在不同算例下的PF
Fig.4PF of all algorithms under different instances
1符号和变量
Table1Symbols and variables
2支付矩阵
Table2Payoff matrix
3HEGSA与Cplex运行结果
Table3HEGSA and Cplex running results
4HEGSA与3种算法NF和DPS的均值比较
Table4Mean comparison of NF and DPS between HEGSA and three algorithms
5HEGSA与3种算法HV和IGD的均值比较
Table5Mean comparison of HV and IGD between HEGSA and three algorithms
6HEGSA与3种算法SM的均值比较
Table6Mean comparison of SM between HEGSA and three algorithms
LI Hai, LI Yongjun, LIU Yuanhao,et al. ESWO-based task-scheduling algorithm for agile earth observation satellites. Acta Aeronautica et Astronautica Sinica,2024,45(10):277-290.(李海, 李勇军, 刘元皓, 等. 基于ESWO的敏捷对地观测卫星任务调度算法. 航空学报,2024,45(10):277-290.)
LEMAˆITRE M, VERFAILLIE G, JOUHAUD F,et al. Selecting and scheduling observations of agile satellites. Aerospace Science and Technology,2002,6(5):367-381.
XU R, CHEN H P, LIANG X L,et al. Priority-based constructive algorithms for scheduling agile earth observation satellites with total priority maximization. Expert Systems with Applications,2016,51:195-206.
LIU X L, LAPORTE G, CHEN Y W,et al. An adaptive large neighborhood search metaheuristic for agile satellite scheduling with timedependent transition time. Computers & Operations Research,2017,86:41-53.
PENG G S, SONG G P, HE Y M,et al. Solving the agile earth observation satellite scheduling problem with time-dependent transition times. IEEE Transactions on Systems, Man,and Cybernetics: Systems,2022,52(3):1614-1625.
WU G H, XIANG Z Q, WANG Y L,et al. Improved adaptive large neighborhood search algorithm based on the two-stage framework for scheduling multiple super-agile satellites. IEEE Transactions on Aerospace and Electronic Systems,2024,60(5):7185-7200.
LI Jun, XING Lining, PENG Guansheng,et al. The agile earth observation satellite scheduling with multiple resource constraints. Control Theory & Applications,2024,41(6):1038-1046.(李君, 邢立宁, 彭观胜, 等. 考虑多类型时间依赖资源约束的敏捷卫星调度优化. 控制理论与应用,2024,41(6):1038-1046.)
SONG Yanjie, WANG Pei, ZHANG Zhongshan,et al. An improved genetic algorithm for multi-satellite mission planning problem. Control Theory & Applications,2019,36(9):1391-1397.(宋彦杰, 王沛, 张忠山, 等. 面向多星任务规划问题的改进遗传算法. 控制理论与应用,2019,36(9):1391-1397.)
HE Donglei, FENG Xiaoen, LEI Mingjia,et al. Real genetic coding multi-star task planning algorithm for deep space exploration mission. Control Theory & Applications,2019,36(12):2055-2064.(贺东雷, 冯小恩, 雷明佳, 等. 面向深空探测任务的实数遗传编码多星任务规划算法. 控制理论与应用,2019,36(12):2055-2064.)
WEI L N, XING L N, WAN Q,et al. A multi-objective memetic approach for time-dependent agile earth observation satellite scheduling problem. Computers & Industrial Engineering,2021,159:107530.
WANG B, FENG Y X, ZHANG G H,et al. Memetic multiobjective discrete Jaya algorithm for cooperative scheduling of multiple agile earth observation satellites. IEEE Transactions on Aerospace and Electronic Systems,2024,60(6):8086-8099.
DAS I, DENNIS J E. Normal-boundary intersection: A new method for generating the Pareto surface in nonlinear multicriteria optimization problems. SIAM Journal on Optimization,1998,8(3):631-657.
ZITZLER E, LAUMANNS M, THIELE L. SPEA2: Improving the strength Pareto evolutionary algorithm. Technical Report Gloriastrasse,2001, DOI:10.3929/ethz-a-004284029.
ZHANG Q F, LI H. MOEA/D: A multiobjective evolutionary algorithm based on decomposition. IEEE Transactions on Evolutionary Computation,2007,11(6):712-731.
VELDHUIZEN D A V, LAMONT G B. On measuring multiobjective evolutionary algorithm performance. Proceedings of the 2000 Congress on Evolutionary Computation. La Jolla, USA: IEEE,2000:204-211.