按文献类别分组
关键词
基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法
作者: 张涛   张文涛   代凌   陈婧怡   王丽   魏倩茹   来源: 电子学报 年份: 2022 文献类型 : 期刊 关键词: 策略梯度   综合模块化航空电子系统   蒙特卡洛树搜索   重构   序贯博弈   多智能体强化学习  
描述: 动态重构是一种有效的综合模块化航空电子系统故障容错方法 .重构蓝图定义了系统故障环境下的应用迁移与资源重配置方案,是以最小代价重构恢复系统功能的关键.在复杂多级关联故障模式下,如何快速自动生成有效重构蓝图是其难点.针对该问题,本文提出一种基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法 .该方法引入序贯博弈模型,将因受故障影响而需要迁移重构的应用软件定义为博弈中的智能体,根据应用软件优先级确定序贯博弈的顺序.针对序贯博弈过程中多智能体间竞争与合作的问题,算法使用强化学习中的策略梯度,通过控制与环境交互中的动作选择概率来优化重构效果.应用基于有偏估计的策略梯度蒙特卡洛树搜索算法更新博弈策略,解决了传统策略梯度算法震荡难收敛、计算耗时长问题.实验结果表明,与差分进化、Q学习等方法相比,所提算法的优化性能和稳定性均具有显著优势.
基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法
作者: 张涛   张文涛   代凌   陈婧怡   王丽   魏倩茹   来源: 电子学报 年份: 2022 文献类型 : 期刊 关键词: 策略梯度   综合模块化航空电子系统   蒙特卡洛树搜索   重构   序贯博弈   多智能体强化学习  
描述: 动态重构是一种有效的综合模块化航空电子系统故障容错方法 .重构蓝图定义了系统故障环境下的应用迁移与资源重配置方案,是以最小代价重构恢复系统功能的关键.在复杂多级关联故障模式下,如何快速自动生成有效重构蓝图是其难点.针对该问题,本文提出一种基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法 .该方法引入序贯博弈模型,将因受故障影响而需要迁移重构的应用软件定义为博弈中的智能体,根据应用软件优先级确定序贯博弈的顺序.针对序贯博弈过程中多智能体间竞争与合作的问题,算法使用强化学习中的策略梯度,通过控制与环境交互中的动作选择概率来优化重构效果.应用基于有偏估计的策略梯度蒙特卡洛树搜索算法更新博弈策略,解决了传统策略梯度算法震荡难收敛、计算耗时长问题.实验结果表明,与差分进化、Q学习等方法相比,所提算法的优化性能和稳定性均具有显著优势.
< 1
Rss订阅