论文链接:Fuzzy Reinforcement Learning Algorithm for the Pursuit-Evasion Differential
Games with Superior Evader
摘要
本文提出了一种模糊强化学习技术,该技术使追逃(PE)差分游戏中的追捕者群体能够学习如何以分散的方式捕获单个优秀的逃跑者。逃跑者的优势在于它的最大速度,超过游戏中最快追捕者的速度。文章使用了fuzzy actor-critic learnong Automaton (FACLA)算法以及Apollonius circle 技术和特定的编队控制策略,用于为每个追捕者定义必要的奖励函数,这使得每个追捕者能准确地更新其值函数。因此,追捕者将通过调整其模糊逻辑控制器 (FLC) 参数来采取正确的行动。 还采用了编队控制策略,使得在捕获过程中,追捕者在逃跑者周围的分布角度尽可能保持不变(呈包围态势)。 此外,还可以用于避免它们之间的碰撞。假设逃跑者是一个优秀的智能体,其策略是在逃跑过程中利用Apollonius circle 技术不断寻找间隙,如果有间隙,选择间隙的路径逃跑,否则改变方向,增加抓捕时间。
Introductin
追捕逃避游戏(PE game)是一种差异(different)游戏,参与者被分为两组,每组有一个或多个参与者,一组称为追捕者,另一组称为逃跑者。追捕组的主要目标是尽可能快地捕获逃跑组的所有参与者,而逃跑组的目标是逃跑或尽可能地增加捕获时间。追捕游戏可以定义为零和游戏(zero-sum),也可以定义为一个目标冲突的优化问题。然而,现有的微分博弈理论不适用于有两个以上参与者的PE微分博弈,这是由于难以指定游戏的终端状态(2追1的情况下,一旦逃跑者被一个追捕者抓住,另外一个追捕者没有任何终点状态),另一个方面,维度爆炸是难以解决的。如果游戏中有几个更优秀的逃跑者,问题会更复杂。
本文主要从学习的角度解决多智能体PE游戏中存在superior逃跑者的问题。
相关工作
多智能体PE游戏中存在superior逃跑者的问题:
- 编队控制是让一群追捕者合作以捕获superior的逃跑者,给出了在逃跑者周围保证不变角度分布的追赶策略,并假设逃跑者遵循一个简单的固定策略
- 分层分解的方法
- 使用Apollonius圆法解决多智能体PE差分博弈问题
- 去中心化的学习方法,使一组追捕者能够捕获一个superior逃跑者。学习算法基于Apollonius circle和编队控制策略
本文方法:
本文算法基于 FACLA 以及 Apollonius circle的概念以及编队控制策略。 奖励函数是根据Apollonius circle和编队控制策略定义的。 游戏是这样进行的,每个追捕者应该学习如何通过根据每次采取行动后收到的奖励调整其模糊逻辑控制器 (FLC) 参数来捕捉superior逃跑者。 另一方面,逃跑者会采取智能策略,试图逃脱或增加捕获时间。
捕获的必要条件
请自行查看Apollonius circle的知识
追捕者定义为
p
i
p_i
pi,逃跑者定义为
e
e
e,
V
p
,
V
e
V_p,V_e
Vp,Ve代表追捕者和逃跑者的最大速度(
V
p
<
V
e
V_p<V_e
Vp<Ve)。
U
U
U是Apollonius circle上的点
当视距与逃跑者的方向夹角
β
i
<
β
m
a
x
\beta_i<\beta_{max}
βi<βmax,追捕者总能找到一个角度
α
i
\alpha_i
αi,以确保抓到逃跑者。当追捕者方向在
∠
A
E
B
\angle{AEB}
∠AEB范围时,总是能抓住逃跑者,否则逃跑者逃逸。
β
m
a
x
=
a
r
c
s
i
n
(
V
p
V
e
)
\beta_{max}=arcsin(\frac{V_p}{V_e})
βmax=arcsin(VeVp)
一个追捕者可以在
2
β
m
a
x
2\beta_{max}
2βmax的范围内捕获到逃跑者。覆盖逃跑者所需要的最少的追捕者的数量为:
n
m
i
n
=
2
π
2
β
m
a
x
=
π
a
r
c
s
i
n
(
V
p
V
e
)
⇒
V
p
V
e
⩾
s
i
n
(
π
n
)
n_{min}=\frac{2\pi}{2\beta_{max}}=\frac{\pi}{arcsin(\frac{V_p}{V_e})}\Rightarrow\frac{V_p}{V_e}\geqslant sin(\frac{\pi}{n})
nmin=2βmax2π=arcsin(VeVp)π⇒VeVp⩾sin(nπ)
追捕者套逃跑者的策略
强化学习actor-critic算法
奖励设定
**追捕者的奖励设定:**追捕者的奖励函数结构基于Apollonius circle的概念以及编队控制策略。如果逃跑者在其捕获角度内,这种情况下,追捕者根据角度获得奖励。如果逃跑者逃出追捕者的范围,追捕者根据编队控制策略获得奖励(详见:Formation control in multi-player pursuit evasion
game with superior evaders)。
模拟仿真
在每一集开始,逃跑者从原点开始,追捕者的运动被选择,使得追捕者在逃跑者周围的所有角度分布相同。