2.4.2 Stackelberg博弈架构中的博弈学习框架

在一般的博弈模型中,参与者类型相同,并且所有参与者同时动作,而不存在分层行为,相应的博弈学习的一般框架如图2-6所示。而在Stackelberg博弈架构中,可将一般的博弈学习框架进行扩展。一种基于Stackelberg的博弈学习框架如图2-8所示,它主要包括两个步骤。

图2-8 一种基于Stackelberg的博弈学习框架

步骤一:博弈建模与分析。

步骤二:设计抗干扰决策算法。

在步骤一中,首先需要确认博弈参与者的身份,即回答谁是领导者(Leader)、谁是跟随者(Follower)的问题,它与具体的研究场景有关。在文献[24-25,88-91]的研究场景中,干扰需要学习用户的发射功率策略,它们将用户假设为领导者,干扰作为跟随者。在文献[28]中,用户作为领导者和干扰作为领导者两种场景都进行了研究。在文献[31,92-93]中,用户在进行决策之前,首先需要检测干扰的行为,它们将干扰假设为领导者,而用户作为跟随者;其次需要设计合适的效用函数,它的特性对博弈求解有很大的影响。因此,效用函数设计是博弈建模的一个重要任务。需要指出的是,效用函数需要有清晰的物理意义,可根据信干噪比、吞吐量、干扰等设计。在文献[24-25,32]中,由于效用函数满足凸特性,提出的Stackelberg功率控制博弈具有唯一的Stackelberg均衡。在文献[31]中,构建博弈模型的特性与效用函数也有紧密联系,其中下层子博弈是一个精确势能博弈,它满足任意博弈参与者通过单方面改变策略带来的效用函数变化与势能函数变化相同。同时,根据精确势能博弈的性质(如每个精确势能博弈至少存在一个纯策略纳什均衡),保证了下层子博弈的均衡存在性。在数学上,一个抗干扰Stackelberg博弈可以表示为G={NuNjSuSjμsμj}。其中,NuNjSuSjμsμj分别表示用户和干扰的参与者集合、策略集和效用函数。

在步骤二中,对于一个抗干扰 Stackelberg 博弈问题,它是一个分层优化问题,它的稳态解为 Stackelberg 均衡,它是传统的纳什均衡在分层架构下的特殊形式。通常采用逆向递推法进行求解。首先分析下层子博弈,再分析上层子博弈。对于连续策略条件下的策略选择问题,如连续策略功率控制[24-25,32],Stackelberg均衡可通过优化理论进行分析求解,如凸优化、对偶优化等。对于离散策略条件下的策略选择问题,如抗干扰信道选择[32],传统的优化方法难以求解,需要设计新的优化方法,如在线学习方法。