2.4 博弈学习框架

2.4.1 博弈学习的一般框架

由于博弈论能够建模分析博弈参与者之间的相互影响,可以很好地建模分析博弈参与者之间的竞争、对抗关系,在线学习方法在动态不完全信息约束条件下成为一种有效的求解工具,通过与环境不断进行交互,利用反馈信息调整自身行为实现自身策略与环境的匹配。需要说明的是,博弈稳态解(如纳什均衡)和系统最优解之间没有必然的联系。事实上,由于参与者“利己主义”的影响,纳什均衡通常不是系统最优解。此外,博弈分析的结果仅给出存在性结论却没有提供寻找博弈稳态解的方法。尽管在数学和经济学领域中已有能够收敛到博弈稳态解的算法,如最优响应[80]和虚拟行动[87]等,然而,这些算法都是在理想条件下提出的,不能适用于实际的抗干扰决策问题。

在通信抗干扰的研究过程中,不同于应用数学、经济学领域以及其他工程领域的研究,通信抗干扰在博弈优化过程中需要考虑抗干扰面临的技术挑战,如对抗性、不完全性、不确定性、动态性以及密集性等;否则,容易陷入对用户决策行为“经济意义”的过渡分析,而忽略通信抗干扰的原本目标。

博弈学习的一般框架如图2-6所示。博弈学习致力于下面两个核心问题。

(1)博弈建模。在博弈模型中,效用函数决定了博弈的性质。因此,博弈优化建模的核心任务是对效用函数进行设计。在分布式决策中,用户通常在“利己主义”(Self-interest)的驱动下进行决策。换言之,用户不以最优化系统性能为目标,而是以最优化个体效用为目标,这可能会导致系统性能低下。针对这一问题,设计效用函数时需遵循以下3个原则。

①使系统最优解成为(或接近)博弈的纳什均衡。一般来说,博弈追求稳态,而优化问题的目标是系统最优。然而,系统最优解和博弈稳态解之间没有必然的联系。为了使系统最优解和纳什均衡稳态解之间建立直接联系,需要对系统的内在结构和参与者之间的相互影响进行深入分析,在此基础上设计适当的效用函数,通过博弈模型的设计,使得博弈的稳态解与系统最优解相同或接近。

②在效用函数中考虑抗干扰环境的动态性和其他的实际属性。

③由于根本目标是进行无线通信抗干扰决策优化,效用函数应具有明确的物理意义,可根据吞吐量、时延以及干扰情况等进行设计。从实际应用的角度出发,一个具有良好数学性质却缺乏明确物理意义的效用函数难以应用到实际的无线通信系统中。

图2-6 博弈学习的一般框架

(2)博弈学习算法。在干扰环境中,需要面对不完全性、不确定性、动态性等技术挑战。为了应对这些技术挑战,可采用在线学习方法,从环境反馈中获取有用信息,直接或间接地学习干扰的行为或环境的变化规律,通过调整自身行为以逐渐实现用户决策和无线环境的最佳匹配。在博弈学习框架下,由于多用户的相互影响,学习算法的优化目标是收敛到性能较好的稳态解。在线学习方法通过与环境不断地交互,根据环境反馈的回报进行策略调整,利用“决策—反馈—调整”的方式获得期望的解。一种基于在线学习的决策流程如图2-7所示。

图2-7 一种基于在线学习的决策流程

通过上述分析,用博弈学习框架求解问题一般包括博弈建模和博弈学习算法两个子问题。博弈论和在线学习通过博弈学习框架将两者联系起来。其中,博弈建模阶段侧重于理论层面的研究,主要从理论上研究无线环境中多用户分布式决策对系统性能的影响以及系统稳态的性质,其核心目的是使得纳什均衡成为(或接近)系统最优。一般来说,博弈稳态解的存在性证明是一个难点。直接证明博弈稳态解的存在性,往往比较困难,通常可将博弈模型设计为某种特定类型的博弈(如精确势能博弈),然后根据特定博弈模型的性质,间接地证明博弈稳态解的存在性。博弈学习算法侧重方法层面的研究,主要研究如何在强对抗、不确定、动态和不完全信息约束下收敛到性能较好的博弈稳态解。这两个子问题相对独立却又紧密联系。一方面,博弈的稳态解是博弈模型的内在属性,由系统结构和效用函数的形式共同决定,和学习算法无关;另一方面,除了不确定、动态和不完全信息约束,博弈学习框架下的多用户分布式决策会对学习算法的收敛性和最优性产生决定性的影响。通过这两个子问题的求解,最终实现原优化问题的求解。在此,需要说明的是,在博弈学习的一般框架中,如果没有博弈建模与分析,单纯从应用角度来讲,学习算法也可以使用,只是缺少了理论上的完备性。