我是谁啊:ICLR 2022 | 从几何视角来看无监督强化学习


文章主旨

本文主要针对一种无监督(不依赖 reward)的强化学习预训练方法——无监督技巧发现(unsupservised skill discovery)的算法最优性质进行了讨论。作者证明了通过最大化互信息(mutual information)方式的 skill discovery 无法保证对任何下游奖励函数都是最优的。同时在,作者证明了在某种特定的下游任务 adaption 方式下(在后续的章节中详细讲解),通过预训练得到的 policy 能够最大化不同的 reward 下游任务中的最差情况(worst case)下的表现。

论文标题:

The Information Geometry of Unsupervised Reinforcement Learning

论文链接:

https://arxiv.org/pdf/2110.02719.pdf


符号定义

定义某 MDP 下依策略 ,折扣状态占有率(state occupancy)为 ,


其中, 为依策略 进行采样, 时刻处于状态 的概率。据此重新定义强化学习的优化目标:

其中这里使用了仅与 state 有关的奖励函数 。



无监督的技巧学习


此前的无监督技巧学习试图学习策略 ,除了状态 s 以外,策略同时与额外的输入变量 条件相关。其中 z 通过一个分布来进行生成 (这个分布同样是训练得到的)。在此前的一些工作中,通过最大化 与 之间的互信息进行优化:


上式中需要同是对 (对应参数 )以及 进行优化。作者对问题进行简化,将两者进行整合,定义:,据此定义,上式优化问题可以被表示为:


Theorem 4.1证明(本文的核心定理)

定理如下:

其中,

公式中 代表初始化数据分布(即 pre-train 后得到的分布,初始化是相对于下游任务来说), 为在下游任务上(对于奖励函数 )进行 adaption(finetune)得到的 state 分布; 下游任务 上的最优 state 分布。

首先对 AdapationObjective 进行理解:

为 的优化目标,即策略在下游任务上的 adaption 过程,其中第一项以策略在下游任务 为优化目标,第二项为 与初始化策略分布 分布之间的 KL 散度,KL 散度越小,两者之间差异性越小,策略能够越容易的 general 到下游任务(作者称此项为 information cost)。可以看到 与 的唯一差别是: 为 下的最优 state 分布,仅仅以策略最优性作为优化目标,而 的优化过程需要同时考虑策略最优性以及 adaption 过程的 information cost。


Proof:


假定下游任务 以及初始化分布 已经给定,首先针对 进行优化:

将 带入 AdaptionObjective 中,有,

因此,问题的原始优化目标可以被表示为:

对 进行优化,

将 进一步带入,得

根据 Lemma 6,5,在 给定的情况下,有:

将优化变量由 替换为 ,在 给定的情况下(事实上根据作者的定义,,那么 仅仅与环境转移有关)。

至此,Theorem 4.1得证。



Skill Learning的几何解释


5.1 哪些策略(以及策略对应的state分布)是可达的?

作者以状态空间 为例,对问题进行可视化分析。状态的 state-occupancy 需要满足:

也就是所有可能的 state-occupancy 都分布在此超平面上。

Proposition 1.给定一系列可行的 state marginals(state-occupancy 分布,即图中黄色点),那么这些可达的 state marginals 的所有凸组合一定也是可达的,这些可能的所有凸组合构成了整个可行空间(图中橘黄色多面体)。

该可达区域实际上构成了一个凸集。


5.2 哪些策略(以及对应的state分布)是最优的?

同样以状态空间 为例,假定状态分布为 ,并且 。作者将奖励函数 可视化为三位空间中的某个向量 ,那么累计奖赏可以被表示为:

即累计奖赏可以被表示为 reward 函数与状态分布向量的内积。

Fact 1.对于每个仅与状态有关(state-dependent)的奖励函数 ,对于策略可达区域内的所有策略,能够使在 下的累计奖赏 G 最大的策略一定在可达区域多面体的顶点上。

proposition 2 可以由最大值原理(maximum principle)得到,这里不进行过多介绍。

Fact 2.对于状态可达多面体的每一个顶点,存在一个特定的奖励函数 ,使得该顶点对应的策略为 下的最优策略。

Definition 5.1:顶点发现问题(Vertex Discovery Problem):给定某个受控 MDP 过程(没有 reward 的 MDP 过程),寻找一个最小策略集合,使得状态可达多面体的每个顶点至少有一个策略与之对应。

5.3 基于Mutual information的Skill learning学得的策略是如何在策略可达多面体内分布的?


回顾 Skill learning 的原始优化问题,即最大化互信息 ,


其中, 为 下的平均状态分布,


对于上述优化问题进行优化时,最大化互信息会驱使 skill learning 学得的策略的状态分布 远离平均状态分布 (因为最大化 KL 散度会放大两个不同分布之间的差异性)。因此,当 skill learning 达到最优时,对于距离平均分布 的最远的策略赋予一个比较大的概率,而对于其余策略(与 的距离小于最远距离的策略),则会赋予概率为 0。


作者在 Figure 3(下图)进行了举例分析,其中图中绿色点代表状态的平均分布 ,橙色的点代表算法学得的 skill,图中的虚线圆圈代表了 与策略可达区域的最大边界线(可以理解为策略可达多面体的外切球)。我们以最左边的图进行分析,图中的策略可达多面体有 3 个节点分布最大边界上,也就是 skill learning 共学得了三个不同的 skill,其概率和为 1(0.28 + 0.28 + 0.44=1),因此,作者想表达的意思是,只有分布在最大边界上的策略才能被习得

作者对此现象在 lemma 6.2 进行了公示化表述:


5.4 Skill learning最多能够习得多少个不同的skill?

为了回答这个问题,作者提出如下假设:

Assumption 1:假定 中任意取出 个节点构成的集合,都不关于 KL 散度共圆。也就是不存在某个 使得集合中所有节点距离 的距离相等。

存在于 维空间中,共有 个自由度(因为和为1的约束)。当不断习得 skill 时,需满足与 的距离为 ,其中 作为变量提供了一个额外的自由度。因此,最多添加 个约束, 便可以完全确定,继续增加额外的 skill 会让该问题变成 ill-defined。因此,最多同时习得 个 skill。

送福利啦!

独家定制炼丹中/Fine-Tuning

超超超超超大鼠标垫

限量 200 份 

扫码回复「鼠标垫」 

立即免费参与领取 

👇👇👇

更多阅读

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

相关推荐

相关文章