我是谁啊：ICLR 2022 | 从几何视角来看无监督强化学习

2024-05-07 01:47:07 0 0

文章主旨

本文主要针对一种无监督（不依赖 reward）的强化学习预训练方法——无监督技巧发现（unsupservised skill discovery）的算法最优性质进行了讨论。作者证明了通过最大化互信息（mutual information）方式的 skill discovery 无法保证对任何下游奖励函数都是最优的。同时在，作者证明了在某种特定的下游任务 adaption 方式下（在后续的章节中详细讲解），通过预训练得到的 policy 能够最大化不同的 reward 下游任务中的最差情况（worst case）下的表现。

论文标题：

The Information Geometry of Unsupervised Reinforcement Learning

论文链接：

https://arxiv.org/pdf/2110.02719.pdf

符号定义

定义某 MDP 下依策略，折扣状态占有率（state occupancy）为，

其中，为依策略进行采样，时刻处于状态的概率。据此重新定义强化学习的优化目标：

其中这里使用了仅与 state 有关的奖励函数。

无监督的技巧学习

此前的无监督技巧学习试图学习策略，除了状态 s 以外，策略同时与额外的输入变量条件相关。其中 z 通过一个分布来进行生成（这个分布同样是训练得到的）。在此前的一些工作中，通过最大化与之间的互信息进行优化：

上式中需要同是对（对应参数）以及进行优化。作者对问题进行简化，将两者进行整合，定义：，据此定义，上式优化问题可以被表示为：

Theorem 4.1证明（本文的核心定理）

定理如下：

其中，

公式中代表初始化数据分布（即 pre-train 后得到的分布，初始化是相对于下游任务来说），为在下游任务上（对于奖励函数）进行 adaption（finetune）得到的 state 分布；下游任务上的最优 state 分布。

首先对 AdapationObjective 进行理解：

为的优化目标，即策略在下游任务上的 adaption 过程，其中第一项以策略在下游任务为优化目标，第二项为与初始化策略分布分布之间的 KL 散度，KL 散度越小，两者之间差异性越小，策略能够越容易的 general 到下游任务（作者称此项为 information cost）。可以看到与的唯一差别是：为下的最优 state 分布，仅仅以策略最优性作为优化目标，而的优化过程需要同时考虑策略最优性以及 adaption 过程的 information cost。

Proof：

假定下游任务以及初始化分布已经给定，首先针对进行优化：

将带入 AdaptionObjective 中，有，

因此，问题的原始优化目标可以被表示为：

对进行优化，

将进一步带入，得

根据 Lemma 6,5，在给定的情况下，有：

将优化变量由替换为，在给定的情况下（事实上根据作者的定义，，那么仅仅与环境转移有关）。

至此，Theorem 4.1得证。

Skill Learning的几何解释

5.1 哪些策略（以及策略对应的state分布）是可达的？

作者以状态空间为例，对问题进行可视化分析。状态的 state-occupancy 需要满足：

也就是所有可能的 state-occupancy 都分布在此超平面上。

Proposition 1.给定一系列可行的 state marginals（state-occupancy 分布，即图中黄色点），那么这些可达的 state marginals 的所有凸组合一定也是可达的，这些可能的所有凸组合构成了整个可行空间（图中橘黄色多面体）。

该可达区域实际上构成了一个凸集。

5.2 哪些策略（以及对应的state分布）是最优的？

同样以状态空间为例，假定状态分布为，并且。作者将奖励函数可视化为三位空间中的某个向量，那么累计奖赏可以被表示为：

即累计奖赏可以被表示为 reward 函数与状态分布向量的内积。

Fact 1.对于每个仅与状态有关（state-dependent）的奖励函数，对于策略可达区域内的所有策略，能够使在下的累计奖赏 G 最大的策略一定在可达区域多面体的顶点上。

proposition 2 可以由最大值原理（maximum principle）得到，这里不进行过多介绍。

Fact 2.对于状态可达多面体的每一个顶点，存在一个特定的奖励函数，使得该顶点对应的策略为下的最优策略。

Definition 5.1：顶点发现问题（Vertex Discovery Problem）：给定某个受控 MDP 过程（没有 reward 的 MDP 过程），寻找一个最小策略集合，使得状态可达多面体的每个顶点至少有一个策略与之对应。

5.3 基于Mutual information的Skill learning学得的策略是如何在策略可达多面体内分布的？

回顾 Skill learning 的原始优化问题，即最大化互信息，

其中，为下的平均状态分布，

对于上述优化问题进行优化时，最大化互信息会驱使 skill learning 学得的策略的状态分布远离平均状态分布（因为最大化 KL 散度会放大两个不同分布之间的差异性）。因此，当 skill learning 达到最优时，对于距离平均分布的最远的策略赋予一个比较大的概率，而对于其余策略（与的距离小于最远距离的策略），则会赋予概率为 0。

作者在 Figure 3（下图）进行了举例分析，其中图中绿色点代表状态的平均分布，橙色的点代表算法学得的 skill，图中的虚线圆圈代表了与策略可达区域的最大边界线（可以理解为策略可达多面体的外切球）。我们以最左边的图进行分析，图中的策略可达多面体有 3 个节点分布最大边界上，也就是 skill learning 共学得了三个不同的 skill，其概率和为 1（0.28 + 0.28 + 0.44=1），因此，作者想表达的意思是，只有分布在最大边界上的策略才能被习得。

作者对此现象在 lemma 6.2 进行了公示化表述：

5.4 Skill learning最多能够习得多少个不同的skill？

为了回答这个问题，作者提出如下假设：

Assumption 1：假定中任意取出个节点构成的集合，都不关于 KL 散度共圆。也就是不存在某个使得集合中所有节点距离的距离相等。

存在于维空间中，共有个自由度（因为和为1的约束）。当不断习得 skill 时，需满足与的距离为，其中作为变量提供了一个额外的自由度。因此，最多添加个约束，便可以完全确定，继续增加额外的 skill 会让该问题变成 ill-defined。因此，最多同时习得个 skill。

送福利啦！

独家定制炼丹中/Fine-Tuning

超超超超超大鼠标垫

限量 200 份

扫码回复「鼠标垫」

立即免费参与领取

👇👇👇

更多阅读

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

收藏（0）

贺笛：科研实习 | 北京大学智能学院贺笛老师招收NLP/GNN方向科研实习生

上一篇

贺笛：科研实习 | 北京大学智能学院贺笛老师...

realy：ECCV 2022 | 清华&腾讯AI Lab提出REALY：重新思考3D人脸重建的评估方法

下一篇

realy：ECCV 2022 | 清华&a...

相关推荐

随机阅读

最新

精选

相关文章