自由能 F(s)的状态定义如下:
文章图片
如何估计自由能呢?让我们考虑条件式 GFlowNet 的一种特殊情况 , 它允许网络估计自由能 F(s) 。 为此 , 研究者提议训练一个条件式 GFlowNet , 其中条件输入 x 是轨迹中较早的状态 s 。
状态条件式 GFlowNet 的定义如下 , 并且将 F(s|s)定义为 conditional state self-flow 。
文章图片
研究者表示 , 使用 GFlowNet 可以训练基于能量的模型 。 具体地 , GFlowNet 被训练用于将能量函数转换为逼近对应的采样器 。 因此 , GFlowNet 可以用作 MCMC 采样的替代方法 。
此外 , GFlowNet 还可用于主动学习 。 Bengio et al. (2021)使用的主动学习方案中 , GFlowNet 被用于对候选 x 进行采样 , 其中研究者预计奖励 R(x)通常很大 , 这是因为 GFlowNet 与 R(x)成比例地采样 。
多流、分布式 GFlowNets、无监督 GFlowNets 和帕累托 GFlowNets
与分布式强化学习类似 , 非常有趣的一点是 , 泛化 GFlowNets 不仅可以捕获可实现的最终奖励的预期值 , 还能得到其他分布式统计数据 。 更一般地讲 , GFlowNets 可以被想象成一个族(family) , 其中每一个都可以在自身流中对感兴趣的特定的未来环境结果进行建模 。
下图为以结果为条件的(outcome-conditioned)GFlowNet 的定义:
文章图片
在实践中 , GFlowNet 永远无法完美地训练完成 , 因此应当将这种以结果为条件的 GFlowNet 与强化学习中以目标为条件的策略或者奖励条件颠倒的强化学习(upside-down RL)同等看待 。 未来更是可以将这些以结果为条件的 GFlowNets 扩展到随机奖励或随机环境中 。
此外 , 训练一个以结果为条件的 GFlowNet 只能离线完成 , 因为条件输入(如最终返回)可能只有在轨迹被采样后才能知道 。
文章图片
论文的完整目录如下:
文章图片
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
