
文章插图
论文地址:https://arxiv.org/pdf/2111.09266.pdf
机器之心对这篇论文的主要章节做了简单介绍, 更多细节内容请参考原论文 。
GFlowNets:学习流(flow)
研究者充分考虑了 Bengio et al. (2021)中引入的一般性问题, 在这些问题中给出了一些关于流的约束或偏好 。 研究者的目标是使用估计量 F (s)和 P (ss’|s)找到最能匹配需求的函数, 如状态流函数 F(s)或转移概率函数 P(ss’ |s), 这些可能不符合 proper flow 。 因此, 他们将这类学习机器称为 Generative Flow Networks(简称为 GFlowNets) 。
GFlowNets 的定义如下:

文章插图
需要注意的是, GFlowNet 的状态空间(state-space)可以轻松修改以适应底层状态空间, 其中转换(transition)不会形成有向无环图(directed acyclic graph, DAG) 。
对于从终端流(Terminal Flow)估计转换概率, 在 Bengio et al. (2021)的设置中, 研究者得到了与「作为状态确定性函数的终端奖励函数 R 」相对应的终端流:
这样一来就可以扩展框架并以各种方式处理随机奖励 。
GFlowNets 可以作为 MCMC Sampling 的替代方案 。 GFlowNet 方法分摊前期计算以训练生成器, 为每个新样本产生非常有效的计算(构建单个配置, 不需要链) 。
流匹配和详细的平衡损失 。 为了训练 GFlowNet, 研究者需要构建一个训练流程, 该流程可以隐式地强制执行约束和偏好 。 他们将流匹配(flow-matching)或细致平衡条件(detailed balance condition)转换为可用的损失函数 。
对于奖励函数, 研究者考虑了「奖励是随机而不是状态确定性函数」的设置 。 如果有一个像公式 44 中的奖励匹配损失, 则终端流 F(ss_f)的有效目标是预期奖励 E_R[R(s), 因为这是给定 s 时最小化 R(s)上预期损失的值 。

文章插图
如果有一个像公式 43 中的奖励匹配损失, 终端流 log F(ss_f)的 log 有效目标是 log-reward E_R[log R(s)]的预期值 。 这表明了使用奖励匹配损失时, GFlowNets 可以泛化至匹配随机奖励 。

文章插图
此外, GFlowNets 可以像离线强化学习一样离线训练 。 对于 GFlowNets 中的直接信用分配(Direct Credit Assignment), 研究者认为可以将使用 GFlowNet 采样轨迹的过程等同于在随机循环神经网络中采样状态序列 。 让事情变得更复杂的原因有两个, 其一这类神经网络不直接输出与某个目标匹配的预测, 其二状态可能是离散(或者离散和连续共存)的 。
条件流和自由能
本章主要介绍了条件流(Conditional flows)和自由能(Free energies) 。
流的一个显著特性是:如果满足细致平衡或流匹配条件, 则可以从初始状态流 F(s_0) 恢复归一化常数 Z(推论 3) 。 Z 还提供了与指定了终端转换流的给定终端奖励函数 R 相关联的配分函数(partition function) 。 下图展示了如何条件化 GFlowNet, 给定状态 s, 考虑通过原始流(左)和转移流来创建一组新的流(右) 。

文章插图
自由能是与能量函数相关的边缘化操作(即对大量项求和)的通用公式 。 研究者发现对自由能的估计为有趣的应用打开了大门, 以往成本高昂的马尔可夫链蒙特卡洛(Markov chain Monte Carlo, MCMC)通常是主要方法 。
自由能 F(s)的状态定义如下:
- 小学生优秀作文期刊 小学生优秀作文
- 引力波被质疑是好事?诺奖得主破争议,分享成功心得 | 科技袁人
- 《穿越土星环》是一部怎样的硬核科幻?何以摘取中国科幻最高奖?
- 为了一滴沥青,竟熬死两代科学家,好在得了一个搞笑诺贝尔奖
- 新型冠状疫情手抄报,新冠疫情手抄报一等奖?
- Shopee泰国站点3月营销工具设置奖励怎么做?
- 点淘app女王节主播/商家短视频活动奖励及发放
- 新型病毒手抄报简单,新冠疫情手抄报一等奖?
- 玩手机软件可以得到什么,可以免费抽奖领手机的app?
- 综合评价招生对高考成绩和奖项有何要求?如何在个人陈述和面试环节脱颖而出?攻略来了!
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
