CMU德扑AI大奖拿到手软,Noam Brown获AAAI/ACM SIGAI博士论文奖( 二 )


为了在这一方向上取得进展 , 我们必须探索新的多模态人工智能任务 , 从数据集转移到物理环境 , 并建立新的模型 。 在这篇论文中 , 作者结合了计算机视觉、语言理解、强化学习等不同领域的见解 , 提出了将视觉和语言的基础领域与这些通用智能体的行动连接起来的步骤 。
在第 1 部分 , 他们介绍了自己开发的能看、能说(就图像进行自由形式的对话)的智能体 , 以及通过自我博弈方式训练这些视觉对话智能体的强化学习算法 。
在第 2 部分 , 他们将重点扩展到能看、能说、能行动的智能体 , 即能够在部分可观察的模拟环境中主动感知和导航 , 以完成诸如回答问题之类的任务的具身智能体 。
在第 3 部分 , 他们设计了一些技术来训练可以相互交流的多个智能体 , 以协调、策划和利用它们在物理世界中的综合感官体验和行为 。 这些智能体完全依靠来自下游的奖励 , 在没有任何通信监督的情况下学习发送何种消息以及与谁通信 。
最后 , 在第 4 部分 , 他们使用问答作为 task-agnostic probe , 来询问一个自监督的具身智能体关于物理世界的了解程度 , 并使用它来量化智能体在接受不同辅助目标训练时形成的视觉表征的差异 。
CMU德扑AI大奖拿到手软,Noam Brown获AAAI/ACM SIGAI博士论文奖
文章图片

个人主页:https://abhishekdas.com/
本文作者 Abhishek Das 博士毕业于佐治亚理工学院 , 现在是 Meta 基础人工智能研究实验室(FAIR)的一名研究科学家 , 研究深度神经网络及其在气候变化中的应用 。 他目前的研究重点用 AI 方法寻找用于可再生能源存储的电催化剂 。
这是佐治亚理工学院近年来获得的第二个此类奖项 。 2019 年的奖项提名是该校的 Aishwarya Agrawal 。 Das 和 Agrawal 的导师都是该校交互计算学院教授 Dhruv Batra 。
获奖论文 2:A Theory of Abstraction in Reinforcement Learning.
CMU德扑AI大奖拿到手软,Noam Brown获AAAI/ACM SIGAI博士论文奖
文章图片

论文链接:https://david-abel.github.io/thesis.pdf
强化学习定义了学习仅通过行动和观察做出好的决策的智能体所面临的问题 。 要成为有效的问题解决者 , 这些智能体必须有效地探索广阔的世界 , 从延迟的反馈中获得 credit , 并归纳出新的经验 , 同时利用有限的数据、计算资源和感知带宽 。 抽象(abstraction)对于所有这些努力都是必不可少的 。 通过抽象 , 智能体可以搭建起关于其环境的简洁模型 , 这些模型支持一个合理的、适应性强的决策者所需的许多实践 。
在这篇论文中 , 作者提出了一个强化学习中的抽象理论 。 具体来说 , 他首先提供了实现抽象过程的函数的三个要求 。 它们应该:1)保持接近最佳行为的表示;2 该被有效地学习和构造;3)减少规划或学习时间 。
接下来 , 他提出了一套新的算法和分析结果 , 阐明了智能体如何能够根据这些需求学习抽象 。
总的来说 , 这些结果提供了发现和使用抽象的部分路径 , 最小化了有效强化学习的复杂性 。
CMU德扑AI大奖拿到手软,Noam Brown获AAAI/ACM SIGAI博士论文奖
文章图片

个人主页:https://david-abel.github.io/
【CMU德扑AI大奖拿到手软,Noam Brown获AAAI/ACM SIGAI博士论文奖】本文作者 David Abel 博士毕业于布朗大学 , 现为 DeepMind 的研究科学家 。 他通常研究强化学习问题 , 致力于从计算学习理论、计算复杂性和分析哲学中汲取工具和观点 。
经典论文奖
AAAI 2022 经典论文奖颁发给了 2006 年的大会论文《Winning the DARPA grand challenge with an AI robot》作者 Michael Montemerlo、Sebastian Thrun、Hendrik Dahlkamp、David Stavens、Sven Strohband 等人 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。