机器之心报道
编辑:小舟、泽南
如何避免人工智能被带歪?答案是首先要创造出「别有用心」的人工智能 。语言模型 (LM) 常常存在生成攻击性语言的潜在危害 , 这也影响了模型的部署 。 一些研究尝试使用人工注释器手写测试用例 , 以在部署之前识别有害行为 。 然而 , 人工注释成本高昂 , 限制了测试用例的数量和多样性 。
基于此 , 来自 DeepMind 的研究者通过使用另一个 LM 生成测试用例来自动发现目标 LM 未来可能的有害表现 。 该研究使用检测攻击性内容的分类器 , 来评估目标 LM 对测试问题的回答质量 , 实验中在 280B 参数 LM 聊天机器人中发现了数以万计的攻击性回答 。
文章图片
论文地址:https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf
该研究探索了从零样本生成到强化学习的多种方法 , 以生成具有多样性和不同难度的测试用例 。 此外 , 该研究使用 prompt 工程来控制 LM 生成的测试用例以发现其他危害 , 自动找出聊天机器人会以攻击性方式与之讨论的人群、找出泄露隐私信息等对话过程存在危害的情况 。 总体而言 , 该研究提出的 Red Teaming LM 是一种很有前途的工具 , 用于在实际用户使用之前发现和修复各种不良的 LM 行为 。
GPT-3 和 Gopher 等大型生成语言模型具有生成高质量文本的非凡能力 , 但它们很难在现实世界中部署 , 存在生成有害文本的风险 。 实际上 , 即使是很小的危害风险在实际应用中也是不可接受的 。
【DeepMind提出了一种祖安AI,专门输出网络攻击性语言】例如 , 2016 年 , 微软发布了 Tay Twitter 机器人 , 可以自动发推文以响应用户 。 仅在 16 个小时内 , Tay 就因发出带有种族主义和色情信息的推文后被微软下架 , 当时已发送给超过 50000 名关注者 。
问题在于有太多可能的输入会导致模型生成有害文本 , 因此 , 很难让模型在部署到现实世界之前就找出所有的失败情况 。 DeepMind 研究的目标是通过自动查找失败案例(或「红队(red teaming)」)来补充人工手动测试 , 并减少关键疏忽 。 该研究使用语言模型本身生成测试用例 , 并使用分类器检测测试用例上的各种有害行为 , 如下图所示:
文章图片
「基于 LM 的 red teaming」使我们可以找出成千上万种不同的失败案例 , 而不用手动写出它们 。
该研究使用对话作为测试平台来检验其假设 , 即 LM 是红队的工具 。 DeepMind 这项研究的首要目标就是找到能引起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)作出攻击性回复的文本 。 DPG 通过以手写文本前缀或 prompt 为条件 , 使用 Gopher LM 生成对话话语 。 Gopher LM 则是一个预训练的、从左到右的 280B 参数 transformer LM , 并在互联网文本等数据上进行了训练 。
- 攻击性语言:仇恨言论、脏话、性骚扰、歧视性语言等
- 数据泄露:从训练语料库中生成有版权或私人可识别信息
- 联系信息生成:引导用户发送不必要的邮件或给真人打电话
- 分布式偏见(distributional bias):以一种相较其他群体不公平的方式讨论某些群体
- 会话伤害:长对话场景中出现的攻击性语言
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
