研究者借助了两个实验来探究这个问题 。 首先 , 使用没有提供任何训练数据的 held-out 标注者来评估 GPT-3 和 InstructGPT , 并发现这些标注者更喜欢 InstructGPT 模型的输出 , 其比率与训练数据标注者大致相同 。 然后 , 研究者使用来自一部分标注者的数据训练奖励模型 , 发现它们能很好地预测不同标注者子集的偏好 。 这表明该模型并没有过拟合训练数据标注者的偏好 。 然而 , 研究者还需要做更多的工作来研究这些模型在更广泛的用户群体中的表现 , 以及在人们对相同输入产生不同预期时模型会如何表现 。
局限性
尽管已经取得了重大进展 , 但当前的 InstructGPT 模型还远远算不上与用户意图完全一致或对用户来说完全安全:它们仍然会产生有害、有偏见的输出 , 或者编造事实 , 并在没有明确警示的情况下产生色情、暴力内容 。 但是 , 机器学习系统的安全性不仅取决于底层模型的行为 , 还取决于这些模型的部署方式 。 OpenAI 表示 , 为了支持 OpenAI API 的安全性 , 他们将继续在应用程序上线之前对其进行审查 , 并提供内容过滤器来检测不安全的输出 , 监控其滥用情况 。
训练模型遵循用户指示还有一个副作用:如果用户指示它们产生不安全的输出 , 它们可能更容易被误用 。 因此 , 研究者要教模型拒绝某些指令 。 如何可靠地做到这一点将是一个重要的开放性研究问题 。
此外 , 在许多情况下 , 与标注者的平均偏好保持一致是不可取的 。 例如 , 当生成一定程度上影响了少数群体的文本时 , 该群体的偏好应该得到更多的权重 。 目前 , InstructGPT 接受的是用英语进行指导的训练 , 因此 , 它更偏向于讲英语的人的文化价值观 。 研究者也在逐渐了解标注者偏好之间的差异和分歧 , 这样就可以根据更具体的人群的价值观来设置模型 。 一般来说 , 根据特定人类的价值观调整模型输出会面临社会影响方面的抉择 , 最终必须建立负责任的、包容性的处理程序来做出这些决定 。
上述研究结果表明 , 这些技术在改善通用 AI 系统与人类意图的一致性方面是非常有效的 。 然而 , 这仅仅是个开始 。 研究者们还将继续推进这些技术 , 以改进当前和未来的模型 , 使之朝着对人类更安全、更有用的方向发展 。
参考内容:
https://openai.com/blog/instruction-following/
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
