超越现有指标57.3%,邢波教授、胡志挺教授团队提统一NLG评价框架

机器之心专栏
作者:邓茗楷

长期以来 , 评价机器生成的文本比较困难 。 近日 , CMU邢波(Eric Xing)教授和UCSD胡志挺(Zhiting Hu)教授的团队提出用一种运算符 , 统一各类生成任务的评价方式 , 为未来各种新任务、新要求提供了更加统一的指导 。 实验表明 , 基于统一框架设计的评价指标 , 在多个任务上超过了现有指标与人工评分的相似度 , 现在通过PyPI和GitHub可以直接调用 。
【超越现有指标57.3%,邢波教授、胡志挺教授团队提统一NLG评价框架】自然语言生成(NLG)包括机器翻译、摘要生成、机器对话等自然语言处理 (NLP)任务 。 这些任务虽然都要求生成通顺的文本 , 但是最终的表达目标往往有很大的区别 。 比如说 , 翻译任务需要完整、精确地表达原文的含义;摘要生成需要简洁、准确地体现原文最重要的信息;对话系统则需要与用户进行生动、有用的对答 。
过去几年间 , 研究人员在这些任务的建模方面 , 取得了很大的进步 。 然而 , 评价语言生成的结果 , 却依旧比较困难 。 人工评价最准确 , 但是非常昂贵耗时 。 自动评价则反过来 , 规模化比较容易 , 但在如何评价方面比较模糊 。
传统上的评价方法是比较模型生成的文本与人写的参考文本 , 但近年的研究表明 , 随着模型的进步 , 这样的方法已经越来越难以区分文本的好坏 。 事实上 , 在AAAI 2021会议上的DSTC9对话系统比赛中 , 人工评分已经不再考虑参考文本 , 而是依靠评分员综合对话历史、知识情景和模型回答 , 作出评判 。
同时 , 实际应用中的部署 , 也要求对生成模型作出多维度的评价 , 而这些是传统的单一指标做不到的 。 比如 , 2021年百度主办的「千言:面向事实一致性的生成评测比赛」中 , 除了传统的信息选择指标外 , 还考察了事实性指标 , 并为之设计了独立的评价流程 。 之前提到的DSTC9比赛的各个分赛也分别考察了3-8个不同的维度指标 。
为了解决如上所述的新需求 , 相关工作提出了各种各样的评价方法和新指标 , 但是这些方法往往是针对具体的任务和目标而设计 。 对于日新月异的各类任务 , 要评价什么?如何评价?目前还缺乏系统的指导 。
在这个方向上 , CMU(卡耐基梅隆大学)、Petuum Inc.、MBZUAI(穆罕默德·本·扎耶德人工智能大学)和UCSD(加州大学圣迭戈分校)的研究团队提出了一个自然语言生成评价的理论框架 , 为未来各种新任务和新要求 , 设计评估流程时 , 都提供了更加统一的指导 。
首先 , 研究人员根据信息从输入到输出的变化方式 , 把语言生成任务分为三大类 , 每类任务对输出提出不同的评价需求 。 通过给新任务归类 , 就可以对「评价什么」有所启发 。
其次 , 他们用一种称为「信息对齐」的运算符统一了所有任务类别的评价方式 , 从信息对齐的角度出发设计评价指标 , 可以解决大量的「如何评价」问题 。
论文中基于信息对齐 , 统一设计了一系列评价指标 , 在评价多种任务(摘要生成、风格转换和知识对话)中与人类评分的相似度最高超过现有指标57.30% 。
论文中设计的评价指标已经上传到Python库 , 用pip install就可以直接安装 。 研究人员在GitHub上也公开了代码 , 并提供了数种训练好的信息对齐模型 , 欢迎各位同学在研究中调用 。
超越现有指标57.3%,邢波教授、胡志挺教授团队提统一NLG评价框架
文章图片

  • 论文链接:https://arxiv.org/pdf/2109.06379.pdf

    特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。