幸运的是 , 谷歌开源 Pegasus 库(用于自动生成文章摘要)中的关键发现之一是:有效的预训练阶段在微调阶段需要更少的监督数据 。 一些摘要生成基准只需要 1000 个 Pegasus 的微调示例即能媲美需要 10000 + 监督示例的 Transformer 基线性能 , 这表明我们可以专注于模型质量而非数量 。
谷歌精心地清理和过滤了微调数据 , 以包含更一致且更代表连贯摘要的训练示例 。 尽管训练数据量减少了 , 但生成了更高质量的模型 。 正如数据集蒸馏等其他领域最近的工作一样 , 我们可以得到以下这个重要教训 , 即更小的高质量数据集要优于更大的高方差数据集 。
服务
一旦训练了高质量模型 , 谷歌转向解决在生产中为模型提供服务时面临的挑战 。 Transformer 版本的编码器 - 解码器架构是为摘要生成等序列到序列任务训练模型的主流方法 , 但该方法在实际应用中提供服务时效率低且不实用 。 效率低主要归咎于 Transformer 解码器 , 它利用自回归解码来逐 token 地生成输出摘要 。 当摘要更长时 , 解码过程变得很慢 , 这是因为解码器在每一步都要处理之前生成的所有 token 。 循环神经网络(RNN)是更高效的解码架构 , 这得益于它不像 Transformer 模型那样对之前的 token 施加自注意力 。
谷歌使用知识蒸馏(将知识从大模型迁移到更小更高效模型的过程)将 Pegasus 模型提炼为包含 Transformer 编码器和 RNN 解码器的混合架构 。 为了提高效率 , 谷歌还减少了 RNN 解码器层的数量 。 生成的模型在延迟和内存占用方面有显著改善 , 而质量仍与原始模型相当 。 为了进一步改善延迟和用户体验 , 谷歌使用 TPU 为摘要生成模型服务 , 这实现了显著加速并允许单台机器处理更多请求 。
持续的挑战
虽然谷歌对迄今为止取得的进展感到兴奋 , 但仍要继续应对以下一些挑战:
文档覆盖率:由于文档之间存在显著差异 , 因此在微调阶段开发一组文档很难 。 推理阶段也存在同样的挑战 。 此外 , 谷歌用户创建的一些文档(如会议记录、食谱、课程计划和简历)不适合总结或难以总结 。
评估:抽象摘要需要捕捉文档的本质 , 保持流畅且语法正确 。 一个特定的文档可能存在许多可被认为正确的摘要 , 不同的用户也可能喜欢不同的摘要 。 这使得仅使用自动指标评估摘要变得困难 , 用户反馈和使用情况统计对于谷歌理解和不断提高模型质量至关重要 。
长文档:模型最难生成长文档的摘要 , 因为它更难捕获所有要点并抽象(总结)在一个摘要中 。 此外 , 长文档的训练和服务期间内存占用显著增加 。 但是 , 长文档对于模型自动生成摘要这一任务而言可能最有用 , 因为它可以帮助文档编写者在这项繁琐的任务中抢占先机 。 谷歌希望可以应用最新的 ML 进展来更好地应对这一挑战 。
原文链接:
https://ai.googleblog.com/2022/03/auto-generated-summaries-in-google-docs.html
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
