机器之心发布
机器之心编辑部
PaddleNLP v2.1 正式发布啦!PaddleNLP 是兼具科研学习和产业实践能力的 Python NLP 工具包 , 提供中文领域丰富的预训练模型和部署工具 , 被高校、企业开发者广泛应用 。 近日 , PaddleNLP v2.1 正式发布 , 为开发者带来三项重要更新:
- 开箱即用的产业级 NLP 预置任务能力 Taskflow:八大经典场景一键预测 。
- 预训练时代的微调新范式应用:三行代码显著提升小样本学习效果 。
- 高性能预测加速:文本生成任务高达 28 倍加速效果 。
PaddleNLP 整体开源能力速览 PaddleNLP 是飞桨生态的自然语言处理开发库 , 旨在提升文本领域的开发效率 , 为开发者带来模型构建、训练及预测部署的全流程优质体验 。
文章图片
PaddleNLP 功能全景图
PaddleNLP 项目自发布以来 , 就受到广大 NLPer 的关注 。 在 2021 年 6 月 PaddleNLP 官方直播打卡课中 , 有 7000+ 用户参加 PaddleNLP 的项目学习和实践 , 加速了自身科研和业务实践进程 , 同时也带动 PaddleNLP 多次登上 GitHub Trending 榜单 。
文章图片
那么最近的 2021 年 10 月份更新 , PaddleNLP 又给大家带来哪些惊喜呢?下文将为您逐一细细解读 。
PaddleNLP 全新升级深入解读 开箱即用的工业级NLP 预置任务能力——Taskflow
依托于百度在多年语言与知识领域的业务积淀 , PaddleNLP 面向 NLP 八种任务场景 , 聚合了众多百度自研的算法以及社区开源模型 , 并凭借飞桨核心框架的能力升级提供开箱即用、极致优化的高性能一键预测能力——Taskflow 。
本次 Taskflow 升级覆盖自然语言理解(NLU)和生成(NLG)两大场景共八大任务 , 包括中文分词、词性标注、命名实体识别、句法分析、文本纠错、情感分析、生成式问答和智能写诗 。
这些高质量模型的背后 , 一方面聚合了百度在语言与知识领域多年的业务积淀和领先的开源成果:如词法分析工具 LAC、句法分析工具 DDParser、情感分析系统 Senta、文心 ERNIE 系列家族模型、开放域对话预训练模型 PLATO、文本知识关联框架解语等;另一方面也涵盖了开源社区优秀的中文预训练模型如 CPM 等 。
未来 Taskflow 会随着 PaddleNLP 的版本迭代不断扩充技能 , 如开放域对话、文本翻译、信息抽取等能力 , 以满足更多 NLP 开发者的需求 。
如下图所示 , 通过 PaddleNLP Taskflow , 只需要一行代码 , 传入任务名称即可自动选择最优的预置模型 , 并且以极致优化的方式完成推理 , 开发者可以方便地集成到下游的应用中 。
文章图片
Taskflow 使用示意图
项目地址:https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/taskflow.md
预训练时代的微调新范式应用:三行代码提升小样本学习效果
Few-Shot Learning(以下简称 FSL)是机器学习的一个子领域 。 在仅有少数监督样本的情况下 , 训练得到强泛化能力的模型 , 实现对新数据的分类 。
结合最新的 Prompt Tuning 的思想 , PaddleNLP 中集成了三大前沿 FSL 算法:
- EFL(Entailment as Few-Shot Learner)[1] , 将 NLP Fine-tune 任务统一转换为二分类的文本蕴含任务;
- PET(Pattern-Exploiting Training)[2] , 通过人工构建模板 , 将分类任务转成完形填空任务;
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
