虽然这些新的多模式系统大多处于实验阶段 , 但也已经在实际应用中取得突破 。
- 开源社区将 CLIP 与生成对抗网络(GAN)相结合 , 开发出引人注目的数字艺术作品 。 艺术家 Martin O’Leary 使用 Samuel Coleridge 的史诗作品《忽必烈大汗》为输入 , 生成了充满迷幻色彩的“Sinuous Rills” 。
- Facebook 表示其多模式仇恨言论检测器能够标记并删除掉社交网络上 97% 的辱骂及有害内容 。 该系统能够根据文本、图像及视频等 10 种数据类型将模因与其他图像 - 文本对准确划分为“良性”或“有害” 。
- 谷歌表示已经在搜索引擎中添加了多模式(及多语言)功能 。 其多任务统一模型能够返回文本、音频、图像及视频链接 , 用以响应由 75 种语言提交的各类查询 。
今年的多模态发展态势源自几十年来坚实的研究基础 。
早在 1989 年 , 约翰霍普金斯大学和加州大学圣迭戈分校的研究人员就开发出一种基于元音的分类系统 , 用以识别人类语音中的音频与视觉数据 。
接下来的二十年间 , 更多研究小组先后尝试过数字视频库索引及基于证据 / 视觉数据的人类情绪分类等多模式应用方案 。
发展现状
图像与文本如此复杂 , 因此研究人员在很长一段时间内只能专注于其中一种 。 在此期间 , 他们开发出多种不同技术成果 。
但过去十年中 , 计算机视觉与自然语言处理已经在神经网络中得到有效融合 , 也让二者的最终合璧成为可能 —— 甚至音频集成也获得了参与的空间 。
万亿级参数
过去一年 , 模型经历了从大到更大的发展历程 。
背景信息:
谷歌用 Switch Transformer 拉开了 2021 年的序幕 , 这是人类历史上首个拥有万亿级参数的模型 , 总量达 1.6 万亿 。
北京人工智能研究院则回敬以包含 1.75 万亿参数的悟道 2.0 。
重要标杆
单纯拉高模型参数并没什么特别 。 但随着处理能力和数据源的增长 , 深度学习开始真正确立起“越大越好”的发展原则 。
财力雄厚的 AI 厂商正以狂热的速度堆积参数 , 既要提高性能、又要展示“肌肉” 。 特别是在语言模型方面 , 互联网厂商为无监督和半监督预训练提供了大量未经标记的数据 。
2018 年以来 , 这场参数层面的军备竞赛已经从 BERT(1.1 亿)、GPT-2(15 亿)、MegatronLM(83 亿)、Turing-NLG(170 亿)、GPT-3(1750 亿)一路走来 , 如今终于迈过了万亿级大关 。
挺好 , 但是……
模型的膨胀路线也带来了新的挑战 。 愈发庞大的模型令开发者们面临四大严酷障碍 。
- 数据:大型模型需要吸纳大量数据 , 但网络和数字图书馆等传统数据源往往提供不了这么多高质量素材 。 例如 , 研究人员常用的 BookCorpus 是一套包含 11000 本电子书的数据集 , 之前已被用于训练 30 多种大型语言模型;但其中包含某些宗教偏见 , 因为内容主要讨论基督教和伊斯兰教义 , 对其他宗教几无涉及 。
- 速度:如今的硬件仍难以处理大体量模型 , 当数据反复出入内存时 , 模型的训练和推理速度都会受到严重影响 。
另外 , 微软开发的 DeepSpeed 库则选择了并行处理数据、各层及层组的路线 , 并通过在 CPU 和 GPU 间划分任务以减少处理冗余 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
