上海人工智能实验室联合商汤等发布通用视觉技术体系“书生”

11月17日 , 上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布新一代通用视觉技术体系“书生”(INTERN) , 该体系旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题 。
目前技术报告已在arXiv平台发布(https://arxiv.org/abs/2111.08687) , 基于“书生”的通用视觉开源平台OpenGVLab也将在明年年初正式开源 , 向学术界和产业界公开预训练模型及其使用范式、数据系统和评测基准等 。
任务通用和数据学习效率是制约当前人工智能发展的核心瓶颈问题 。 根据相关技术报告 , 一个“书生”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务 。 在ImageNet(www.image-net.org/challenges/LSVRC/index.php)等26个最具代表性的下游场景中 , 书生模型广泛展现了极强的通用性 , 显著提升了这些视觉场景中长尾小样本设定下的性能 。
相较于OpenAI于2021年发布的CLIP这一当前最强开源模型 , “书生”在准确率和数据使用效率上均取得大幅提升 。 基于同样的下游场景数据 , “书生”在分类、目标检测、语义分割及深度估计四大任务26个数据集上的平均错误率分别降低了40.2%、47.3%、34.8%和9.4% 。 “书生”在数据效率方面的提升尤为令人瞩目:只需要1/10的下游数据 , 就能超过CLIP(openai.com/blog/clip)基于完整下游数据的准确度 , 例如在花卉种类识别FLOWER(www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html)任务上 , 每一类只需两个训练样本 , 就能实现99.7%的准确率 。
上海人工智能实验室联合商汤等发布通用视觉技术体系“书生”
文章图片

“书生”在分类、目标检测、语义分割、深度估计四大任务26个数据集上 , 基于同样下游场景数据(10%) , 相较于最强开源模型CLIP-R50x16 , 平均错误率降低了40.2% , 47.3% , 34.8% , 9.4% 。 同时 , 书生只需要10%的下游数据 , 平均错误率就能全面低于完整(100%)下游数据训练的CLIP 。
随着人工智能赋能产业的不断深入 , 人工智能系统正在从完成单一任务向复杂的多任务协同演进 , 其覆盖的场景也越来越多样化 。 在自动驾驶、智能制造、智慧城市等众多长尾场景中 , 数据获取通常困难且昂贵 , 研发通用人工智能模型对于降低数据依赖尤为重要 。 而突破“工业应用红线”的模型 , 需满足同时完成多任务、覆盖大量长尾场景 , 且基于下游小样本数据进行再训练等要求 。
上海人工智能实验室、商汤科技、港中文以及上海交大联合推出的“书生”通用视觉技术体系 , 体现了产学研合作在通用视觉领域的全新探索 , 为走向通用人工智能迈出坚实一步 。 借助“书生”通用视觉技术体系 , 业界可凭借极低的下游数据采集成本 , 快速验证多个新场景 , 对于解锁实现人工智能长尾应用具有重要意义 。
“当前发展通用视觉的核心 , 是提升模型的通用泛化能力和学习过程中的数据效率 。 面向未来 , ’书生’通用视觉技术将实现以一个模型完成成百上千种任务 , 体系化解决人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题 。 ”上海人工智能实验室主任助理乔宇表示 。
商汤科技研究院院长王晓刚表示 , “‘书生’通用视觉技术体系是商汤在通用智能技术发展趋势下前瞻性布局的一次尝试 , 也是SenseCore商汤AI大装置背景下的一次新技术路径探索 。 ‘书生’承载了让人工智能参与处理多种复杂任务、适用多种场景和模态、有效进行小数据和非监督学习并最终具备接近人的通用视觉智能的期盼 。 希望这套技术体系能够帮助业界更好地探索和应用通用视觉AI技术 , 促进AI规模化落地 。 ”

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。