2021年 , 浪潮AI服务器在MLPerf?数据中心AI推理场景的总32项任务中斩获17项冠军 , 在边缘AI推理场景的总31项任务中斩获16项冠军 , 从云到边全面领先;在单机AI训练场景的16项任务中浪潮AI服务器共斩获11项冠军 。
文章图片
可以说 , 无论是从MLPerf?榜单 , 还是实际应用的角度 , 中国系统厂商在AI计算确实走在了前列 。
系统级创新 , 榜单背后的硬核支撑
所谓知其然 , 需知所以然 。 中国系统厂商缘何会在MLPerf?榜单中名列前茅?
众所周知 , 对于AI算力 , 虽然芯片是核心 , 但事实是 , 芯片从造出来到大规模用起来 , 往往还隔着一个巨大的产业链鸿沟 , 主要体现在 , 算力的供给需要构建算力平台 , 需要解决架构设计、核心部件、高速互联、散热设计等一系列工程问题 。 而要解决这些问题 , 就涉及到系统创新 。
需要提醒的是 , 千万不要忽视系统创新的难度 , 具体到一台AI服务器 , 除了芯片外 , 系统厂商需要解决超过300个关键的过程控制点和设计难题 , 同时还需要解决与算法框架和AI应用的优化和适配等挑战 。
业内知道 , 与单纯的芯片厂商相比 , 系统厂商由于长期位居服务市场和客户的最前沿(离市场和用户最近) , 最知晓他们的痛点和需求 , 所以在我们看来 , 有且只有系统厂商 , 依靠其系统级的创新能力 , 有的放矢 , 化解我们前述面临的挑战 , 最终释放出AI算力的最大价值 , 高效率地输出算力 , 满足市场和用户实际的应用场景及业务需求 。 而这一规律 , 通过此次和全年霸榜MLPerf?的中国系统厂商浪潮信息在AI计算系统创新方面的系统设计和全栈优化能力的表现得到了很好的验证 。
具体表现在 , 针对AI训练中常见的密集I/O传输瓶颈 , 浪潮AI服务器以领先设计大幅降低通信延迟 , 极大提升了AI训练效率;同时 , 针对高负载多GPU协同任务调度 , 对NUMA节点与GPU之间的数据传输进行全面优化和深度调校 , 确保训练任务中的数据IO无阻塞;在散热层面 , 针对目前业界功率最高的A100-SXM-80GB(500W) GPU , 浪潮率先开发的先进冷板液冷系统 , 确保GPU在全功率甚负载下依然稳定工作 , 将AI计算系统的性能发挥到极致 。
针对不同AI任务的计算特点 , 浪潮AI服务器的精细化调优能力也走在前列 。 在2020年的MLPerf? V0.7评测中 , 浪潮信息开创性提出效率更高的图像分类(ResNet50)收敛性优化方案 , 即在ImageNet数据集上 , 仅使用85%的迭代步数就达到了75.9%的目标精度 , 该优化方案将训练性能提升了15% 。 目前 , 该方案已被MLPerf社区成员普遍采纳 。 此外 , 在本次V1.1竞赛中 , 浪潮信息对Resnet任务中的图像的前处理进行了优化 , 使用DALI框架并在GPU上运行解码 , 解决了CPU运行的计算瓶颈 , 实现了浪潮信息在ResNet任务上连续3届领先 。
由此看 , 本次浪潮AI服务器在8项AI训练任务中 , 取得7项冠军 , 正体现了浪潮AI服务器对多元AI计算场景的洞察和深刻理解 。
除了具备系统级的创新能力外 , 我们认为在解决这些市场和用户痛点及满足他们需求的同时 , 系统厂商还能形成自己对于相关产业发展趋势的洞察和理解 , 做到先知先觉 , 并率先付诸于行动 , 进而形成市场先发和领先优势 。
例如鉴于人工智能在算法领域的不断突破 , 不同数值精度带来了跨度更大的计算类型 , 对计算芯片指令集、架构的要求更加细分 。 对此 , 图灵奖获得者 John Hennessy和 David Patterson2019年共同发表的《计算机架构的新黄金时代》 , 详见原文https://cacm.acm.org/magazines/2019/2/234352-a-new-golden-age-for-computer-architecture/fulltext中提出:当摩尔定律不再适用 , 一种更以硬件为中心的针对特定问题领域定制设计计算机体系架构的方法DSAs(Domain-Specific Architectures)会成为主导 , 这种设计的核心在于针对特定问题或特定领域来定义计算架构 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
