11月3日 , 寒武纪(688256)发布第三代云端AI芯片思元370、基于思元370的两款加速卡MLU370-S4和MLU370-X4、全新升级的CambriconNeuware软件栈 。
基于7nm制程工艺 , 思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片 , 集成了390亿个晶体管 , 最大算力高达256TOPS(INT8) , 是寒武纪第二代产品思元270算力的2倍 。 思元370也是国内第一颗支持LPDDR5内存的云端AI芯片 , 内存带宽是上一代产品的3倍 , 访存能效达GDDR6的1.5倍 。
同时 , 寒武纪全新升级了CambriconNeuware软件栈 , 新增推理加速引擎MagicMind , 实现训推一体 , 显著提升了开发部署的效率 , 降低用户的学习成本、开发成本和运营成本 。
【寒武纪发布第三代云端AI芯片思元370 产品进入早期销售阶段】新一代智能处理器架构
寒武纪智能处理器架构MLUarch03 , 拥有新一代张量运算单元 , 内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术 , 在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集 , 更完备 , 更高效且向前兼容 。
值得强调的是 , 寒武纪坚持自研智能芯片架构、指令集 , 是全球范围内在该技术方向积累最为深厚的公司之一 。 MagicMind是寒武纪全新打造的推理加速引擎 , 也是业界首个基于MLIR图编译技术达到商业化部署能力的推理引擎 , 用户仅需投入极少的开发成本 , 即可将推理业务部署到寒武纪全系列产品上 , 并获得颇具竞争力的性能 。
思元370升级了视频图像编解码单元 , 可提供更高效的视频处理能力和更优的编码质量 , 支持更复杂、更繁重、低延时要求的计算机视觉任务 。
此次发布中 , 两款基于思元370的加速卡正式亮相:高密度、半高半长、功耗75W的MLU370-S4智能加速卡和高性能、全高全长、功耗150W的MLU370-X4智能加速卡 。 与上一代产品相比 , 370系列加速卡在性能、能效方面都有更为卓越的表现 。 例如 , 对标准ResNet-50v1进行软件定制优化后 , MLU370-X4加速卡性能高达30204fps 。
据了解 , 此次寒武纪发布了两款加速卡 , 未来还将推出更多基于思元370的产品 。
产品进入早期销售阶段
从云端推理思元270、边缘推理思元220、云端训练思元290 , 到最新发布的推训一体思元370 , 寒武纪为用户提供了覆盖不同场景、不同算力规模的全系列产品 。 此次发布的256TOPS算力的思元370主要面向中高端推训场景 , 与主要面向训练的512TOPS高端产品思元290形成协同 , 共同为客户提供全功能、全场景的智能算力 。
思元370在2020年三季度流片 , 相关加速卡产品于2021年二季度陆续送测客户 。 目前 , 部分客户已完成测试、导入 , 产品进入早期销售阶段 。
阿里云基础设施异构计算负责人张伟丰博士表示 , 阿里云基础设施异构计算团队已经完成了思元370的测试及导入 , 结合阿里云震旦异构计算加速平台完成了ODLA的接口适配 , 总体性能表现超出预期 。 百度异构计算架构师黎世勇表示 , 自2018年起 , 百度与寒武纪展开了多维度的软硬件协作 , 思元100等产品服务百度语音合成等多种业务场景 。
日前寒武纪发布了2021第三季度业绩报告 。 2021年前三季度 , 寒武纪营业收入2.22亿元 , 同比增长41.19%;研发投入合计7.04亿元 , 同比增加62.62% , 研发投入占营业收入的比例为316.72% , 同比增加41.74% 。
资料显示 , 寒武纪自成立以来一直专注于人工智能芯片产品的研发与技术创新 , 致力于打造人工智能领域的核心处理器芯片 。 寒武纪的主营业务是应用于各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、设计和销售 , 以及为客户提供丰富的芯片产品与系统软件解决方案 。 目前 , 寒武纪的主要产品线包括云端产品线、边缘产品线、处理器IP授权及软件 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
