文章图片
如何持续做技术产业化和商业化?这是属于商汤的「过程性资产」 。
作者 | 凌梓郡
虽然「通用人工智能」到来尚远 , 但 AI 为各行业提供颠覆性「工具」的能力已经毋庸置疑 。提供「工具」的前提是基础设施 。
以 2021 年最引人瞩目的科学突破 AlphaFold2 为例 , AI 用「暴力计算」的方式 , 准确预测了蛋白质的三维结构 , 解决了困扰结构生物学家 50 多年的难题 。 在这项突破背后 , 离不开谷歌提供的算力资源:128 块 TPU V3(大约相当于 100-200 个 GPU) , 运行了数周 。
1 月 24 日 , 落座在上海临港新片区的「商汤科技人工智能计算中心」(AIDC)正式启动运营 。 其建筑面积 13 万平方米、项目总投资约 56 亿元、一期机柜数量 5000 个 。 设计算力为每秒 3740 Petaflops(1 Petaflops 为每秒千万亿次浮点运算) 。 与之相比 , 目前国内已知最大的人工智能的算力中心是鹏城实验室的鹏城云脑 II , 输出 1000 Petaflops 算力 。
作为亚洲最大的 AI 软件平台公司 , 商汤科技很早就开始思考「基础设施」 。 对于商汤来说 , 面对的是复杂多样的场景 , 要源源不断提供各种算法 , 对基础设施的思考自然更为全面:它不仅仅是一个数据中心 , 高性能计算平台 , 也是为更多行业提供 AI 服务的物理基础 。
算力仅仅是一个指标的维度 。 更大的算力 , 意味着能够处理更大量的数据 。 但是更关键在于 「怎么能让这么大量的数据 , 进入到同一个算法网络中 。 」商汤科技联合创始人、副总裁杨帆解释说 。
文章图片
01
通用的 AI 基础设施
商汤对 AI 基础设施的探索从 2018 年就开始了 。
2018 年 , 商汤进行了原型机的预研项目 , 将 1000 块 GPU 卡连在同一个网络上 , 加载数据 , 并进行运算 。 在同一个网络上运行的难点在于 , 存储、计算、内部网络传输 , 这几个子系统之间需要形成紧密的耦合关系 。
那时 , 商汤在没有任何可供参照的案例经验和实验场地条件下 , 进行项目预研 。 到了 2020 年 3 月 , AIDC 立项启动 , 7 月在上海临港新片区正式启动建设 。 仅仅用了 168 天 , 就完成了从开工建设到结顶的过程 , 刷新了临港建设的新纪录 。 杨帆表示 ,「我自己作为一个程序员出身的软件公司的负责人 , 头一次去干土建项目 , 真的是感慨万千 。 」
目前 , 商汤的业务主要分为智慧商业、智慧城市、智慧生活 , 以及智能汽车四个板块 。 在这个四个板块之下的「底座」 , 就是「SenseCore 商汤 AI 大装置」 。 而 AIDC 则是「底座的底座」 。
SenseCore 商汤 AI 大装置是软硬一体的超大型通用 AI 基础设施 。 AIDC 是 AI 大装置的物理承载 。 在这个物理基础上 , 运行着深度学习平台、以及超过 22000 个商用模型形成的模型层 。
AIDC 的能力体现在 「算力真正可以被连接在一个大的网络里 , 去做共同训练」 。
技术亮点上 , AIDC 拥有「大规模数据处理及高性能计算能力」 。 分布式的任务调度系统 , 可以在成千上万个 GPU 上动态调度数以万计的计算任务 。 与之匹配 , 数据的输入/输出(IO)也会面临巨大压力 。 存储和 IO 系统必须要支持数据的快速随机访问 。 商汤 AIDC 允许训练任务每秒加载超过两百万张图片 , 保证训练任务可以全速运行 , 不必等待数据 。
数据是重要的生产资料 , 基础设施搭建的是一套系统 。 系统搭建得好 , 就能让系统内的数据发挥更大价值 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
