以算力池化提升GPU利用率,这家公司要用软件定义算力|REAL 100

【以算力池化提升GPU利用率,这家公司要用软件定义算力|REAL 100】以算力池化提升GPU利用率,这家公司要用软件定义算力|REAL 100
文章图片

图片来源:图虫

采访人员|于浩
把自己想象成80岁的模样 , 并回望自己的一生 , 尽力把遗憾事件的数量降到最低 。 这是贝索斯所提出的遗憾最小化框架 。 在考虑是否创立亚马逊时 , 贝索斯也曾因创业的不确定性而犹豫 。 正是遗憾最小化框架使得他最终迈出了这一步 。
在2018年底 , 王鲲也凭借着这一框架做出了创业的决定 。 经历过CPU虚拟化的技术浪潮后 , 时任Dell EMC中国研究院院长的王鲲意识到 , 当前数据中心里 , 与计算、存储、网络三个主要支柱相关的硬件资源都需要被很好地软件定义 。
当时在软件定义CPU的赛道上 , 已经出现了如VMware的巨头公司 , 但同为算力来源的GPU方面 , 却并未出现足够优秀的虚拟化解决方案 。 截止2021年12月29日收盘 , VMware的市值为493.02亿美元 , 2021财年总收入为117.67亿美元 。 另一方面 , 随着AI、区块链等技术的发展与应用 , GPU的应用场景正在加速扩展 , 对于虚拟化解决方案的需求也愈发强烈 。
王鲲所看到的正是这样一个机会 。 在2018年底 , 他下定决心从Dell EMC中国研究院离职 , 创立了趋动科技 。 12月27日 , 趋动科技宣布已完成数亿元人民币B+轮融资 , 由普罗资本旗下国开装备基金领投 , 老股东Prosperity7 Ventures、元禾重元、高瓴创投跟投 。
据王鲲介绍 , 趋动科技的产品线包含OrionX猎户座AI算力资源池化软件与双子座GEMINI AI训练平台 。 其中 , OrionX猎户座AI算力资源池化软件目标在于帮助用户提高资源利用率和降低TCO 。 双子座GEMINI AI训练平台则是针对传统行业的客户 , 在OrionX的基础上为其提供AI算力管理、算法开发、训练支持等整套服务 , 并搭配图形化界面以降低使用门槛 。
回归算力本身 , AI领域内不断增长的算力需求与现有GPU的低利用率之间的矛盾一直存在 。
一方面 , GPU芯片公司英伟达公布其2022财年第3季度收入达71亿美元 , 最近4个季度增长率均超过65%;但在另一方面 , AWS在AWS re:Invent 2018大会曾提及 , 在AWS上GPU利用率只有10%至30% 。
“用户如果直接访问硬件 , 那么硬件管理会变得非常复杂 , 效率也会很低 。 ”王鲲将芯片比喻为大巴车 , 而要运用算力执行的任务被比喻为旅行团 。 “如果团里只有三五个人还要派一辆大巴车 , 那么必然存在资源的浪费 。 ”而被软件定义之后 , GPU算力资源被虚拟化 , 用户由管理“大巴车”变为了管理“座位” , 可以依据任务需要调配适当的算力 。
在完成了虚拟化之后 , 趋动科技也支持将GPU资源池化 , 其中远程调用算力的能力至关重要 。 通过这一能力 , 用户即便在未搭载GPU的服务器上 , 也能够远程调用外部被虚拟化的算力运行计算任务 。 也得益于这一能力 , 原先以物理节点形式分散分布的算力得以汇总成一个算力资源池 , 提升用户的管理效率的同时可降低其使用成本 。
实现远程调用算力的同时确保计算效率并不容易 。 据王鲲介绍 , 因为计算量过大 , 运行一个程序一秒钟需要调用GPU的次数将超过100万次 , 数据循环往复的过程会极大影响性能 , 因此远程调用算力时需要在网络、GPU、底层操作系统等多方面进行优化 。
这也是趋动科技的技术壁垒之一 。 “按100分的基准来看 , 如果不做优化 , 可能只能得一分或两分 , 但我们做完优化后 , 趋动的方案可以得到98分甚至更高 , 几乎和直接使用硬件没什么区别 。 ”王鲲在采访中强调 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。